🦁 MedKG — polski medyczny graf wiedzy + pytania multi-hop

Demo replikuje pomysł Hana Xiao dla polskiej wiedzy medycznej: z korpusu (tu: artykuły polskiej Wikipedii) ekstrahowane są trójki (podmiot, predykat, obiekt), deduplikowane (lematyzacja Morfeuszem + embeddingi), a predykaty mapowane na mały słownik relacji kanonicznych (POWODUJE, LECZY, CZYNNIK_RYZYKA…). Z wieloetapowych ścieżek grafu generowane są trudne pytania multi-hop weryfikowalne ze źródeł.

Każde pytanie przeszło 5 bramek: wynika z dowodów, jest rozwiązywalne z korpusu, nie jest rozwiązywalne przez silny model bez wyszukiwania (filtr trywialności), nie zdradza odpowiedzi, a jego wieloetapowość jest nośna (nie da się go skrócić do jednego faktu).

Pełna baza: 2378 encji, 2375 relacji (przeglądalna w tabeli poniżej). Graf pokazuje szkielet wieloetapowy — węzły wydobytych ścieżek; czerwona = najdłuższa ścieżka.

Przeglądarka relacji