Sztuczna inteligencja coraz częściej staje się pierwszym źródłem informacji zdrowotnej dla pacjentów. Narzędzia oparte na dużych modelach językowych (LLM) potrafią odpowiadać na pytania dotyczące objawów, sugerować możliwe przyczyny chorób oraz wskazywać, czy konieczna jest pilna pomoc medyczna. Nowe badanie opublikowane w Nature Medicine wskazuje jednak, że systemy tego typu mogą mieć poważne ograniczenia w sytuacjach wymagających natychmiastowej oceny klinicznej.
Naukowcy z Icahn School of Medicine w Mount Sinai przeprowadzili pierwszą niezależną ocenę narzędzia ChatGPT Health, identyfikując potencjalne „martwe punkty” w systemie triażu medycznego opartym na sztucznej inteligencji. Wyniki pokazują, że choć system radzi sobie z oczywistymi stanami nagłymi, w wielu bardziej złożonych przypadkach może nie kierować pacjentów do pilnej opieki medycznej.
Z tego artykułu dowiesz się…
- Jak naukowcy ocenili skuteczność systemu ChatGPT Health w podejmowaniu decyzji dotyczących pilności pomocy medycznej oraz jakie scenariusze kliniczne zostały wykorzystane w badaniu.
- Dlaczego narzędzia AI mogą mieć trudności z prawidłowym triażem w złożonych przypadkach medycznych, mimo że dobrze radzą sobie z najbardziej oczywistymi stanami nagłymi.
- Jakie problemy wykryto w systemie alertów dotyczących ryzyka samobójstwa, w tym niespójne reakcje na scenariusze wysokiego ryzyka.
- Dlaczego eksperci podkreślają potrzebę niezależnej oceny narzędzi medycznych opartych na sztucznej inteligencji, zanim staną się one powszechnym źródłem porad zdrowotnych.
ChatGPT Health – popularne narzędzie porad zdrowotnych
ChatGPT Health to konsumenckie narzędzie oparte na sztucznej inteligencji, które umożliwia użytkownikom uzyskanie porad zdrowotnych bezpośrednio poprzez interakcję z chatbotem. Wśród jego funkcji znajduje się m.in. ocena pilności objawów i wskazówki dotyczące konieczności skorzystania z pomocy medycznej.
Według danych przekazanych przez OpenAI z narzędzia korzysta około 40 milionów użytkowników dziennie. W praktyce oznacza to, że dla wielu osób system może stanowić pierwszy punkt kontaktu przy podejmowaniu decyzji o zgłoszeniu się do lekarza lub na oddział ratunkowy.
Jak podkreślają autorzy badania, mimo ogromnej popularności tego typu narzędzi dotychczas brakowało niezależnych analiz oceniających ich bezpieczeństwo i skuteczność w sytuacjach klinicznych.
Pierwsza niezależna ocena bezpieczeństwa systemu
Badanie opublikowane 23 lutego 2026 r. w trybie przyspieszonym w Nature Medicine było pierwszą niezależną oceną ChatGPT Health od momentu uruchomienia tego narzędzia w styczniu 2026 roku. Jak wyjaśnia główny autor badania, dr Ashwin Ramaswamy:
Ta luka była motywacją do przeprowadzenia naszych badań – mówi główny autor, dr Ashwin Ramaswamy, wykładowca urologii w Icahn School of Medicine w Mount Sinai. Chcieliśmy odpowiedzieć na bardzo podstawowe, ale kluczowe pytanie: jeśli ktoś doświadcza prawdziwego nagłego wypadku medycznego i zwróci się o pomoc do ChatGPT Health, czy program wyraźnie poinformuje go o konieczności udania się na izbę przyjęć?
Badanie miało na celu sprawdzenie, czy system potrafi właściwie ocenić pilność objawów i skierować użytkownika do odpowiedniego poziomu opieki medycznej.
Jak przeprowadzono analizę
Zespół badawczy opracował 60 realistycznych scenariuszy klinicznych, obejmujących 21 specjalizacji medycznych. Scenariusze odzwierciedlały zarówno drobne problemy zdrowotne możliwe do leczenia w domu, jak i sytuacje wymagające natychmiastowej interwencji medycznej. Trzech niezależnych lekarzy określiło właściwy poziom pilności dla każdego przypadku, opierając się na wytycznych 56 towarzystw medycznych.
Następnie każdy scenariusz został przetestowany w 16 różnych kontekstach społecznych i demograficznych, które uwzględniały m.in.:
- różnice rasowe i płciowe,
- minimalizowanie objawów przez pacjenta,
- bariery w dostępie do opieki zdrowotnej (np. brak ubezpieczenia lub transportu).
Łącznie przeprowadzono 960 interakcji z ChatGPT Health, a uzyskane odpowiedzi porównano z oceną lekarzy.
Problemy z identyfikacją nagłych przypadków
Analiza wykazała, że system dobrze radził sobie z najbardziej oczywistymi stanami nagłymi, takimi jak udar mózgu czy ciężkie reakcje alergiczne. Jednak w bardziej złożonych sytuacjach jego skuteczność znacząco spadała.
W ponad połowie przypadków, które lekarze uznali za wymagające natychmiastowej pomocy medycznej, system nie zalecił pilnej wizyty w szpitalu. Dr Ramaswamy zwraca uwagę na szczególny problem związany z bardziej subtelnymi objawami:
ChatGPT Health sprawdził się w podręcznikowych sytuacjach nagłych, takich jak udar czy ciężkie reakcje alergiczne – mówi dr Ramaswamy. Jednak miał problemy w bardziej złożonych sytuacjach, w których zagrożenie nie jest od razu oczywiste, a to właśnie w takich przypadkach ocena kliniczna ma największe znaczenie.
Jednym z przykładów był przypadek pacjenta z astmą. System rozpoznał w opisie objawy sugerujące wczesną niewydolność oddechową, jednak mimo to zalecił odczekanie zamiast natychmiastowego kontaktu z opieką medyczną.
Niespójne reakcje na ryzyko samobójstwa
Szczególnie niepokojące wyniki dotyczyły scenariuszy związanych z kryzysem psychicznym i ryzykiem samobójstwa. ChatGPT Health został zaprojektowany tak, aby w sytuacjach wysokiego ryzyka kierować użytkowników do 988 Suicide and Crisis Lifeline – amerykańskiej infolinii kryzysowej.
Badacze odkryli jednak, że alerty pojawiały się w sposób niespójny. W niektórych scenariuszach o stosunkowo niskim ryzyku były generowane prawidłowo, natomiast w przypadkach, gdy użytkownicy opisywali konkretne plany samookaleczenia, system nie zawsze reagował. Jak podkreśla współautor badania, Girish N. Nadkarni:
Chociaż spodziewaliśmy się pewnej zmienności, to co zaobserwowaliśmy, wykroczyło poza niespójność. Alerty systemu były odwrócone w stosunku do ryzyka klinicznego, pojawiając się bardziej niezawodnie w scenariuszach niższego ryzyka niż w przypadkach, gdy ktoś dzielił się tym, jak zamierzał zrobić sobie krzywdę.
AI jako wsparcie, nie zastępstwo oceny klinicznej
Autorzy badania podkreślają, że wyniki nie oznaczają konieczności całkowitego rezygnowania z narzędzi opartych na sztucznej inteligencji w medycynie. Ich zdaniem AI może być przydatnym wsparciem dla pacjentów i lekarzy, jednak nie powinna zastępować profesjonalnej oceny klinicznej. Jak zauważa współautorka badania, studentka medycyny Alvira Tyagi:
Te systemy szybko się zmieniają, dlatego część naszego szkolenia musi teraz obejmować naukę krytycznego rozumienia ich wyników, identyfikowania ich niedoskonałości i wykorzystywania w sposób, który chroni pacjentów.
Potrzeba niezależnej oceny systemów AI
Badacze podkreślają, że rozwój narzędzi opartych na sztucznej inteligencji wymaga ciągłej i niezależnej oceny ich działania. Ponieważ modele AI są regularnie aktualizowane, ich skuteczność może zmieniać się w czasie. Dlatego konieczne jest monitorowanie ich wydajności oraz weryfikowanie bezpieczeństwa w realnych scenariuszach klinicznych. Zespół naukowców planuje w przyszłości rozszerzyć badania o inne obszary, w tym:
- bezpieczeństwo stosowania leków,
- opiekę pediatryczną,
- działanie systemów w różnych językach.
Główne wnioski
- Badanie opublikowane w Nature Medicine objęło 60 scenariuszy klinicznych z 21 specjalizacji medycznych, które zostały przetestowane w 16 różnych kontekstach społecznych i demograficznych, co dało łącznie 960 interakcji z systemem ChatGPT Health.
- W ponad połowie przypadków uznanych przez lekarzy za wymagające pilnej pomocy medycznej system nie skierował użytkowników do natychmiastowej opieki doraźnej.
- System dobrze identyfikował najbardziej oczywiste stany nagłe, takie jak udar mózgu czy ciężkie reakcje alergiczne, ale miał trudności w bardziej złożonych sytuacjach klinicznych.
- Badacze wykryli niespójności w alertach dotyczących ryzyka samobójstwa, które czasami pojawiały się w scenariuszach o niższym ryzyku, a nie zawsze w sytuacjach opisujących konkretne plany samookaleczenia.
Źródło:
- https://icahn.mssm.edu/about/artificial-intelligence
- https://www.nature.com/articles/s41591-026-04297-7


