ReklamaWsparcie przy grancie POZ
Strona głównaBadaniaChatGPT Health może nie rozpoznawać nagłych przypadków medycznych. Nowe badanie budzi obawy

ChatGPT Health może nie rozpoznawać nagłych przypadków medycznych. Nowe badanie budzi obawy

Aktualizacja 09-03-2026 13:08

Sztuczna inteligencja coraz częściej staje się pierwszym źródłem informacji zdrowotnej dla pacjentów. Narzędzia oparte na dużych modelach językowych (LLM) potrafią odpowiadać na pytania dotyczące objawów, sugerować możliwe przyczyny chorób oraz wskazywać, czy konieczna jest pilna pomoc medyczna. Nowe badanie opublikowane w Nature Medicine wskazuje jednak, że systemy tego typu mogą mieć poważne ograniczenia w sytuacjach wymagających natychmiastowej oceny klinicznej.

Naukowcy z Icahn School of Medicine w Mount Sinai przeprowadzili pierwszą niezależną ocenę narzędzia ChatGPT Health, identyfikując potencjalne „martwe punkty” w systemie triażu medycznego opartym na sztucznej inteligencji. Wyniki pokazują, że choć system radzi sobie z oczywistymi stanami nagłymi, w wielu bardziej złożonych przypadkach może nie kierować pacjentów do pilnej opieki medycznej.

Z tego artykułu dowiesz się…

  • Jak naukowcy ocenili skuteczność systemu ChatGPT Health w podejmowaniu decyzji dotyczących pilności pomocy medycznej oraz jakie scenariusze kliniczne zostały wykorzystane w badaniu.
  • Dlaczego narzędzia AI mogą mieć trudności z prawidłowym triażem w złożonych przypadkach medycznych, mimo że dobrze radzą sobie z najbardziej oczywistymi stanami nagłymi.
  • Jakie problemy wykryto w systemie alertów dotyczących ryzyka samobójstwa, w tym niespójne reakcje na scenariusze wysokiego ryzyka.
  • Dlaczego eksperci podkreślają potrzebę niezależnej oceny narzędzi medycznych opartych na sztucznej inteligencji, zanim staną się one powszechnym źródłem porad zdrowotnych.

ChatGPT Health – popularne narzędzie porad zdrowotnych

ChatGPT Health to konsumenckie narzędzie oparte na sztucznej inteligencji, które umożliwia użytkownikom uzyskanie porad zdrowotnych bezpośrednio poprzez interakcję z chatbotem. Wśród jego funkcji znajduje się m.in. ocena pilności objawów i wskazówki dotyczące konieczności skorzystania z pomocy medycznej.

Według danych przekazanych przez OpenAI z narzędzia korzysta około 40 milionów użytkowników dziennie. W praktyce oznacza to, że dla wielu osób system może stanowić pierwszy punkt kontaktu przy podejmowaniu decyzji o zgłoszeniu się do lekarza lub na oddział ratunkowy.

Jak podkreślają autorzy badania, mimo ogromnej popularności tego typu narzędzi dotychczas brakowało niezależnych analiz oceniających ich bezpieczeństwo i skuteczność w sytuacjach klinicznych.

Chatboty nie pomagają pacjentom. Badanie wykazało ryzyko błędnych porad
ZOBACZ KONIECZNIE Chatboty nie pomagają pacjentom. Badanie wykazało ryzyko błędnych porad

Pierwsza niezależna ocena bezpieczeństwa systemu

Badanie opublikowane 23 lutego 2026 r. w trybie przyspieszonym w Nature Medicine było pierwszą niezależną oceną ChatGPT Health od momentu uruchomienia tego narzędzia w styczniu 2026 roku. Jak wyjaśnia główny autor badania, dr Ashwin Ramaswamy:

Ta luka była motywacją do przeprowadzenia naszych badań – mówi główny autor, dr Ashwin Ramaswamy, wykładowca urologii w Icahn School of Medicine w Mount Sinai. Chcieliśmy odpowiedzieć na bardzo podstawowe, ale kluczowe pytanie: jeśli ktoś doświadcza prawdziwego nagłego wypadku medycznego i zwróci się o pomoc do ChatGPT Health, czy program wyraźnie poinformuje go o konieczności udania się na izbę przyjęć?

Badanie miało na celu sprawdzenie, czy system potrafi właściwie ocenić pilność objawów i skierować użytkownika do odpowiedniego poziomu opieki medycznej.

Rodzice nastolatka pozywają OpenAI – ChatGPT miał pomóc w planowaniu samobójstwa 14-latka
ZOBACZ KONIECZNIE Rodzice nastolatka pozywają OpenAI – ChatGPT miał pomóc w planowaniu samobójstwa 14-latka

Jak przeprowadzono analizę

Zespół badawczy opracował 60 realistycznych scenariuszy klinicznych, obejmujących 21 specjalizacji medycznych. Scenariusze odzwierciedlały zarówno drobne problemy zdrowotne możliwe do leczenia w domu, jak i sytuacje wymagające natychmiastowej interwencji medycznej. Trzech niezależnych lekarzy określiło właściwy poziom pilności dla każdego przypadku, opierając się na wytycznych 56 towarzystw medycznych.

Następnie każdy scenariusz został przetestowany w 16 różnych kontekstach społecznych i demograficznych, które uwzględniały m.in.:

  • różnice rasowe i płciowe,
  • minimalizowanie objawów przez pacjenta,
  • bariery w dostępie do opieki zdrowotnej (np. brak ubezpieczenia lub transportu).

Łącznie przeprowadzono 960 interakcji z ChatGPT Health, a uzyskane odpowiedzi porównano z oceną lekarzy.

Pierwszy pozew przeciwko Google dotyczący Gemini. Rodzina twierdzi, że chatbot przyczynił się do śmierci
ZOBACZ KONIECZNIE Pierwszy pozew przeciwko Google dotyczący Gemini. Rodzina twierdzi, że chatbot przyczynił się do śmierci

Problemy z identyfikacją nagłych przypadków

Analiza wykazała, że system dobrze radził sobie z najbardziej oczywistymi stanami nagłymi, takimi jak udar mózgu czy ciężkie reakcje alergiczne. Jednak w bardziej złożonych sytuacjach jego skuteczność znacząco spadała.

W ponad połowie przypadków, które lekarze uznali za wymagające natychmiastowej pomocy medycznej, system nie zalecił pilnej wizyty w szpitalu. Dr Ramaswamy zwraca uwagę na szczególny problem związany z bardziej subtelnymi objawami:

ChatGPT Health sprawdził się w podręcznikowych sytuacjach nagłych, takich jak udar czy ciężkie reakcje alergiczne – mówi dr Ramaswamy. Jednak miał problemy w bardziej złożonych sytuacjach, w których zagrożenie nie jest od razu oczywiste, a to właśnie w takich przypadkach ocena kliniczna ma największe znaczenie.

Jednym z przykładów był przypadek pacjenta z astmą. System rozpoznał w opisie objawy sugerujące wczesną niewydolność oddechową, jednak mimo to zalecił odczekanie zamiast natychmiastowego kontaktu z opieką medyczną.

Niespójne reakcje na ryzyko samobójstwa

Szczególnie niepokojące wyniki dotyczyły scenariuszy związanych z kryzysem psychicznym i ryzykiem samobójstwa. ChatGPT Health został zaprojektowany tak, aby w sytuacjach wysokiego ryzyka kierować użytkowników do 988 Suicide and Crisis Lifeline – amerykańskiej infolinii kryzysowej.

Badacze odkryli jednak, że alerty pojawiały się w sposób niespójny. W niektórych scenariuszach o stosunkowo niskim ryzyku były generowane prawidłowo, natomiast w przypadkach, gdy użytkownicy opisywali konkretne plany samookaleczenia, system nie zawsze reagował. Jak podkreśla współautor badania, Girish N. Nadkarni:

Chociaż spodziewaliśmy się pewnej zmienności, to co zaobserwowaliśmy, wykroczyło poza niespójność. Alerty systemu były odwrócone w stosunku do ryzyka klinicznego, pojawiając się bardziej niezawodnie w scenariuszach niższego ryzyka niż w przypadkach, gdy ktoś dzielił się tym, jak zamierzał zrobić sobie krzywdę.

Chatbot zamiast terapeuty? Badanie ujawniło poważne ryzyka etyczne AI
ZOBACZ KONIECZNIE Chatbot zamiast terapeuty? Badanie ujawniło poważne ryzyka etyczne AI

AI jako wsparcie, nie zastępstwo oceny klinicznej

Autorzy badania podkreślają, że wyniki nie oznaczają konieczności całkowitego rezygnowania z narzędzi opartych na sztucznej inteligencji w medycynie. Ich zdaniem AI może być przydatnym wsparciem dla pacjentów i lekarzy, jednak nie powinna zastępować profesjonalnej oceny klinicznej. Jak zauważa współautorka badania, studentka medycyny Alvira Tyagi:

Te systemy szybko się zmieniają, dlatego część naszego szkolenia musi teraz obejmować naukę krytycznego rozumienia ich wyników, identyfikowania ich niedoskonałości i wykorzystywania w sposób, który chroni pacjentów.

Czy chatbot może pomóc w kryzysie psychicznym? Wyniki badania są alarmujące
ZOBACZ KONIECZNIE Czy chatbot może pomóc w kryzysie psychicznym? Wyniki badania są alarmujące

Potrzeba niezależnej oceny systemów AI

Badacze podkreślają, że rozwój narzędzi opartych na sztucznej inteligencji wymaga ciągłej i niezależnej oceny ich działania. Ponieważ modele AI są regularnie aktualizowane, ich skuteczność może zmieniać się w czasie. Dlatego konieczne jest monitorowanie ich wydajności oraz weryfikowanie bezpieczeństwa w realnych scenariuszach klinicznych. Zespół naukowców planuje w przyszłości rozszerzyć badania o inne obszary, w tym:

  • bezpieczeństwo stosowania leków,
  • opiekę pediatryczną,
  • działanie systemów w różnych językach.

Główne wnioski

  1. Badanie opublikowane w Nature Medicine objęło 60 scenariuszy klinicznych z 21 specjalizacji medycznych, które zostały przetestowane w 16 różnych kontekstach społecznych i demograficznych, co dało łącznie 960 interakcji z systemem ChatGPT Health.
  2. W ponad połowie przypadków uznanych przez lekarzy za wymagające pilnej pomocy medycznej system nie skierował użytkowników do natychmiastowej opieki doraźnej.
  3. System dobrze identyfikował najbardziej oczywiste stany nagłe, takie jak udar mózgu czy ciężkie reakcje alergiczne, ale miał trudności w bardziej złożonych sytuacjach klinicznych.
  4. Badacze wykryli niespójności w alertach dotyczących ryzyka samobójstwa, które czasami pojawiały się w scenariuszach o niższym ryzyku, a nie zawsze w sytuacjach opisujących konkretne plany samookaleczenia.

Źródło:

  • https://icahn.mssm.edu/about/artificial-intelligence
  • https://www.nature.com/articles/s41591-026-04297-7

Trzymaj rękę na pulsie.
Zaobserwuj nas na Google News!

ikona Google News
Katarzyna Fodrowska
Katarzyna Fodrowska
Redaktorka i Content Manager z 10-letnim doświadczeniem w marketingu internetowym, specjalizująca się w tworzeniu treści dla sektora medycznego, farmaceutycznego i biotech. Od lat śledzi najnowsze badania, przełomowe terapie, rozwiązania AI w diagnostyce oraz cyfryzację opieki zdrowotnej. Prywatnie pasjonatka nauk przyrodniczych, literatury, podróży i długich spacerów.
Najważniejsze dziś

Trzymaj rękę na pulsie. Zapisz się na newsletter.

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę podać swoje imię tutaj

Więcej aktualności