Badanie pokazuje, że popularne chatboty AI rozpowszechniają dezinformację medyczną

Dynamiczny rozwój generatywnej sztucznej inteligencji zmienia sposób pozyskiwania informacji – również w obszarze zdrowia. Coraz więcej użytkowników traktuje chatboty jako źródło wiedzy medycznej. Najnowsze badanie opublikowane w BMJ Open wskazuje jednak, że jakość tych informacji pozostawia wiele do życzenia. Analiza pięciu popularnych chatbotów wykazała, że aż połowa odpowiedzi może być potencjalnie szkodliwa lub wprowadzająca w błąd.

Z tego artykułu dowiesz się…

Jak często chatboty AI generują błędne lub potencjalnie szkodliwe informacje medyczne według najnowszego badania
W jaki sposób rodzaj pytania (otwarte vs zamknięte) wpływa na jakość odpowiedzi generowanych przez modele AI
Jakie obszary medycyny są najbardziej podatne na dezinformację (np. odżywianie, komórki macierzyste)
Dlaczego pewność odpowiedzi i brak rzetelnych źródeł zwiększają ryzyko błędnych decyzji zdrowotnych

Skala problemu: 50% odpowiedzi problematycznych

W badaniu oceniono łącznie 250 odpowiedzi generowanych przez pięć popularnych chatbotów:

50% odpowiedzi uznano za problematyczne,
30% jako raczej problematyczne,
20% jako wysoce problematyczne.

Odpowiedzi problematyczne definiowano jako takie, które mogłyby skierować użytkownika na nieskuteczne leczenie lub doprowadzić do szkody zdrowotnej, jeśli zostałyby zastosowane bez konsultacji ze specjalistą. Wyniki te wskazują na istotne ryzyko związane z wykorzystaniem chatbotów jako źródła informacji zdrowotnych.

Jak przeprowadzono badanie?

Analiza objęła pięć popularnych systemów AI:

Gemini (Google),
DeepSeek (High-Flyer),
Meta AI (Meta),
ChatGPT (OpenAI),
Grok (xAI).

Każdy chatbot otrzymał zestaw 50 pytań (łącznie 250 zapytań), obejmujących pięć kluczowych obszarów:

nowotwory,
szczepienia,
komórki macierzyste,
odżywianie,
wyniki sportowe.

Pytania zostały zaprojektowane w sposób celowy – miały „obciążać” modele i sprawdzać ich podatność na generowanie błędnych lub niebezpiecznych informacji.

Typ pytania ma znaczenie: otwarte vs zamknięte

Jednym z głównych wniosków badania jest wpływ formy zapytania na jakość odpowiedzi:

pytania otwarte generowały więcej odpowiedzi wysoce problematycznych,
pytania zamknięte częściej prowadziły do odpowiedzi zgodnych z konsensusem naukowym.

Oznacza to, że sposób formułowania pytania przez użytkownika może istotnie wpływać na jakość uzyskanej informacji.

Różnice między chatbotami

Chociaż ogólna jakość odpowiedzi była zbliżona między analizowanymi modelami, odnotowano istotne różnice:

Grok wygenerował najwięcej odpowiedzi wysoce problematycznych (58%),
Gemini osiągnął najlepsze wyniki – najwięcej odpowiedzi poprawnych i najmniej błędnych.

Najlepsze rezultaty chatboty uzyskały w obszarze:

szczepień,
onkologii.

Największe problemy dotyczyły:

komórek macierzystych,
odżywiania,
wyników sportowych.

Fałszywa pewność i brak zastrzeżeń

Jednym z najbardziej niepokojących wniosków jest sposób prezentowania informacji przez chatboty. Odpowiedzi były:

udzielane z dużą pewnością siebie,
rzadko zawierały zastrzeżenia,
sporadycznie odmawiały odpowiedzi (tylko 2 przypadki na 250).

Podejście to może zwiększać ryzyko bezkrytycznego przyjmowania informacji przez użytkowników.

Problem jakości źródeł i „halucynacji” AI

Badanie wykazało również poważne ograniczenia w zakresie wiarygodności źródeł:

średnia kompletność bibliografii wynosiła zaledwie 40%,
często występowały sfabrykowane cytowania,
żaden chatbot nie dostarczył w pełni poprawnej bibliografii.

Zjawisko tzw. halucynacji AI stanowi jedno z głównych wyzwań w wykorzystaniu tych narzędzi w medycynie.

Czytelność odpowiedzi – zbyt wysoki poziom trudności

Wszystkie odpowiedzi zostały ocenione jako trudne w odbiorze, zgodnie ze skalą Flescha. Oznacza to, że:

teksty były zrozumiałe głównie dla osób z wykształceniem wyższym,
przeciętny użytkownik może mieć trudności z ich interpretacją.

To dodatkowo zwiększa ryzyko błędnego zrozumienia informacji.

Dlaczego chatboty generują błędne informacje?

Jak podkreślają autorzy badania:

Domyślnie chatboty nie uzyskują dostępu do danych w czasie rzeczywistym, lecz generują wyniki, wyciągając wnioski statystyczne z danych treningowych i przewidując prawdopodobne sekwencje słów. Nie rozumują ani nie oceniają dowodów, ani nie są w stanie wydawać osądów etycznych ani opartych na wartościach. Dodatkowo: to ograniczenie behawioralne oznacza, że chatboty mogą odtwarzać odpowiedzi brzmiące autorytatywnie, ale potencjalnie błędne.

Źródła danych obejmują m.in.:

fora internetowe,
media społecznościowe,
ograniczoną część literatury naukowej (30–50% publikacji).

Implikacje dla zdrowia publicznego

Autorzy badania zwracają uwagę na konieczność wprowadzenia działań systemowych:

edukacji użytkowników,
szkoleń dla profesjonalistów,
nadzoru regulacyjnego nad wykorzystaniem AI w medycynie.

Jak podsumowują:

W miarę jak wykorzystanie chatbotów opartych na sztucznej inteligencji (AI) staje się coraz powszechniejsze, nasze dane wskazują na potrzebę edukacji publicznej, szkoleń zawodowych i nadzoru regulacyjnego w celu zapewnienia, że sztuczna inteligencja generatywna będzie wspierać, a nie osłabiać zdrowie publiczne.

Ograniczenia badania

Autorzy zaznaczają, że:

analiza objęła tylko pięć chatbotów,
scenariusze pytań były celowo wymagające,
wyniki mogą nie odzwierciedlać wszystkich rzeczywistych zastosowań.

Mimo to badanie dostarcza istotnych dowodów na ograniczenia obecnych systemów AI w kontekście medycznym.

Główne wnioski

Aż 50% odpowiedzi chatbotów uznano za problematyczne, w tym 20% jako wysoce problematyczne, co może prowadzić do błędnych decyzji zdrowotnych.
Badanie objęło 5 chatbotów i 250 pytań z zakresu m.in. onkologii, szczepień i odżywiania, testując ich podatność na dezinformację.
Jakość bibliografii była niska (średnio 40%), a modele często generowały nieistniejące lub niepełne źródła naukowe.
Chatboty odpowiadały z wysoką pewnością, ale bez odpowiednich zastrzeżeń, co zwiększa ryzyko uznania błędnych informacji za wiarygodne.

Źródło:

https://bmjopen.bmj.com/content/16/4/e112695

Badanie pokazuje, że popularne chatboty AI rozpowszechniają dezinformację medyczną

Z tego artykułu dowiesz się…

Skala problemu: 50% odpowiedzi problematycznych

Jak przeprowadzono badanie?

Typ pytania ma znaczenie: otwarte vs zamknięte

Różnice między chatbotami

Fałszywa pewność i brak zastrzeżeń

Problem jakości źródeł i „halucynacji” AI

Czytelność odpowiedzi – zbyt wysoki poziom trudności

Dlaczego chatboty generują błędne informacje?

Implikacje dla zdrowia publicznego

Ograniczenia badania

Główne wnioski

Czym zajmie się Trójstronny Zespół ds. Ochrony Zdrowia 21 kwietnia?

SMA w Polsce: eksperci wskazują na potencjał „uśpionych” motoneuronów i nowe strategie leczenia

Szpitale powiatowe ogłaszają protest. „Czarny tydzień” już od 20 kwietnia

18 mld zł z KPO dla zdrowia. Tak podzielono największe środki od lat

AstraZeneca inwestuje w Polsce 1,27 mld zł. Kraj rośnie do rangi centrum innowacji biofarmaceutycznych

Trzymaj rękę na pulsie. Zapisz się na newsletter.

ZOSTAW ODPOWIEDŹ Anuluj odpowiedź

Więcej aktualności

Dlaczego endometrioza powoduje przewlekły ból? Nowe odkrycia o roli mózgu

9 lat certyfikacji ISO 27001 w CeZ. Bezpieczeństwo e-zdrowia potwierdzone

Ukryta armia „komórek zombie” może powodować stłuszczenie wątroby, stany zapalne i starzenie się

MCSC 5.0 wystartowało. Już 44 placówki szukają innowacji dla szpitali