Strona głównaCyfryzacja i AI w medycynieCzy AI może mieć halucynacje? Problem, który medycyna musi traktować poważnie

Czy AI może mieć halucynacje? Problem, który medycyna musi traktować poważnie

Aktualizacja 07-08-2025 14:31

W erze, gdy sztuczna inteligencja coraz odważniej wkracza do diagnostyki i dokumentacji medycznej, pojawia się pytanie, które nie może pozostać bez odpowiedzi: czy możemy ufać AI w sprawach życia i zdrowia? Przypadki tzw. „halucynacji” – sytuacji, w których model AI generuje spójne, ale fałszywe informacje – pokazują, że zaufanie to powinno być ograniczone przez krytyczne podejście i skuteczne mechanizmy weryfikacyjne.

Z tego artykułu dowiesz się…

  • Czym są halucynacje AI i dlaczego stanowią zagrożenie w medycynie.
  • Jakie konkretne przypadki błędnych odpowiedzi AI odnotowano.
  • Dlaczego mechanizmy weryfikacji i ograniczone zaufanie są kluczowe przy korzystaniu z AI w diagnostyce.
  • Jakie są aktualne rozwiązania technologiczne mające ograniczyć halucynacje AI.

Czym są halucynacje AI?

Halucynacja AI to pojęcie opisujące sytuację, w której system sztucznej inteligencji generuje odpowiedzi lub treści, które są fałszywe, niezgodne z rzeczywistością lub niepoparte danymi. W przypadku modeli językowych (np. chatbotów medycznych), halucynacja może polegać na „wymyśleniu” nieistniejącego terminu, błędnej odpowiedzi na pytanie diagnostyczne, czy wręcz stworzeniu fałszywego źródła naukowego.

W kontekście medycyny może to przybrać bardzo niebezpieczne formy – jak np. błędne rozpoznanie zmiany na obrazie TK lub zasugerowanie terapii, która nie ma podstaw w wytycznych.

AI wykrywa ukryte ryzyko cukrzycy typu 2 mimo prawidłowych wyników badań
ZOBACZ KONIECZNIE AI wykrywa ukryte ryzyko cukrzycy typu 2 mimo prawidłowych wyników badań

Med-Gemini i „basilar ganglia” – przypadek, który wywołał alarm

W 2024 r. model AI opracowany przez Google – Med-Gemini – miał wspierać lekarzy w analizie badań obrazowych i generowaniu raportów radiologicznych. W dokumentacji systemu pojawiło się jednak sformułowanie „basilar ganglia” – termin anatomiczny, który nie istnieje. Prawidłowe określenie to „basal ganglia” (jądra podstawy mózgu).

Błąd został wychwycony przez neurologa Bryana Moore’a, który opisał sprawę w mediach społecznościowych. Google szybko poprawiło wpis na swoim blogu, jednak opublikowana wcześniej praca naukowa nadal zawiera nieprawidłowy termin.

Omega variant – fałszywa pandemia wygenerowana przez ChatGPT

Innym spektakularnym przykładem jest eksperyment naukowców Malik Sallam, Jan Egger, Rainer Roehrig i Behrus Puladi, którzy wykorzystali ChatGPT-4 do wygenerowania całkowicie fikcyjnego opisu nowego wariantu SARS-CoV-2 – „Omega variant”. Publikacja zawierała kompletny opis pacjenta, przebiegu choroby, sekwencji genetycznej oraz mechanizmów odpornościowych – wszystko sfabrykowane przez AI, ale przedstawione w stylu naukowym.

Eksperyment miał pokazać, jak łatwo AI może tworzyć „alternatywne fakty”, które wyglądają na naukowe, ale są całkowicie fałszywe. Wnioski były jednoznaczne: AI może tworzyć bardzo przekonujące treści medyczne, które są niebezpiecznie wiarygodne.

AI upraszcza język medyczny: badanie NYU ujawnia potencjał dla pacjentów
ZOBACZ KONIECZNIE AI upraszcza język medyczny: badanie NYU ujawnia potencjał dla pacjentów

Halucynacje w streszczeniach dokumentacji medycznej

W sierpniu 2024 roku startup Mendel i Uniwersytet Massachusetts Amherst przeprowadzili badanie streszczeń dokumentacji medycznej generowanych przez GPT-4o i Llama-3. Wyniki pokazały, że nawet krótkie podsumowania mogą zawierać poważne halucynacje:

  • GPT-4o: 21 streszczeń z błędnymi informacjami, 50 z uogólnieniami
  • Llama-3: 19 błędnych, 47 uogólnionych

Błędy dotyczyły m.in. danych pacjenta, historii choroby, opisu objawów, zaleceń lekarskich i wizyt kontrolnych. Co istotne, część halucynacji została wykryta dopiero przez system detekcji Hypercube – człowiek je przeoczył.

Dlaczego AI ma halucynacje?

Mechanizm działania większości współczesnych modeli AI opiera się na tzw. predykcji statystycznej – czyli generowaniu odpowiedzi na podstawie wzorców w danych, na których zostały wytrenowane. Problem pojawia się wtedy, gdy np.:

  • Brakuje dostępu do zweryfikowanych źródeł wiedzy – modele językowe tworzą treści „na podstawie wzorców”, a nie faktów.
  • Baza treningowa jest zbyt ogólna – medycyna wymaga precyzji, której nie dostarczą ogólnodostępne dane internetowe.

W praktyce AI nie wie, że popełnia błąd – ponieważ nie rozumie treści w ludzkim sensie. Działa na poziomie statystycznej zgodności, a nie faktograficznej prawdy.

Naukowcy z Chin opracowali model AI przewidujący skuteczność radioterapii u pacjentów z rakiem nosogardła
ZOBACZ KONIECZNIE Naukowcy z Chin opracowali model AI przewidujący skuteczność radioterapii u pacjentów z rakiem nosogardła

Halucynacje a zaufanie kliniczne

Odpowiedzi AI mogą być spójne logicznie, ale fałszywe merytorycznie – i co gorsza, trudne do natychmiastowego wychwycenia przez użytkownika. To zjawisko rodzi obawy o tzw. automation bias – czyli sytuację, w której lekarz zaczyna ufać AI bardziej niż sobie.

W efekcie AI, która miała wspierać, może nieświadomie stać się źródłem błędnej decyzji – zwłaszcza w sytuacjach presji czasu lub przeciążenia personelu.

Czy da się wyeliminować halucynacje?

Obecnie nie ma technologii, która w 100% zapobiegałaby halucynacjom AI. Trwają jednak intensywne prace nad:

  • łączeniem modeli językowych z bazami wiedzy (RAG – retrieval-augmented generation),
  • systemami „kontroli faktów” (fact-checking AI),
  • ograniczaniem zakresu odpowiedzi do zweryfikowanych danych medycznych.

Ostrożność po błędach AI

W odpowiedzi na przypadki halucynacji i błędów generowanych przez AI, niektóre instytucje podejmują już działania zapobiegawcze. Przykładem jest NHS England, który w czerwcu 2025 r. zakazał korzystania z niecertyfikowanych narzędzi typu Ambient Voice Technology nawet w wersjach testowych. W wydanym stanowisku podkreślono, że odpowiedzialność za wszelkie skutki użycia AI ponosi instytucja wdrażająca.

W Polsce rozwój narzędzi AI w medycynie dopiero nabiera tempa – trwają prace nad m.in. Platformą Usług Inteligentnych (PUI), która ma umożliwić lekarzom korzystanie z certyfikowanych algorytmów wspomagających analizę RTG, TK i MR. Projekt realizowany przez Centrum e-Zdrowia powstaje we współpracy z lekarzami i konsultantami krajowymi. Twórcy PUI podkreślają, że sztuczna inteligencja ma wspierać lekarzy, a nie ich zastępować – a wszystkie rekomendacje generowane przez AI mają być zawsze weryfikowane przez specjalistę.

Tylko 13,2% szpitali w Polsce używa AI – Platforma Usług Inteligentnych (PUI) ma to zmienić
ZOBACZ KONIECZNIE Tylko 13,2% szpitali w Polsce używa AI – Platforma Usług Inteligentnych (PUI) ma to zmienić

AI z potencjałem, ale nie z nieomylnością

Sztuczna inteligencja może odciążyć lekarzy, usprawnić procesy, a w niektórych obszarach nawet zwiększyć bezpieczeństwo pacjenta. Jednak przykład Med-Gemini oraz setki innych „cichych” przypadków pokazują, że AI może się mylić – i robi to z pewnością siebie.

Halucynacje nie są błędami wynikającymi ze złej woli, ale z natury aktualnych algorytmów. Dlatego każda decyzja kliniczna, w której uczestniczy AI, powinna być traktowana jako wspomagająca, a nie decydująca.

Główne wnioski

  1. Halucynacje AI to realne i udokumentowane zjawisko, mogące prowadzić do niebezpiecznych błędów w diagnostyce – jak np. wymyślony termin „basilar ganglia” przez Med-Gemini czy fikcyjny „Omega variant” stworzony przez ChatGPT-4.
  2. Badania pokazują, że streszczenia medyczne generowane przez AI mogą zawierać poważne błędy – w analizie z 2024 roku GPT-4o i Llama-3 wykazywały istotne odchylenia od prawdy w dziesiątkach przypadków.
  3. Przyczyna halucynacji AI leży w ograniczeniach modeli językowych, które generują odpowiedzi na podstawie statystycznych wzorców, a nie rozumienia faktów.
  4. Rozwiązania technologiczne takie jak RAG, fact-checking AI czy ograniczenie zakresu odpowiedzi mają potencjał zminimalizować liczbę halucynacji, ale obecnie nie eliminują ich całkowicie.

Źródła:

  • Sallam M. et al., Navigating the Peril of Generated Alternative Facts: A ChatGPT-4 Fabricated Omega Variant Case as a Cautionary Tale in Medical Misinformation, 04.04.2024
  • Xuejiao Zhao, Siyan Liu, Su-Yin Yang, Chunyan Miao, MedRAG: Enhancing Retrieval-augmented Generation with Knowledge Graph-Elicited Reasoning for Healthcare Copilot, 06.02.2025
  • https://www.clinicaltrialsarena.com/news/hallucinations-in-ai-generated-medical-summaries-remain-a-grave-concern/
  • https://news.ssbcrack.com/googles-healthcare-ai-model-med-gemini-faces-criticism-for-confusing-basal-ganglia-with-nonexistent-basilar-ganglia/
  • https://www.theverge.com/health/718049/google-med-gemini-basilar-ganglia-paper-typo-hallucination
  • https://www.nature.com/articles/s44401-024-00004-1
  • https://pmc.ncbi.nlm.nih.gov/articles/PMC12059965/
  • https://pl.wikipedia.org/wiki/Halucynacja_(sztuczna_inteligencja)
  • https://en.wikipedia.org/wiki/Automation_bias
  • https://alertmedyczny.pl/tylko-13-2-proc-szpitali-w-polsce-uzywa-ai-platforma-uslug-inteligentnych-pui-ma-to-zmienic/

Trzymaj rękę na pulsie.
Zaobserwuj nas na Google News!

ikona Google News
Agnieszka Fodrowska
Agnieszka Fodrowska
Redaktorka i specjalistka marketingu internetowego z wieloletnim doświadczeniem w tworzeniu treści dla sektora ochrony zdrowia. Specjalizuje się w tematach związanych z innowacjami i cyfryzacją medycyny oraz farmacji - od AI po robotykę chirurgiczną. Prywatnie miłośniczka podróży, dobrej muzyki i psów.

Ważne tematy

Trzymaj rękę na pulsie. Zapisz się na newsletter.

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę podać swoje imię tutaj

Więcej aktualności