Strona głównaCyfryzacja i AI w medycynieChatboty nie pomagają pacjentom. Badanie wykazało ryzyko błędnych porad

Chatboty nie pomagają pacjentom. Badanie wykazało ryzyko błędnych porad

Aktualizacja 17-02-2026 09:03

Największe dotąd badanie użytkowników narzędzi AI w kontekście decyzji zdrowotnych wykazało, że duże modele językowe nie poprawiają trafności diagnoz ani wyboru dalszego postępowania medycznego u osób szukających pomocy online. Wyniki, opublikowane w Nature Medicine, wskazują na wyraźną lukę między wysokimi wynikami modeli w testach wiedzy medycznej a ich realną użytecznością w kontaktach z pacjentami. Autorzy podkreślają, że ryzyko błędnych porad pozostaje ważne, także w sytuacjach wymagających pilnej interwencji.

Z tego artykułu dowiesz się…

  • Jak duże modele językowe radziły sobie w największym badaniu dotyczącym decyzji zdrowotnych.
  • Dlaczego LLM mogą podawać mylące rekomendacje i co wpływa na ich niespójność.
  • Jakie ryzyka wskazali badacze z Oxfordu dla pacjentów korzystających z chatbotów.
  • Dlaczego eksperci postulują testy modeli AI z udziałem realnych użytkowników.

Technologii kontra realne decyzje pacjentów

Projekt zrealizowany przez Oxford Internet Institute oraz Nuffield Department of Primary Care Health Sciences powstał we współpracy z MLCommons i kilkoma ośrodkami naukowymi. Celem było sprawdzenie, jak osoby bez wykształcenia medycznego radzą sobie z identyfikacją możliwych schorzeń i wyborem odpowiedniego dalszego kroku, gdy wspiera je LLM – lub gdy polegają na tradycyjnych źródłach informacji.

OpenAI uruchamia ChatGPT Health. Szansa na wsparcie czy nowe ryzyko?
ZOBACZ KONIECZNIE OpenAI uruchamia ChatGPT Health. Szansa na wsparcie czy nowe ryzyko?

W eksperymencie brało udział blisko 1 300 uczestników. Odpowiadali na pytania o przygotowane przez lekarzy scenariusze kliniczne – od nagłego, silnego bólu głowy u młodego mężczyzny po przewlekłe zmęczenie i duszność u młodej matki.

Jak wskazują autorzy, modele wcale nie pomagały uczestnikom podejmować trafniejszych decyzji. Grupa korzystająca z LLM nie wypadała lepiej niż osoby używające wyszukiwarki czy własnej oceny sytuacji.

Dlaczego modele zawodzą? Trzy kluczowe problemy

Badacze opisali trzy typy trudności wpływające na jakość porad:

  • użytkownicy nie wiedzieli, jakiego rodzaju dane wejściowe są potrzebne, by model mógł udzielić precyzyjnej odpowiedzi
  • niewielka zmiana w pytaniu dawała radykalnie różne rekomendacje
  • odpowiedzi często zawierały jednocześnie trafne i błędne fragmenty, co utrudniało wybór właściwego postępowania

W komentarzu dla projektu dr Rebecca Payne z Nuffield Department of Primary Care Health Sciences, podkreśliła, że mimo szybkiego rozwoju AI, jej zastosowanie w roli narzędzia wspierającego pacjentów wciąż jest ograniczone. 

– Pomimo całego szumu medialnego, sztuczna inteligencja po prostu nie jest gotowa, by przejąć rolę lekarza. Pacjenci muszą mieć świadomość, że zadawanie pytań rozbudowanemu modelowi językowemu o ich objawy może być niebezpieczne, stawiać błędne diagnozy i nie rozpoznawać, kiedy potrzebna jest pilna pomoc – mówi dr Payne.

Rodzice nastolatka pozywają OpenAI – ChatGPT miał pomóc w planowaniu samobójstwa 14-latka
ZOBACZ KONIECZNIE Rodzice nastolatka pozywają OpenAI – ChatGPT miał pomóc w planowaniu samobójstwa 14-latka

Wysokie wyniki testowe to nie dowód bezpieczeństwa

Badanie zestawiono z wynikami standardowych testów wiedzy, które producenci LLM często podają w komunikatach o skuteczności. Modele, które osiągają świetne wyniki w benchmarkach, w kontakcie z realnym użytkownikiem radziły sobie wyraźnie gorzej. Według zespołu badawczego oznacza to, że obecne metody oceny AI nie oddają złożoności rzeczywistych interakcji. Jak wskazał Associate Professor Adam Mahdi, obecne procedury oceny nie pozwalają wiarygodnie określić bezpieczeństwa modeli w pracy z pacjentami.

– Nie możemy polegać wyłącznie na standardowych testach, aby ustalić, czy te systemy są bezpieczne do użytku publicznego. Tak jak potrzebujemy badań klinicznych dla nowych leków, tak systemy sztucznej inteligencji wymagają rygorystycznych testów z udziałem różnorodnych, rzeczywistych użytkowników, aby zrozumieć ich rzeczywiste możliwości w obszarach o wysokiej stawce, takich jak opieka zdrowotna – podkreśla prof. Mahdi.

Konieczne są testy z udziałem realnych użytkowników

Wyniki stanowią sygnał ostrzegawczy dla twórców oraz regulatorów. Główny autor Andrew Bean zwrócił uwagę, że tworzenie metod rzetelnego testowania LLM jest kluczowe dla ich przyszłego wdrażania. Podkreślił, że nawet najbardziej zaawansowane modele mają trudność z interpretacją danych dostarczanych w sposób typowy dla pacjentów.

– Zaprojektowanie solidnych testów dla dużych modeli językowych jest kluczem do zrozumienia, jak możemy wykorzystać tę nową technologię – dodaje główny autor.

Badacze sugerują, że wdrożenie AI w obszarach wysokiego ryzyka – takich jak zdrowie – powinno przebiegać podobnie jak dopuszczanie leków: z jasnym protokołem testów, walidacją, analizą ryzyka i oceną interakcji człowiek-algorytm.

Chatbot zamiast terapeuty? Badanie ujawniło poważne ryzyka etyczne AI
ZOBACZ KONIECZNIE Chatbot zamiast terapeuty? Badanie ujawniło poważne ryzyka etyczne AI

Główne wnioski

  1. W badaniu z udziałem blisko 1 300 osób chatboty nie poprawiły trafności decyzji zdrowotnych i nie działały lepiej niż tradycyjne metody wyszukiwania informacji.
  2. LLM generowały mieszane jakościowo odpowiedzi, które łączyły poprawne i błędne elementy, prowadząc do dezorientacji użytkowników.
  3. Niewielka zmiana sformułowania pytania skutkowała znacząco różnymi rekomendacjami, co podważyło stabilność modeli w kontekście porad zdrowotnych.
  4. Naukowcy wskazali konieczność testów analogicznych do badań klinicznych, aby ocenić bezpieczeństwo AI w obszarach wysokiego ryzyka, takich jak ochrona zdrowia.

Źródło:

  • https://www.ox.ac.uk/news/2026-02-10-new-study-warns-risks-ai-chatbots-giving-medical-advice

Trzymaj rękę na pulsie.
Zaobserwuj nas na Google News!

ikona Google News
Agnieszka Fodrowska
Agnieszka Fodrowska
Redaktorka i specjalistka marketingu internetowego z wieloletnim doświadczeniem w tworzeniu treści dla sektora ochrony zdrowia. Specjalizuje się w tematach związanych z innowacjami i cyfryzacją medycyny oraz farmacji - od AI po robotykę chirurgiczną. Prywatnie miłośniczka podróży, dobrej muzyki i psów.
Najważniejsze dziś

Trzymaj rękę na pulsie. Zapisz się na newsletter.

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę podać swoje imię tutaj

Więcej aktualności