Największe dotąd badanie użytkowników narzędzi AI w kontekście decyzji zdrowotnych wykazało, że duże modele językowe nie poprawiają trafności diagnoz ani wyboru dalszego postępowania medycznego u osób szukających pomocy online. Wyniki, opublikowane w Nature Medicine, wskazują na wyraźną lukę między wysokimi wynikami modeli w testach wiedzy medycznej a ich realną użytecznością w kontaktach z pacjentami. Autorzy podkreślają, że ryzyko błędnych porad pozostaje ważne, także w sytuacjach wymagających pilnej interwencji.
Z tego artykułu dowiesz się…
- Jak duże modele językowe radziły sobie w największym badaniu dotyczącym decyzji zdrowotnych.
- Dlaczego LLM mogą podawać mylące rekomendacje i co wpływa na ich niespójność.
- Jakie ryzyka wskazali badacze z Oxfordu dla pacjentów korzystających z chatbotów.
- Dlaczego eksperci postulują testy modeli AI z udziałem realnych użytkowników.
Technologii kontra realne decyzje pacjentów
Projekt zrealizowany przez Oxford Internet Institute oraz Nuffield Department of Primary Care Health Sciences powstał we współpracy z MLCommons i kilkoma ośrodkami naukowymi. Celem było sprawdzenie, jak osoby bez wykształcenia medycznego radzą sobie z identyfikacją możliwych schorzeń i wyborem odpowiedniego dalszego kroku, gdy wspiera je LLM – lub gdy polegają na tradycyjnych źródłach informacji.
W eksperymencie brało udział blisko 1 300 uczestników. Odpowiadali na pytania o przygotowane przez lekarzy scenariusze kliniczne – od nagłego, silnego bólu głowy u młodego mężczyzny po przewlekłe zmęczenie i duszność u młodej matki.
Jak wskazują autorzy, modele wcale nie pomagały uczestnikom podejmować trafniejszych decyzji. Grupa korzystająca z LLM nie wypadała lepiej niż osoby używające wyszukiwarki czy własnej oceny sytuacji.
Dlaczego modele zawodzą? Trzy kluczowe problemy
Badacze opisali trzy typy trudności wpływające na jakość porad:
- użytkownicy nie wiedzieli, jakiego rodzaju dane wejściowe są potrzebne, by model mógł udzielić precyzyjnej odpowiedzi
- niewielka zmiana w pytaniu dawała radykalnie różne rekomendacje
- odpowiedzi często zawierały jednocześnie trafne i błędne fragmenty, co utrudniało wybór właściwego postępowania
W komentarzu dla projektu dr Rebecca Payne z Nuffield Department of Primary Care Health Sciences, podkreśliła, że mimo szybkiego rozwoju AI, jej zastosowanie w roli narzędzia wspierającego pacjentów wciąż jest ograniczone.
– Pomimo całego szumu medialnego, sztuczna inteligencja po prostu nie jest gotowa, by przejąć rolę lekarza. Pacjenci muszą mieć świadomość, że zadawanie pytań rozbudowanemu modelowi językowemu o ich objawy może być niebezpieczne, stawiać błędne diagnozy i nie rozpoznawać, kiedy potrzebna jest pilna pomoc – mówi dr Payne.
Wysokie wyniki testowe to nie dowód bezpieczeństwa
Badanie zestawiono z wynikami standardowych testów wiedzy, które producenci LLM często podają w komunikatach o skuteczności. Modele, które osiągają świetne wyniki w benchmarkach, w kontakcie z realnym użytkownikiem radziły sobie wyraźnie gorzej. Według zespołu badawczego oznacza to, że obecne metody oceny AI nie oddają złożoności rzeczywistych interakcji. Jak wskazał Associate Professor Adam Mahdi, obecne procedury oceny nie pozwalają wiarygodnie określić bezpieczeństwa modeli w pracy z pacjentami.
– Nie możemy polegać wyłącznie na standardowych testach, aby ustalić, czy te systemy są bezpieczne do użytku publicznego. Tak jak potrzebujemy badań klinicznych dla nowych leków, tak systemy sztucznej inteligencji wymagają rygorystycznych testów z udziałem różnorodnych, rzeczywistych użytkowników, aby zrozumieć ich rzeczywiste możliwości w obszarach o wysokiej stawce, takich jak opieka zdrowotna – podkreśla prof. Mahdi.
Konieczne są testy z udziałem realnych użytkowników
Wyniki stanowią sygnał ostrzegawczy dla twórców oraz regulatorów. Główny autor Andrew Bean zwrócił uwagę, że tworzenie metod rzetelnego testowania LLM jest kluczowe dla ich przyszłego wdrażania. Podkreślił, że nawet najbardziej zaawansowane modele mają trudność z interpretacją danych dostarczanych w sposób typowy dla pacjentów.
– Zaprojektowanie solidnych testów dla dużych modeli językowych jest kluczem do zrozumienia, jak możemy wykorzystać tę nową technologię – dodaje główny autor.
Badacze sugerują, że wdrożenie AI w obszarach wysokiego ryzyka – takich jak zdrowie – powinno przebiegać podobnie jak dopuszczanie leków: z jasnym protokołem testów, walidacją, analizą ryzyka i oceną interakcji człowiek-algorytm.
Główne wnioski
- W badaniu z udziałem blisko 1 300 osób chatboty nie poprawiły trafności decyzji zdrowotnych i nie działały lepiej niż tradycyjne metody wyszukiwania informacji.
- LLM generowały mieszane jakościowo odpowiedzi, które łączyły poprawne i błędne elementy, prowadząc do dezorientacji użytkowników.
- Niewielka zmiana sformułowania pytania skutkowała znacząco różnymi rekomendacjami, co podważyło stabilność modeli w kontekście porad zdrowotnych.
- Naukowcy wskazali konieczność testów analogicznych do badań klinicznych, aby ocenić bezpieczeństwo AI w obszarach wysokiego ryzyka, takich jak ochrona zdrowia.
Źródło:
- https://www.ox.ac.uk/news/2026-02-10-new-study-warns-risks-ai-chatbots-giving-medical-advice

