Sztuczna inteligencja coraz śmielej wkracza do medycyny klinicznej, jednak dotychczas jej rola była ograniczona głównie do wsparcia diagnostycznego w wąskich obszarach. Najnowsze badanie przeprowadzone przez naukowców z Harvard Medical School oraz Beth Israel Deaconess Medical Center sugeruje jednak istotny przełom. Wyniki wskazują, że duże modele językowe (LLM) mogą skutecznie analizować złożone przypadki kliniczne – na poziomie dorównującym, a w niektórych aspektach przewyższającym lekarzy. To z kolei rodzi pytanie o gotowość tych systemów do testów w warunkach rzeczywistej praktyki klinicznej.
Z tego artykułu dowiesz się…
- Jak duże modele językowe (AI) radzą sobie z analizą skomplikowanych przypadków klinicznych w porównaniu do lekarzy
- W jakich obszarach sztuczna inteligencja osiąga wyższą skuteczność diagnostyczną
- Dlaczego wyniki badań uzasadniają rozpoczęcie badań klinicznych z udziałem AI
- Jakie są ograniczenia sztucznej inteligencji i dlaczego rola lekarza pozostaje kluczowa
Jedno z największych badań porównawczych AI i lekarzy
Zespół badawczy przeprowadził jedno z najbardziej kompleksowych badań porównujących możliwości sztucznej inteligencji i klinicystów w zakresie rozumowania medycznego. Analizie poddano szeroki wachlarz zadań, które odzwierciedlają codzienną praktykę lekarzy:
- interpretację nieuporządkowanej dokumentacji medycznej,
- identyfikację możliwych diagnoz,
- podejmowanie decyzji klinicznych,
- planowanie dalszego postępowania terapeutycznego.
Wyniki opublikowane w czasopiśmie Science wskazują, że model AI osiągnął wyższą skuteczność niż lekarze w wielu z tych obszarów. Jak podkreślił Arjun Raj Manrai, adiunkt informatyki biomedycznej w Instytucie Blavatnika w HMS i zastępca redaktora naczelnego NEJM AI:
Przetestowaliśmy model sztucznej inteligencji w oparciu o praktycznie każdy punkt odniesienia i uzyskał on lepsze wyniki zarówno od poprzednich modeli, jak i od naszych lekarzy.
Testy w warunkach rzeczywistych – oddział ratunkowy jako poligon
Jednym z najważniejszych elementów badania było sprawdzenie skuteczności modelu w rzeczywistych warunkach klinicznych, w tym na oddziałach ratunkowych. Model analizował przypadki pacjentów na różnych etapach procesu diagnostycznego:
- od wstępnej segregacji (triage),
- przez kolejne etapy diagnostyki,
- aż po decyzje o hospitalizacji.
Co istotne, system otrzymywał wyłącznie dane dostępne w danym momencie – bez dostępu do pełnej historii pacjenta – co odzwierciedla realne warunki pracy lekarzy. Jak zaznaczył Thomas Buckley, doktorant na Harvard Kenneth C. Griffin Graduate School of Arts and Sciences i stypendysta Dunleavy na ścieżce doktoranckiej AI in Medicine na HMS oraz członek Manrai Lab:
Aby lepiej zrozumieć skuteczność działania w warunkach rzeczywistych, musieliśmy przetestować wydajność na wczesnym etapie leczenia pacjenta, gdy danych klinicznych jest niewiele.
W wielu przypadkach model dorównywał lub przewyższał trafność diagnostyczną lekarzy – szczególnie na wczesnych etapach podejmowania decyzji.
Brak wstępnego przetwarzania danych – kluczowa różnica metodologiczna
W odróżnieniu od wcześniejszych badań, naukowcy zdecydowali się nie przetwarzać danych przed analizą przez model AI. Oznacza to, że system pracował na rzeczywistych, nieuporządkowanych zapisach z elektronicznej dokumentacji medycznej. Jak podkreślił Adam Rodman, adiunkt na wydziale medycyny HMS w Beth Israel Deaconess, dyrektor programów AI w Carl J. Shapiro Center for Education and Research oraz zastępca redaktora naczelnego NEJM AI:
W ogóle nie poddaliśmy danych wstępnemu przetwarzaniu.
To podejście znacząco zwiększa wiarygodność wyników, ponieważ odzwierciedla rzeczywiste warunki pracy w systemie ochrony zdrowia, gdzie dane są często niekompletne i chaotyczne.
Punkt zwrotny w ocenie sztucznej inteligencji medycznej
Badanie wskazuje również na istotny problem metodologiczny – dotychczasowe narzędzia oceny AI mogą być niewystarczające. Jak zauważył Peter Brodeur, klinicysta HMS z medycyny w Beth Israel Deaconess:
Modele są coraz bardziej wydajne. Kiedyś ocenialiśmy modele za pomocą testów wielokrotnego wyboru; teraz konsekwentnie osiągają wyniki bliskie 100% i nie możemy już śledzić postępów, bo jesteśmy już u kresu możliwości.
Oznacza to konieczność opracowania nowych standardów oceny, które uwzględnią złożoność rzeczywistych scenariuszy klinicznych.
Czy AI jest gotowa na badania kliniczne?
Zdaniem autorów badania uzyskane wyniki stanowią podstawę do rozpoczęcia badań klinicznych nad wykorzystaniem sztucznej inteligencji jako narzędzia wspierającego decyzje medyczne. Takie badania – analogiczne do testów nowych leków czy technologii medycznych – pozwolą odpowiedzieć na kluczowe pytania:
- kiedy i w jakich sytuacjach AI powinna być stosowana,
- jak wpływa na bezpieczeństwo pacjentów,
- czy poprawia efektywność systemu ochrony zdrowia.
Granice zastosowania AI – człowiek pozostaje kluczowy
Mimo obiecujących wyników, badacze jednoznacznie podkreślają, że sztuczna inteligencja nie powinna zastępować lekarzy. Jak wskazał Brodeur:
Model może postawić trafną diagnozę, ale jednocześnie zasugerować niepotrzebne badania, które mogłyby narazić pacjenta na niebezpieczeństwo. Dlatego: ludzie powinni być ostatecznym punktem odniesienia przy ocenie skuteczności i bezpieczeństwa.
Oznacza to, że przyszłość medycyny najprawdopodobniej będzie oparta na modelu współpracy człowieka i AI, a nie ich konkurencji.
Główne wnioski
- Badanie przeprowadzone przez Harvard Medical School i Beth Israel Deaconess Medical Center wykazało, że modele AI mogą dorównywać lub przewyższać lekarzy w analizie złożonych przypadków klinicznych.
- System AI osiągał wysoką skuteczność w zadaniach takich jak identyfikacja diagnoz, analiza dokumentacji medycznej i podejmowanie decyzji klinicznych, także w warunkach oddziału ratunkowego.
- W badaniu wykorzystano rzeczywiste dane kliniczne bez wstępnego przetwarzania, co zwiększa wiarygodność wyników i ich zastosowanie w praktyce.
- Mimo wysokiej skuteczności AI, eksperci podkreślają, że lekarz musi pozostać ostatecznym decydentem, ponieważ system może generować potencjalnie ryzykowne rekomendacje.
Źródło:
- https://hms.harvard.edu/news/study-suggests-ai-good-enough-diagnosing-complex-medical-cases-warrant-clinical-testing

