Strona głównaBadaniaSystem AI od Microsoft skuteczniejszy niż lekarze – nowe badanie zaskakuje wynikami

System AI od Microsoft skuteczniejszy niż lekarze – nowe badanie zaskakuje wynikami

Aktualizacja 07-08-2025 16:36

W nowym badaniu opublikowanym na serwerze arXiv naukowcy zaprezentowali wyniki testów systemu diagnostycznego opartego na sztucznej inteligencji, opracowanego przez firmę Microsoft. System ten wykazał wyższą skuteczność i dokładność niż doświadczeni lekarze w analizie trudnych przypadków medycznych, jednocześnie znacząco obniżając koszty diagnostyki. Badanie rzuca nowe światło na potencjał modeli językowych we wspomaganiu procesu klinicznego, nie tylko jako narzędzi wspierających, ale wręcz jako inteligentnych agentów diagnostycznych.

Z tego artykułu dowiesz się…

  • Jak działa system MAI-DxO i dlaczego jest skuteczniejszy niż tradycyjne metody diagnostyczne.
  • W jaki sposób sztuczna inteligencja przewyższyła lekarzy w rozwiązywaniu najtrudniejszych przypadków medycznych.
  • Dlaczego modele AI oparte na diagnozie sekwencyjnej pozwalają obniżyć koszty opieki zdrowotnej.
  • Jakie są potencjalne zastosowania i ograniczenia systemów AI w rzeczywistej praktyce klinicznej.

Jak działa diagnoza sekwencyjna?

Diagnoza medyczna opiera się zwykle na iteracyjnym procesie zadawania pytań, analizowania objawów i zlecania testów. Sekwencyjne podejście diagnostyczne – odwzorowane w badaniu – pozwala na realistyczne odtworzenie ścieżki, jaką przebywa lekarz w dążeniu do prawidłowego rozpoznania. Proces ten uwzględnia zarówno medyczne wytyczne, jak i czynniki ekonomiczne, takie jak koszt badań i czas diagnostyki.

Problemem większości stosowanych obecnie modeli językowych (LM) jest ich uproszczona forma oceny – zwykle oparta na pytaniach wielokrotnego wyboru. Tego typu testy nie oddają złożoności realnych warunków klinicznych, narażając model na błędne decyzje i nadmierną liczbę niepotrzebnych badań.

Alibaba Group prezentuje Model AI GRAPE wykrywający raka żołądka skuteczniej niż radiolodzy
ZOBACZ KONIECZNIE Alibaba Group prezentuje Model AI GRAPE wykrywający raka żołądka skuteczniej niż radiolodzy

Nowe narzędzie: Sequential Diagnosis Benchmark (SDBench)

Aby zwiększyć realizm i wiarygodność testów diagnostycznych AI, zespół badaczy opracował Sequential Diagnosis Benchmark (SDBench) – interaktywny system symulujący rzeczywiste spotkania kliniczne. W ramach badania wykorzystano 304 skomplikowane przypadki z czasopisma The New England Journal of Medicine, prezentujące zarówno powszechne choroby, jak i rzadkie zaburzenia.

Kluczowym elementem platformy jest Information Gatekeeper – narzędzie, które ujawnia szczegóły kliniczne tylko wtedy, gdy zostaną o nie poproszone, co lepiej odwzorowuje proces diagnozy i ogranicza nadużycia w zlecaniu testów.

Meden-Inmed sprowadza do Polski robota MP1000. Ma być tańszy niż da Vinci
ZOBACZ KONIECZNIE Meden-Inmed sprowadza do Polski robota MP1000. Ma być tańszy niż da Vinci

Wyniki badania: AI skuteczniejsze niż lekarze

W analizie porównano dokładność i koszty diagnoz stawianych przez ludzi oraz systemy AI. Lekarze ze Stanów Zjednoczonych i Wielkiej Brytanii, mający średnio 12 lat doświadczenia klinicznego, uzyskali trafność diagnostyczną na poziomie 20% przy średnim koszcie 2963 USD za przypadek. Dla porównania, model GPT-4o przewyższył ich zarówno pod względem trafności, jak i oszczędności finansowych.

Największe osiągnięcia uzyskała platforma MAI Diagnostic Orchestrator (MAI-DxO) – system zaprojektowany we współpracy z lekarzami, który osiągnął nawet 85,5% trafności przy kosztach nieprzekraczających 7184 USD. W innym wariancie MAI-DxO zapewniło 79,9% trafności przy koszcie 2397 USD, co stanowiło ponad dwukrotną oszczędność względem konkurencyjnych modeli.

Nowy kandydat na lek na raka stworzony dzięki AI blokuje wzrost guzów bez skutków ubocznych
ZOBACZ KONIECZNIE Nowy kandydat na lek na raka stworzony dzięki AI blokuje wzrost guzów bez skutków ubocznych

Co wyróżnia MAI-DxO?

MAI-DxO symuluje pracę panelu lekarzy – agentów pełniących różne funkcje: od generowania hipotez, przez wybór testów, po analizę kosztów i korektę błędów. Ustrukturyzowana orkiestracja procesów zapewnia lepsze wyniki niż klasyczne podejścia AI.

System pozostaje niezależny od konkretnego modelu językowego – co oznacza, że może poprawiać skuteczność różnych narzędzi, nie tylko bazowego modelu O3. To czyni go uniwersalnym rozwiązaniem dla różnych placówek i scenariuszy medycznych.

Chiny oficjalnie uruchomiły „AI Hospital”: w pełni zasilany sztuczną inteligencją szpital
ZOBACZ KONIECZNIE Chiny oficjalnie uruchomiły „AI Hospital”: w pełni zasilany sztuczną inteligencją szpital

Ograniczenia i przyszłe kierunki

Autorzy badania podkreślają, że przypadki z NEJM są wyjątkowo trudne i nie odzwierciedlają codziennych realiów praktyki medycznej. Co więcej, badanie nie objęło zdrowych pacjentów ani nie oceniało wskaźników fałszywie dodatnich. Dodatkowo, estymacja kosztów opierała się na cenach obowiązujących w Stanach Zjednoczonych.

Niemniej jednak autorzy zapowiadają dalsze badania w warunkach klinicznych oraz rozszerzenie systemu o możliwości analizy obrazowej. Jak zauważają:

Wyniki pokazują, że AI może skutecznie wspomagać lekarzy, zwłaszcza w miejscach, gdzie dostęp do specjalistów jest ograniczony lub kosztowny.

Chiński implant łączący mózg z rdzeniem kręgowym zmienia medycynę: Sparaliżowani znów chodzą
ZOBACZ KONIECZNIE Chiński implant łączący mózg z rdzeniem kręgowym zmienia medycynę: Sparaliżowani znów chodzą

Wnioski: sztuczna inteligencja partnerem lekarza, nie jego zastępcą

Zastosowanie modeli takich jak MAI-DxO wyraźnie pokazuje, że sztuczna inteligencja nie musi konkurować z człowiekiem – może go wspierać, szczególnie w obszarach, gdzie wymagana jest szybka, tania i precyzyjna diagnostyka. SDBench jako benchmark diagnostyczny zbliża systemy AI do rzeczywistych wyzwań klinicznych, a rezultaty tego badania mogą mieć przełomowe znaczenie dla przyszłości opieki zdrowotnej.

Warto jednak pamiętać, że omawiane wyniki pochodzą z badań przedrecenzyjnych, a ich pełna walidacja w warunkach klinicznych wciąż jest przed nami.

👉 Wstępny raport naukowy opublikowany w ArXiv znajdziesz pod TYM LINKIEM

Uwaga: serwis arXiv publikuje wstępne wersje prac naukowych, które nie zostały jeszcze poddane recenzji naukowej. Dlatego nie należy traktować ich jako ostatecznych ani wykorzystywać jako podstawy do decyzji klinicznych czy zdrowotnych.

Główne wnioski

  1. System MAI-DxO osiągnął dokładność diagnostyczną na poziomie 85,5% przy kosztach znacząco niższych niż w przypadku tradycyjnej diagnostyki – 7184 USD vs. 7850 USD dla innego modelu AI i 2963 USD dla lekarzy.
  2. GPT-4o i inne zaawansowane modele językowe przewyższyły lekarzy z USA i Wielkiej Brytanii pod względem trafności diagnozy w najtrudniejszych przypadkach NEJM.
  3. Nowe narzędzie badawcze SDBench pozwoliło na realistyczną ocenę skuteczności diagnostycznej AI w sekwencyjnych procesach klinicznych.
  4. Systemy AI, takie jak MAI-DxO, mogą w przyszłości wspierać zespoły medyczne, zwłaszcza tam, gdzie brakuje specjalistów lub zasobów finansowych.

Źródło:

  • ArXiv 
  • News Medical

Trzymaj rękę na pulsie.
Zaobserwuj nas na Google News!

ikona Google News
Katarzyna Fodrowska
Katarzyna Fodrowska
Redaktorka i Content Manager z 10-letnim doświadczeniem w marketingu internetowym, specjalizująca się w tworzeniu treści dla sektora medycznego, farmaceutycznego i biotech. Od lat śledzi najnowsze badania, przełomowe terapie, rozwiązania AI w diagnostyce oraz cyfryzację opieki zdrowotnej. Prywatnie pasjonatka nauk przyrodniczych, literatury, podróży i długich spacerów.

Ważne tematy

Trzymaj rękę na pulsie. Zapisz się na newsletter.

ZOSTAW ODPOWIEDŹ

Proszę wpisać swój komentarz!
Proszę podać swoje imię tutaj

Więcej aktualności