AI diagnozuje celniej niż lekarze na izbie przyjęć — badanie Harvardu

Zespół badaczy z Harvard Medical School i Beth Israel Deaconess Medical Center opublikował w tygodniku Science wyniki kontrolowanego eksperymentu, w którym modele OpenAI o1 i 4o były porównywane z lekarzami internistami w diagnozowaniu pacjentów na oddziale ratunkowym. W kluczowym punkcie badania — pierwszym triage, przy najmniejszej ilości danych i największej presji czasowej — model o1 udzielił trafnej lub bardzo bliskiej diagnozy w 67% przypadków, podczas gdy obaj lekarze osiągnęli odpowiednio 55% i 50%.

Najważniejsze w skrócie

Badanie opublikowano w czasopiśmie Science (maj 2026), obejmuje 76 rzeczywistych przypadków z izby przyjęć Beth Israel w Bostonie.
Model o1 od OpenAI osiągnął 67% trafności przy pierwszym triage vs. 55% i 50% dla dwóch lekarzy internistów.
AI i lekarze pracowali na tych samych, niemodyfikowanych danych z elektronicznych kart pacjenta — bez żadnego preprocessingu.
Badacze nie twierdzą, że AI jest gotowe do samodzielnych decyzji klinicznych; wzywają do pilnych badań prospektywnych.
Porównanie prowadzono z lekarzami internistami, nie z lekarzami SOR — co jest istotnym ograniczeniem metodologicznym.

Eksperyment z prawdziwymi przypadkami

Badanie, które ukazało się 3 maja 2026 r. w prestiżowym tygodniku naukowym Science, pod kierownictwem Arjuna Manraia z AI Lab w Harvard Medical School i Adama Rodmana z Beth Israel Deaconess Medical Center, różni się od wcześniejszych testów AI w medycynie pod jednym kluczowym względem: dane nie były preparowane. Modele otrzymały dokładnie te same informacje, które były dostępne w elektronicznym systemie medycznym w momencie każdego punktu diagnostycznego — od pierwszego zgłoszenia po finalną diagnozę.

Badacze wyodrębnili trzy momenty w historii 76 pacjentów: triage wstępny (najmniej danych), punkt pośredni i diagnoza finalna. Ocenę każdej diagnozy przeprowadzali niezależni lekarze internistyczni, którzy nie wiedzieli, czy oceniają diagnozę człowieka, czy maszyny.

Przy pierwszym triage model o1 zidentyfikował „dokładną lub bardzo bliską diagnozę" w 67% przypadków. Lekarze internistyczni: 55% i 50%. Model 4o wypadł porównywalnie do lekarzy lub nieco słabiej w zależności od punktu diagnostycznego.

„Testowaliśmy model AI w zasadzie na każdym możliwym benchmarku i przewyższył zarówno wcześniejsze modele, jak i bazę porównawczą lekarzy" — Arjun Manrai, Harvard Medical School

Istotne ograniczenia metodologiczne

Badanie spotkało się z szybką reakcją środowiska. Kristen Panthagani, lekarka SOR, opublikowała na swoim blogu analizę, w której zwraca uwagę na kluczowy problem: porównanie prowadzono z internistami, nie z lekarzami pogotowia ratunkowego. Dla specjalistów od SOR może to być kwestia zasadnicza — tak jak porównanie modelu AI z dermatologiem w zadaniu neurochirurgicznym.

„Moim podstawowym celem na izbie przyjęć nie jest odgadnięcie ostatecznej diagnozy. Moim celem jest ustalenie, czy pacjent ma stan zagrażający życiu" — Kristen Panthagani, lekarka SOR

Rodman przyznał w rozmowie z The Guardian, że „nie ma teraz formalnych ram odpowiedzialności" wokół diagnoz AI, a pacjenci nadal „chcą, żeby ludzie prowadzili ich przez decyzje o życiu i śmierci."

Badacze podkreślają też, że AI pracowała wyłącznie z danymi tekstowymi — zapis w systemie elektronicznym, wyniki laboratoryjne, opisy objawów. Modele nie analizowały obrazów, wyników EKG ani bezpośrednich obserwacji lekarskich. Jak przyznają sami autorzy, „dotychczasowe badania sugerują, że obecne modele fundacyjne mają ograniczenia w rozumowaniu na podstawie danych innych niż tekstowe."

Kontekst: AI w diagnostyce medycznej 2026

To nie pierwsze badanie sugerujące, że duże modele językowe osiągają wyniki zbliżone do lekarzy w zadaniach diagnostycznych. Jednak wcześniejsze testy opierały się na danych syntetycznych lub specjalnie przygotowanych zestawach pytań (np. egzaminy lekarskie, benchmark MedQA). Badanie z Beth Israel wyróżnia się użyciem rzeczywistych akt pacjentów bez modyfikacji.

Google DeepMind ogłosiło w zbliżonym czasie projekt „AI co-clinician" — modelu mającego wspomagać, nie zastępować lekarzy. Badanie Harvardu wpisuje się w trwającą debatę: czy AI ma w ogóle aspirować do diagnozy klinicznej, czy raczej pełnić rolę asystenta przesiewowego lub narzędzia dla środowisk o ograniczonym dostępie do specjalistów.

Autorzy badania jawnie nawiązują do drugiego scenariusza. Słowa kluczowe ich wniosków: „pilna potrzeba prospektywnych badań klinicznych" — nie wdrożenie AI do SOR jutra.

Dlaczego to ważne?

Badanie z Harvard Medical School jest jednym z nielicznych dotychczasowych eksperymentów na realnych danych z oddziału ratunkowego — bez preprocessingu, z nieznanymi diagnostom zewnętrznym źródłami diagnozy. Wynik, w którym model o1 przewyższa lekarzy internistów przy pierwszym triage, nie jest dowodem na gotowość kliniczną AI, ale sygnałem wymagającym poważnego podejścia metodologicznego: prospektywnych, wieloośrodkowych badań z udziałem właściwych specjalistów (lekarze SOR, a nie internistyczni).

Ważniejsze od surowych liczb jest to, co badanie odsłania strukturalnie: AI działa bez zmęczenia, bez efektu anchoring bias przy pierwszym kontakcie i z pełnym dostępem do całości historii karty — co lekarze przy triage często przeglądają pobieżnie. Jeśli model rzeczywiście korzysta z tych przewag — i jeśli potwierdzi się to w środowiskach o chronicznym niedoborze lekarzy, np. szpitalach wiejskich czy krajach rozwijających się — skala implikacji wykracza daleko poza konkretne liczby jednego badania.

Równie ważna jest dyskusja o odpowiedzialności. Rodman trafnie zauważa: nie ma dziś ram prawnych ani etycznych dla sytuacji, w której AI uczestniczy w decyzji klinicznej. To pytanie, które sektor zdrowia, regulatorzy i sami pacjenci będą musieli rozstrzygnąć — zanim AI faktycznie znajdzie się przy łóżku pacjenta.

Co dalej?

Autorzy wzywają do pilnych prospektywnych badań klinicznych na żywych pacjentach — z udziałem modeli AI w roli asystenta diagnostycznego, nie autonomicznego diagnosty.
Wyniki badania zostaną prawdopodobnie omówione na konferencjach medycznych w 2026 r., co może przyspieszyć projekty pilotażowe w wybranych szpitalach akademickich.
Otwarta pozostaje kwestia regulacyjna: FDA (USA) i EMA (UE) nie posiadają jeszcze ścieżki certyfikacyjnej dla modeli AI jako narzędzi diagnostycznych klasy klinicznej.