Sztuczna inteligencja przewyższa lekarzy w diagnozowaniu na ostrym dyżurze - wyniki badań z Harvardu
W nowym badaniu opublikowanym w czasopiśmie Science, duże modele językowe wykazały wyższą lub porównywalną dokładność diagnozy na oddziale pomocy doraźnej w porównaniu z lekarzami.
Co wiadomo
Badanie przeprowadził zespół badaczy z Harvard Medical School oraz centrum medycznego Beth Israel Deaconess. Sprawdzali, jak modele OpenAI, w szczególności o1 i 4o, radzą sobie z przypadkami medycznymi, wykorzystując rzeczywiste dane pacjentów.
W jednym z eksperymentów przeanalizowano 76 przypadków zgłoszeń pacjentów na oddział pomocy doraźnej. Dwóch lekarzy internistów opracowywało diagnozy równolegle z modelami AI. Następnie dwóch innych lekarzy, którzy nie wiedzieli, które odpowiedzi pochodzą od ludzi, a które od AI, oceniało dokładność diagnoz.
Wyniki pokazały, że model o1 na każdym etapie diagnozy lub przewyższał, lub był na równi z lekarzami oraz modelem 4o. Największa różnica zaobserwowana była na etapie wstępnego sortowania pacjentów na oddziale pomocy doraźnej, gdy informacji o stanie jest najmniej, a decyzje trzeba podejmować szybko.
W przypadkach triage o1 dawał dokładną lub bliską poprawnej diagnozę w 67% przypadków. Dla porównania, jeden lekarz osiągał 55% dokładności, drugi 50%.
Badacze podkreślili, że dane nie przeszły wstępnej obróbki, a modele pracowały z tymi samymi informacjami z elektronicznych kart medycznych, które były dostępne lekarzom w czasie rzeczywistym.
Pomimo wyników, autorzy podkreślają, że to nie oznacza gotowości AI do samodzielnych decyzji klinicznych. Chodzi raczej o potrzebę dalszych badań prospektywnych w rzeczywistych warunkach medycyny.
Lekarze również ostrzegają, że na razie brak jest jasnego systemu odpowiedzialności za decyzje medyczne wygenerowane przez AI, a pacjenci wciąż potrzebują udziału człowieka w krytycznych decyzjach.
Źródło: Science