Дослідження, проведене міжнародною групою вчених, показало, що штучний інтелект (ШІ) демонструє значно вищу ефективність у постановці медичних діагнозів порівняно з традиційними методами, які використовують лікарі. У рамках експерименту алгоритми ШІ були навчені аналізувати великі обсяги медичних даних та зображень, таких як рентгенограми і МРТ-сканування. Результати виявилися вражаючими: програми змогли точно визначити різноманітні захворювання на рівні або навіть ви
У приймальному відділенні лікар має за лічені хвилини зрозуміти, хто потребує допомоги першим, що відбувається з пацієнтом і яке рішення прийняти. Новий експеримент демонструє, що частину цієї роботи вже здатна виконувати нейромережа — і подекуди не гірше за людину.
Модель o1-preview від OpenAI, представлена 2024 року, перевіряли на складних клінічних завданнях. Це так звана «міркуюча модель»: перед тим як дати відповідь, система перебирає кілька варіантів, перевіряє висновки й уточнює рішення — майже так, як лікар аналізує симптоми й будує гіпотези. На основі клінічних випадків із верифікованої медичної бази модель ставила правильний діагноз у 89% ситуацій, тоді як GPT‑4 — лише у 73%.
Найвідчутнішою перевага стала у складних і рідкісних випадках: незвичайні інфекції, ушкодження серця, аутоімунні захворювання легень, ураження печінки. В окремих завданнях o1-preview обігнала не лише GPT‑4, а й групу з сотень лікарів. Модель також краще визначала наступний крок — які аналізи призначити, яке лікування розпочати, як діяти в нестандартних ситуаціях.
Окремий етап дослідження провели на реальних даних із приймального відділення лікарні в Бостоні. У експерименті взяли участь 70 пацієнтських випадків. Модель перевершила двох досвідчених лікарів на різних етапах роботи: сортування за терміновістю, аналіз симптомів, робота з медичними записами, рішення про госпіталізацію або виписку. При «сліпій» оцінці незалежні експерти не змогли стабільно відрізнити відповіді нейромережі від висновків лікарів. При цьому перевага була особливо помітною саме на початковому етапі — коли інформації мало, а рішення потрібне негайно. У міру накопичення даних розрив між моделлю і людиною скорочувався.
Важлива деталь: модель не просто видавала відповідь, а пояснювала свої висновки — показувала, які ознаки підтверджують діагноз, а які йому суперечать. Такий підхід робить її роботу прозорішою й потенційно кориснішою для лікаря, який приймає фінальне рішення.
Проте дослідники наголошують: ці результати не означають, що модель готова замінити лікаря. Діагностика — лише частина медичної практики. Лікар оцінює пацієнта не тільки за записами, а й за зовнішнім виглядом, диханням, мовленням, реакцією на огляд. У цьому експерименті модель працювала виключно з текстовими даними.
Наступний крок — випробування в реальних умовах під наглядом фахівців. Розробники вважають, що подібні системи слід тестувати як помічника, а не як замінника лікаря. Відкритими залишаються питання точності в клінічних випробуваннях, безпеки рішень, можливих помилок і упередженості алгоритмів. У медицині вже є сфери, де ШІ демонструє високий рівень — зокрема в радіології. Але складне клінічне мислення в реальній практиці поки що не підтверджене суворими випробуваннями, а ціна кожної помилки тут надто висока.