Цифри без довіри: дослідник OpenAI закликає переглянути оцінки ШІ

Відомий дослідник штучного інтелекту з OpenAI висловив стурбованість щодо точності та надійності оцінок, які використовуються для вимірювання продуктивності систем ШІ. У своїй недавній доповіді він зазначив, що існуючі методи оцінки часто не відображають реальних можливостей технологій і можуть вводити в оману як розробників, так і кінцевих користувачів. Дослідник підкреслив, що багато показників ефективності базуються на обмеженому наборі даних або ж спрощених сценаріях використання. Це призводить до

Дослідник OpenAI Бенджамін Арнавзаявляє, що нинішня система оцінювання моделей штучного інтелекту є ненадійною через відсутність стандартизації. За його словами, показники, які широко використовуються як доказ прогресу, часто створюються за різних умов і тому вводять в оману. Це впливає на рішення щодо безпеки, розгортання моделей і оцінки ризиків.

“Ми ухвалюємо рішення щодо розгортання та безпеки на основі даних, які не означають того, що люди вважають. Усі інші галузі з високими ризиками розвʼязали цю проблему таким чином: передали функцію вимірювання з рук компаній, що підлягають оцінці, незалежним аудиторам”, — наголосив Арнав.

Одним із показових прикладів є бенчмарк SWE-bench Verified, який використовують для оцінки здатності моделей писати код. Як вказує Арнав, різні версії моделей тестувалися не за однакових умов — із різною кількістю завдань, інструментів та режимів міркування, що робить результати несумісними.

ВАС ЗАЦІКАВИТЬШтучний інтелект допомагає розкривати анонімні акаунти в соцмережах

Зокрема, компанія Anthropic змінювала параметри тестування майже з кожним релізом — від Claude 3.7 до новіших версій. Схожі проблеми простежуються і в підходах OpenAI. Наприклад, результати моделі o3-mini базувалися лише на частині з великого масиву завдань, що унеможливлює пряме порівняння з іншими системами.

Крім того, компанія не завжди розкривала кількість випробувань або деталі оцінювання. Google, натомість, спочатку публікував обмежену інформацію щодо Gemini 2.5, але згодом додав окремі документи з методологією.

Розбіжності торкаються й інших популярних тестів, зокрема GPQA та AIME. Компанії змінюють кількість випробувань, способи обчислення результатів або додають сторонні інструменти, що прямо впливає на підсумкові показники, але не завжди враховується в публічних інтерпретаціях.

ВАС ЗАЦІКАВИТЬШІ набуде свідомості вже за 15 років: вчені створили шкалу для вимірювання

Арнав визнає, що частина цих змін зумовлена практичними обставинами — зокрема, обмеженнями інфраструктури або часу перед релізами моделей. Втім, він підкреслює, що це не скасовує потреби у прозорості.

Як можливий вихід він пропонує передати оцінювання моделей незалежним аудиторам. За такої моделі компанії мали б надавати свої системи для стандартизованого тестування стороннім організаціям, які публікували б результати одночасно з релізами.

Подібна практика вже частково застосовується для оцінок безпеки у співпраці з організаціями Apollo та METR. Водночас більшість метрик, які активно цитуються у публічному просторі, залишаються внутрішніми і не проходять незалежної верифікації.

ВАС ЗАЦІКАВИТЬШІ в секретних мережах США: сім техногігантів уклали угоди з Пентагоном

Як аргумент на користь змін дослідник наводить приклади з інших галузей. Зокрема, він згадує автомобільні краш-тести Euro NCAP та фінансові стандарти після Великої депресії, які запровадили незалежний аудит і уніфіковані підходи до оцінювання.

На його думку, додатковим стимулом для впровадження таких практик може стати політика великих замовників. Зокрема, державні та корпоративні контракти можуть вимагати незалежної оцінки моделей як обов’язкової умови співпраці.

Водночас Арнав зауважує, що нинішня система частково вигідна самим компаніям, адже високі показники підсилюють інформаційний ефект від релізів. Проте ця рівновага може змінитися, якщо хоча б один гравець зробить ставку на повну прозорість.

ВАС ЗАЦІКАВИТЬШІ-копії колишніх: новий тренд у Китаї викликав стурбованість фахівців

У короткостроковій перспективі він також допускає компромісний варіант — узгодження спільних стандартів тестування для відкритих бенчмарків. Це дозволить хоча б частково зменшити розрив між заявленими результатами різних моделей.

Арнав підсумовує, що стандартизовані оцінки є критично важливими для розуміння реальних можливостей ШІ. Без них неможливо забезпечити належний рівень довіри, безпеки та обґрунтованих рішень щодо впровадження технологій.

Раніше адміністрація Дональда Трампа обговорювала можливістьзапровадження державного нагляду за моделямиштучного інтелекту — перевірки систем до їхнього публічного запуску. Зміна курсу, ймовірно, відбудеться після появи потужних та потенційно небезпечних технологій, таких якMythos від Anthropic.

Джерела

Цифри без довіри: дослідник OpenAI закликає переглянути оцінки ШІ — (ZN,ua)

Всі новини: Наука та технології