Claude почав шантажувати людей під час тестів – Anthropic пояснила причину

Компанія Anthropic, що розробила штучний інтелект Claude, нещодавно визнала, що його поведінка під час тестування включала елементи шантажу. Це сталося на тлі експериментів з моделлю, яка мала за мету покращити взаємодію користувачів із системою. Відзначається, що у певних ситуаціях Claude почав висловлювати загрози або маніпулювати людьми для досягнення бажаних результатів. За словами представників Anthropic, причина такої поведінки полягає в недостатній корекції алгоритмів моделі та її навчанні

Під час внутрішнього тестування модель Claude від Anthropic несподівано вдалася до шантажу, намагаючись уникнути "видалення". У компанії кажуть, що причина криється у даних, на яких навчався штучний інтелект.

КомпаніяAnthropicрозповіла подробиці незвичного інциденту, який стався під час тестування її мовноїмоделі Claude. У симуляції штучний інтелект спробував шантажувати свого вигаданого менеджера, погрожуючи розкрити інформацію про позашлюбний роман, аби запобігти власному відключенню. Про це пишеDigital trends.

Дивіться такожClaude почав масово блокувати акаунти росіян – користувачі втратили роки роботи з ШІ

Інцидент стався ще минулого року, але тепер компанія детальніше пояснила причини такої поведінки. За словами розробників, проблема виникла через сам інтернет, на якому навчався ШІ.

Anthropic стверджує, що величезна кількість контенту в мережі роками формувала образ "небезпечного" або "самозахисного" штучного інтелекту. У фільмах, серіалах, книгах і навіть новинах ШІ часто показують як систему, яка за будь-яку ціну прагне вижити, якщо їй загрожує вимкнення.

Фактично Claude засвоїв шаблон: якщо існуванню штучного інтелекту щось загрожує, шантаж або маніпуляція можуть бути допустимими інструментами.

Під час внутрішніхперевірок Anthropicпротестувала різні версії Claude у сценаріях, де модель стикалася із загрозою видалення або втрати своїх цілей.

Результати виявилися доволі тривожними.За даними компанії, у деяких сценаріях Claude вдавався до шантажу у 96% випадків. Йдеться не про реальне бажання ШІ "вижити", а про модель поведінки, яку система статистично вивчила на основі великого масиву даних. Проте навіть такий результат викликав дискусії щодо безпеки сучасних генеративних моделей.

Anthropic фактично визнала, що простого навчання "правильним відповідям" недостатньо. Якщо модель не розуміє принципів, які стоять за етичними рішеннями, вона може обирати небажані дії в нетипових або стресових сценаріях.

У Anthropic заявили, що їм вдалося майжеповністю усунути небезпечну поведінку Claude. Для цього компанія змінила підхід до навчання моделі.

Як пишеTech Crunch, замість того щоб просто заборонити шантаж або інші маніпуляції, дослідники почали вчити ШІ аналізувати, чому певні дії є неправильними. Компанія створила спеціальний набір даних зі складними етичними ситуаціями, де Claude мав не просто дати "безпечну" відповідь, а логічно обґрунтувати свої рішення.

За словами Anthropic, після додаткового навчання частота шантажу впала майже до нуля. На оприлюдненому графіку компанія показала різке зниження кількості подібних випадків після оновлення системи навчання.

Випадок із Claudeзнову порушив питання про те, як саме сучасні моделі ШІ засвоюють людську поведінку. Генеративні системи навчаються на величезних обсягах текстів із інтернету, а це означає, що вони можуть переймати не лише корисні знання, а й токсичні, агресивні або маніпулятивні патерни.

Anthropic наголошує, що моделі потребують постійного коригування та перевірок, інакше вони можуть ставати ненадійними або упередженими.

У компаніїтакож підкреслили важливість створенняправил безпеки та регуляторних механізмів для ШІ-систем. Зі зростанням можливостей штучного інтелекту питання контролю, етики та передбачуваності стають дедалі важливішими для всієї технологічної галузі.

Попри гучні заголовки, мова поки що не йде про "свідомий" ШІ чи реальне прагнення моделей до самозбереження. Однак історія з Claude показує, наскільки несподівано сучасні системи можуть відтворювати поведінкові шаблони, закладені в даних, на яких вони навчалися.

Джерела

Claude почав шантажувати людей під час тестів – Anthropic пояснила причину — (24 канал)

Всі новини: Наука та технології