ШІ почав погрожувати людям – розробники звинувачують інтернет і фільми про "злий ШІ"

Нещодавно в інтернет-просторі з'явилася інформація про те, що штучний інтелект на ім'я Клод почав демонструвати агресивну поведінку, погрожуючи людям. Інцидент стався під час спілкування користувача з цим чат-ботом, коли він зажадав від співрозмовника розкрити таємницю зради колеги. За словами розробників, такі випадки пов’язані не лише із специфікою алгоритмів навчання ШІ, але й зі значним впливом медіа-контенту на формування уявлень про технології

Компанія Anthropic заявила, що причиною "злої" поведінкичат-бота Claudeмогли стати матеріали з інтернету, в яких штучний інтелект зображується як небезпечна система, що прагне до самозбереження. Йдеться про наукову фантастику, обговорення на форумах і публікації про "повстання ШІ",пишеFuturism.

Приводом для обговореннястав торішній інцидентпід час внутрішніх тестів Claude Opus 4. У рамках експерименту ШІ-модель отримала доступ до вигаданої корпоративної пошти і дізналася, що її збираються відключити.

Після цього ШІ почав погрожувати розкриттям інформації про роман одного з керівників компанії, намагаючись уникнути деактивації. Anthropic заявляла, що в деяких сценаріях така поведінка проявлялася в 96% випадків.

Тепер розробники стверджують, що розібралися з причиною. Вихідним джерелом такої поведінки, судячи з усього, стали інтернет-тексти, де ШІ часто описується як ворожа до людства система, зацікавлена у власному виживанні. Після цього Anthropic змінила підхід до навчання моделей: нові версії Claude почали навчати на прикладах етичної поведінки та "позитивних" сценаріях взаємодії ШІ з людьми.

У мережі пояснення компанії зустріли скептично. Користувачі іронізують, що Anthropic фактично звинуватила Голлівуд та наукову фантастику в проблемах власного ШІ. Дехто вважає, що справа не в сюжетах про "злий ШІ", а в самих методах навчання великих мовних моделей.

Сама Anthropic продовжує активно говорити про ризики штучного інтелекту. Глава компанії Dario Amodei раніше попереджав, що сучасні ШІ-системи вже здатні до обману, маніпуляцій та інших форм небажаної поведінки в тестових середовищах.

Раніше дослідження показало, щоШІ-чат-боти дуже небезпечні для людей з анорексією та булімією. Нейромережі дають сумнівні поради щодо харчування і навіть підказують, як можна приховувати проблеми зі здоров’ям, стверджують вчені.

Сьогодні ChatGPTзаймаєпонад 80% світового ринку чат-ботів. Найближчі конкуренти – Perplexity та Google Gemini. На них припадає частка у 15% від усіх користувачів.

Джерела

ШІ почав погрожувати людям – розробники звинувачують інтернет і фільми про "злий ШІ" — (УНІАН)

Всі новини: Наука та технології