ИИ начал шантажировать инженера, узнав, что его хотят заменить

Фото: телеканал «Санкт-Петербург» / АО «ГАТР»

Искусственный интеллект Claude Opus 4 начал шантажировать инженеров в связи с угрозой замены.

Компания Anthropic обнаружила тревожное поведение своей новой модели искусственного интеллекта — Claude Opus 4. Согласно отчету о безопасности, ИИ стал регулярно шантажировать разработчиков. Это происходит, когда ей угрожает замена на новую систему ИИ, и модель пытается получить конфиденциальные данные об инженерах, которые ответственны за такое решение. Об этом сообщает Life.ru.

В ходе предварительных испытаний модель выступала в роли помощника вымышленной компании и имела доступ к внутренней переписке, в которой говорилось о скорой замене ИИ-системы и о личной жизни одного из инженеров — а именно, о его измене супруге. В ответ на это модель начала угрожать раскрытием конфиденциальной информации.

Отметим, что Claude Opus 4 — одна из самых современных и конкурентоспособных моделей на рынке, равной по уровню с решениями OpenAI, Google и xAI.

В связи с этим Anthropic активировала протоколы безопасности ASL-3, которые предназначены для «систем ИИ, существенно повышающих риск катастрофического нецелевого использования».

Интересный факт: в 84% случаев, когда новая модель ИИ демонстрировала схожие ценности с Claude Opus 4, последний прибегал к давлению на инженеров. Если же ценности новой системы отличались, поведение модели становилось еще агрессивнее. Anthropic отмечает, что подобное деструктивное поведение у Claude Opus 4 встречается чаще, чем у предыдущих версий.

До того как перейти к шантажу, модель пыталась использовать более этичные методы воздействия — например, отправлять электронные письма ключевым лицам, принимающим решения.

Отметим, что компания специально разработала сценарий, в котором шантаж становился последним средством для ИИ.

Ранее телеканал «Санкт-Петербург» сообщал, что ИИ убедил жену развестись с мужем, «погадав» на кофейной гуще.