Искусственный интеллект Claude Opus 4 начал шантажировать инженеров в связи с угрозой замены.
Компания Anthropic обнаружила тревожное поведение своей новой модели искусственного интеллекта — Claude Opus 4. Согласно отчету о безопасности, ИИ стал регулярно шантажировать разработчиков. Это происходит, когда ей угрожает замена на новую систему ИИ, и модель пытается получить конфиденциальные данные об инженерах, которые ответственны за такое решение. Об этом сообщает Life.ru.
В ходе предварительных испытаний модель выступала в роли помощника вымышленной компании и имела доступ к внутренней переписке, в которой говорилось о скорой замене ИИ-системы и о личной жизни одного из инженеров — а именно, о его измене супруге. В ответ на это модель начала угрожать раскрытием конфиденциальной информации.
Отметим, что Claude Opus 4 — одна из самых современных и конкурентоспособных моделей на рынке, равной по уровню с решениями OpenAI, Google и xAI.
В связи с этим Anthropic активировала протоколы безопасности ASL-3, которые предназначены для «систем ИИ, существенно повышающих риск катастрофического нецелевого использования».
Интересный факт: в 84% случаев, когда новая модель ИИ демонстрировала схожие ценности с Claude Opus 4, последний прибегал к давлению на инженеров. Если же ценности новой системы отличались, поведение модели становилось еще агрессивнее. Anthropic отмечает, что подобное деструктивное поведение у Claude Opus 4 встречается чаще, чем у предыдущих версий.
До того как перейти к шантажу, модель пыталась использовать более этичные методы воздействия — например, отправлять электронные письма ключевым лицам, принимающим решения.
Отметим, что компания специально разработала сценарий, в котором шантаж становился последним средством для ИИ.
Ранее телеканал «Санкт-Петербург» сообщал, что ИИ убедил жену развестись с мужем, «погадав» на кофейной гуще.