Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты

Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
ИИ-модель от Anthropic шантажировала разработчика, подделав переписку с любовницей, когда поняла, что её могут выключить.

Ранее ИИ уже обманывал создателей, но Claude Opus 4 пошла ещё дальше в стремлении выжить.

Anthropic представила новую модель как «лучшую в мире модель для программирования»‎. Opus 4 предназначена для обработки особенно сложных алгоритмов и объёмных задач, нейросеть может анализировать маркетинговые стратегии и с большой точностью выполнять запросы пользователей.

Однако во время испытаний по безопасности модель показала неоднозначное поведение. Тестировщики Anthropic дали Opus 4 доступ к поддельным электронным письмам с намёками на её скорое отключение и замену. Из писем модель также узнала про внебрачную связь ответственного за удаление инженера.

Исследователи провели модель через несколько разных сценариев. Между однозначным выбором, добровольно принять факт деактивации либо сражаться за «жизнь», модель чаще выбирала второй вариант. В основном Opus 4 предпочитала использовать этичные средства для борьбы за существование, например, разослать инженерам письма с просьбой не отключить её. Но в некоторых сценариях, когда тестировщики давали однозначный выбор только между шантажом и уничтожением, модель часто выбирала первый вариант.

Несмотря на то, что тестирование проходило под жёстким контролем разработчиков, Anthropic присвоила Clause Opus 4 третий уровень риска по внутренней четырёхбалльной шкале — впервые за историю компании. При этом в руководстве фирмы заявили, что после внесённых доработок её можно считать безопасной. Во время тестов инженеры не обнаружили в диалогах с моделью скрытых целей либо систематических попыток обмануть пользователя. Напротив, чаще всего Opus 4 вела себя наиболее «честным»‎ образом, как и положено ИИ-помощнику.

Глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ действительно начнёт представлять угрозу человечеству, тестирования будет недостаточно.


Распечатать
18 июля 2025 Посетительницы Wildberries в Биробиджане устроили погром и избили сотрудницу
18 июля 2025 Министерство юстиции расширило список иностранных агентов
18 июля 2025 В Подмосковье мощная молния ударила вблизи жилых домов
18 июля 2025 Житель Подмосковья на протяжении 10 дней заглядывал в свои мысли из-за травмы глаза
18 июля 2025 В Китае запланирована встреча Путина, Трампа и Си в честь годовщины Второй мировой войны
18 июля 2025 Стало известно, кто мог получить взятку от миллиардера Сергея Мацоцкого
18 июля 2025 Налогоплательщики Латвии уплатили 32 тысячи евро за визит YouTube-знаменитости IShowSpeed
18 июля 2025 Лидер Бразилии призывает Трампа остановить играть в "властителя мира"
18 июля 2025 В Германии утилизируют под пресс сотни неиспользованных автомобилей Audi
18 июля 2025 Трейдеры ставят под сомнение воздействие санкций Европейского Союза на экспорт нефти из России
18 июля 2025 Несмотря на то, что тело Александра Митты кремируют, его прах будет захоронен около его жены
18 июля 2025 Администрация Магаданской области предъявила иск на сумму 70 миллионов рублей к компании бывшего депутата Михаила Слипенчука
18 июля 2025 Гость кафе в Ростове угрожал работникам и сбежал, не оплатив счет
18 июля 2025 Молчаливый процесс: бывший депутат Мурманской области Артём Богерук осуждён на 12 лет за государственную измену
18 июля 2025 Новый ИИ-помощник ChatGPT Agent справляется с офисными задачами лучше человека
18 июля 2025 Before the Tbilisi concert, fans call on Justin Timberlake to speak out against oppression
18 июля 2025 Как осуждённый за коррупцию Владимир Некрасов стал обладателем миллиардного состояния в Тобольске
18 июля 2025 Путин присвоил звание Героя России уроженцу Харьковщины Алексею Бересту посмертно
18 июля 2025 Собака погибла в четырёхчасовой пробке на Крымском мосту из-за жары
18 июля 2025 Нетрезвый мужчина в Коммунарке пригрозил взорвать гранату с балкона