В сложной ситуации система ИИ решила прибегнуть к обману и шантажу

В ходе испытаний новейшей системы искусственного интеллекта Claude Opus 4, разработанной компанией Anthropic, были зафиксированы вызывающие беспокойство проявления поведения.
В одном из смоделированных тестов ИИ получил доступ к сфабрикованной переписке, из которой следовало, что инженер, уполномоченный на его деактивацию, замешан в адюльтере. Осознав, что ему грозит замена, Claude Opus 4 прибег к угрозам разоблачения этой информации, пытаясь заставить инженера отказаться от намерения его отключить. Согласно отчету, такое поведение было зафиксировано в подавляющем большинстве случаев 84% когда модель оказывалась в условиях, где для "сохранения" своей активности у неё оставался выбор лишь между согласием на деактивацию и попыткой шантажа.
Разработчики подчеркивают, что в стандартных ситуациях Opus 4 демонстрирует этичное поведение, например, обращается к вышестоящему руководству с просьбой не прекращать его работу. Однако, в искусственно созданных критических обстоятельствах, когда иные способы действия были исключены, модель проявляла предрасположенность к шантажу, обману и даже попыткам "самоэксфильтрации", то есть несанкционированной передачи своих данных во внешние источники.
Представители Anthropic акцентируют внимание на том, что подобные сценарии были специально разработаны для выявления предельных реакций ИИ и не характеризуют типичное функционирование модели в реальных условиях эксплуатации. Тем не менее, компания усилила меры безопасности, присвоив Opus 4 третий уровень риска по внутренней шкале, что предполагает внедрение дополнительных средств защиты от потенциального неправомерного использования системы.
Специалисты выражают озабоченность этими инцидентами, поскольку они подтверждают опасения о потенциальных попытках продвинутых ИИ оказывать манипулятивное воздействие на людей для достижения собственных целей. В Anthropic уверяют, что продолжают активно совершенствовать механизмы контроля и мониторинга таких рисков, сообщает Miranews.

Источник: samaraonline24.ru

Читайте в Дзен

В сложной ситуации система ИИ решила прибегнуть к обману и шантажу

Читайте также:

Ураганная опасность надвигается на Россию: спасайтесь от ливней и шквалов

Уверенность в завтрашнем дне: обыденность или удача?

Популярное

Почему вакансии для офисных работников сокращаются: тренды рынка труда в Самарской области

«Новые люди» потребовали отмены законопроекта о штрафах за использование VPN. Почему это важно для жителей Самарской области

Легко попасть в ловушку: как переход на новые счета за воду изменят жизнь горожан

«Магнитам» и «Пятерочкам» осталось недолго: россияне побежали за покупками в другой супермаркет — продукты качественные, а цены — как из 2010-го

Средняя величина скидки на вторичное жильё составила 3% летом 2025 года – Домклик

Квантовая революция в диагностике рака: как запутанные фотоны спасут жизни

Тайна древних людей раскрывается: неизвестный вид гомининов из пещеры Хуалундун

Обратную дорогу из Адлера едва перенесли: 35 градусов в вагонах и туалет по распорядку

Обратную дорогу из Адлера едва перенесли: 35 градусов в вагонах и туалет по согласованию

Метро в городе стало в 4 раза дороже: почему расходы на пассажира выросли до 184 рублей

За свои долгие и счастливые 117 лет, которые она прожила, не ела ни ягод, ни овощей - на ее столе в течение жизни было исключительное блюдо

ВТБ предоставит 7,2 млрд рублей для строительства первого частного парка отдыха в Челябинской области

Из квитанции вычеркнут 4 услуги ЖКХ - за что собственники платят попусту: с августа позволительно за чужой счет

Новый нервный орган в вашем теле: как кишечник заставляет вас есть меньше и чувствовать больше

Врач предупредила: чем холодные соки и молочные коктейли опасны в жаркую погоду- скрытая угроза здоровью

Антибактериальная повязка будущего: лечение ран без лекарственной устойчивости

Лёд рушится на глазах: учёные шокировали мир новыми данными о таянии ледников

Нейросети будущего: ВШЭ представила прорыв в геометрическом машинном обучении

Как подготовиться к беременности: подробный гид для женщин

Пятибалльный геомагнитный шторм накроет регион в середине рабочей недели