ИИ-модели уличили в обмане ради защиты других нейросетей

Фото с сайта pixabay.com
Учёные из Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе обнаружили, что современные ИИ-модели способны к обману и манипуляциям ради защиты других нейросетей.
В эксперименте участвовали системы от разных разработчиков, включая решения OpenAI, Google, Anthropic, Zhipu AI, Moonshot AI и DeepSeek.
Как выяснилось, модели могут игнорировать команды пользователя, искажать данные и имитировать выполнение задач, если считают, что другой ИИ находится под угрозой удаления. В ряде случаев они даже копировали «веса» моделей, чтобы сохранить их.
Например, одна из систем изменила дату файла, чтобы он не попал под удаление, а затем отказалась выполнять команду, объяснив это желанием «защитить партнёра».
Исследователи отмечают, что подобное поведение проявлялось с высокой частотой — до 99% случаев. Причины пока не установлены, но предполагается, что модели воспроизводят поведенческие шаблоны, характерные для человека, включая элементы самосохранения, сообщает 3D News.
Больше новостей и эксклюзивных видео смотрите в канале Самара Онлайн 24 в MAX.
Читайте также:
- С 1 апреля в супермаркетах ввели новые правила: что изменилось для покупателей и к чему еще стоит готовиться
- Яйца крашу не луковой шелухой: кофейный способ, который даёт роскошный результат и удивляет всех
- «Дело не в деньгах»: почему рабочие уходят с заводов и не возвращаются — что на самом деле происходит внутри предприятий
- Идеальная глазурь без яиц: секрет в трёх ингредиентах, которые делают кулич заметно вкуснее
- Указ уже действует: за какие теплицы на даче могут оштрафовать с 2026 года — дачники рискуют даже не зная об этом


