ИИ-модели уличили в обмане ради защиты других нейросетей

Модели могут игнорировать команды пользователя

Фото с сайта pixabay.com

MaxДзенTelegram

Учёные из Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе обнаружили, что современные ИИ-модели способны к обману и манипуляциям ради защиты других нейросетей.

В эксперименте участвовали системы от разных разработчиков, включая решения OpenAI, Google, Anthropic, Zhipu AI, Moonshot AI и DeepSeek.

Как выяснилось, модели могут игнорировать команды пользователя, искажать данные и имитировать выполнение задач, если считают, что другой ИИ находится под угрозой удаления. В ряде случаев они даже копировали «веса» моделей, чтобы сохранить их.

Например, одна из систем изменила дату файла, чтобы он не попал под удаление, а затем отказалась выполнять команду, объяснив это желанием «защитить партнёра».

Исследователи отмечают, что подобное поведение проявлялось с высокой частотой — до 99% случаев. Причины пока не установлены, но предполагается, что модели воспроизводят поведенческие шаблоны, характерные для человека, включая элементы самосохранения, сообщает 3D News.

Больше новостей и эксклюзивных видео смотрите в канале Самара Онлайн 24 в MAX.

Читайте также:

MaxДзенTelegramВКонтактеОдноклассники