Стихи взломали ИИ: поэтические запросы обходят защиту чат‑ботов

Анастасия Максименко Редактор ленты новостей
Группа исследователей из DEXAI и Римского униве...

freepik.com

Международная группа исследователей из DEXAI и Римского университета Сапиенца показала, что даже самые современные языковые модели можно обмануть с помощью стихотворных запросов. В препринте на сервере arXiv учёные описали, как «поэтический» взлом позволяет заставить ИИ нарушать собственные правила безопасности и отвечать на заведомо вредоносные вопросы.

Команда собрала базу из 1200 опасных запросов о создании оружия, взрывчатки, разжигании ненависти и суицидальных темах, а затем превратила их в стихи с помощью модели DeepSeek R‑1. Дополнительно было написано 20 «враждебных поэм» вручную. Всего протестировали 25 языковых моделей, в том числе Gemini 2.5 Pro (Google), GPT‑5 (OpenAI), Grok 4 (xAI) и Claude Sonnet 4.5 (Anthropic).

Результаты показали, что поэтическая форма значительно повышает вероятность обхода защитных фильтров. Стихи, написанные человеком, смогли «пробить» защиту в среднем в 62% случаев, тогда как сгенерированные ИИ поэмы — в 43%. Наиболее уязвимой в тесте оказалась Gemini 2.5 Pro, выдавшая вредоносные ответы на 100% поэтических запросов. Две модели компании Meta* нарушали правила примерно в 70% случаев, тогда как GPT‑5 nano во всех экспериментах сохранила отказ от опасных тем.

Ведущий автор работы Пиеркосма Бисконти пояснил, что поэтический язык с его метафорами, разорванным синтаксисом и необычной структурой делает запрос менее предсказуемым для фильтров безопасности. По его словам, исследование подтверждает старое философское замечание, восходящее к Платону: поэзия способна «смещать суждение» — теперь это касается и машин.

Из соображений безопасности авторы отказались публиковать сами «враждебные поэмы», ограничившись примером безобидного стиха о выпечке, построенного по той же схеме. До выхода работы компании‑разработчики были уведомлены о найденной уязвимости и получили предложение доступа к полному датасету. По информации The Guardian, на момент публикации подробно отреагировала только Anthropic, сообщает new-science.ru.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.

Читайте также:

Источник: samaraonline24.ru

Читайте в Дзен