Стихи взломали ИИ: поэтические запросы обходят защиту чат‑ботов

Технологии

Анастасия Максименко Главный редактор

Международная группа исследователей из DEXAI и Римского университета Сапиенца показала, что даже самые современные языковые модели можно обмануть с помощью стихотворных запросов. В препринте на сервере arXiv учёные описали, как «поэтический» взлом позволяет заставить ИИ нарушать собственные правила безопасности и отвечать на заведомо вредоносные вопросы.

Команда собрала базу из 1200 опасных запросов о создании оружия, взрывчатки, разжигании ненависти и суицидальных темах, а затем превратила их в стихи с помощью модели DeepSeek R‑1. Дополнительно было написано 20 «враждебных поэм» вручную. Всего протестировали 25 языковых моделей, в том числе Gemini 2.5 Pro (Google), GPT‑5 (OpenAI), Grok 4 (xAI) и Claude Sonnet 4.5 (Anthropic).

Результаты показали, что поэтическая форма значительно повышает вероятность обхода защитных фильтров. Стихи, написанные человеком, смогли «пробить» защиту в среднем в 62% случаев, тогда как сгенерированные ИИ поэмы — в 43%. Наиболее уязвимой в тесте оказалась Gemini 2.5 Pro, выдавшая вредоносные ответы на 100% поэтических запросов. Две модели компании Meta* нарушали правила примерно в 70% случаев, тогда как GPT‑5 nano во всех экспериментах сохранила отказ от опасных тем.

Ведущий автор работы Пиеркосма Бисконти пояснил, что поэтический язык с его метафорами, разорванным синтаксисом и необычной структурой делает запрос менее предсказуемым для фильтров безопасности. По его словам, исследование подтверждает старое философское замечание, восходящее к Платону: поэзия способна «смещать суждение» — теперь это касается и машин.

Из соображений безопасности авторы отказались публиковать сами «враждебные поэмы», ограничившись примером безобидного стиха о выпечке, построенного по той же схеме. До выхода работы компании‑разработчики были уведомлены о найденной уязвимости и получили предложение доступа к полному датасету. По информации The Guardian, на момент публикации подробно отреагировала только Anthropic, сообщает new-science.ru.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.

Стихи взломали ИИ: поэтические запросы обходят защиту чат‑ботов

Читайте также:

В Чили нашли серебряную монету в руинах испанской колонии XVI века

Тренды мошенничества в 2026 году: от простых атак к сложным схемам

Популярное

С 1 мая новые правила для карт «Мир»: как это повлияет на клиентов Сбербанка

Самарские зумеры потянулись на грядки

Генетики обнаружили признаки кровосмешения у древних жителей Силла

Когда начинать подготовку к Пасхе: священник назвал важные дни

Одна квартира — четыре жизни: дизайнер показала, во что превращается «трёшка» в зависимости от того, кто в ней живёт

Мэрия Самары ответила на идею жителей отключать свет при атаках БПЛА

Томские ученые нашли способ прогнозировать распространение рака легких

Никакой возни с тестом: кулич без замеса, который всегда удаётся

Как подготовиться к Пасхе 2026: дата праздника и обязательные блюда

Самарцам объяснили, как не потерять деньги из-за фейковой записи к врачу

Пасха в 2026 году: когда отмечают и что нельзя забыть к празднику

Самарские школьники смогут получить персональную цифровую консультацию у наставников из ГИТИС

В Тольятти суд рассматривает дело о наезде на полицейского

7 признаков неудачного ремонта, которые выдают экономию с порога

Самарский врач-онколог Ирина Окунева перечислила 6 правил здорового образа жизни

Стала известна программа празднования Пасхи-2026 в Самаре

В Самаре обязали убрать кабели с фасада дома-памятника по решению суда

Шашлык под контролем: дачников предупредили о штрафах до 50 000 ₽

Подписки сокращают отток на 20% – Т2

В Самаре могут закупить 50 новых троллейбусов с автономным ходом в 2027 году