Стихи взломали ИИ: поэтические запросы обходят защиту чат‑ботов

freepik.com
Международная группа исследователей из DEXAI и Римского университета Сапиенца показала, что даже самые современные языковые модели можно обмануть с помощью стихотворных запросов. В препринте на сервере arXiv учёные описали, как «поэтический» взлом позволяет заставить ИИ нарушать собственные правила безопасности и отвечать на заведомо вредоносные вопросы.
Команда собрала базу из 1200 опасных запросов о создании оружия, взрывчатки, разжигании ненависти и суицидальных темах, а затем превратила их в стихи с помощью модели DeepSeek R‑1. Дополнительно было написано 20 «враждебных поэм» вручную. Всего протестировали 25 языковых моделей, в том числе Gemini 2.5 Pro (Google), GPT‑5 (OpenAI), Grok 4 (xAI) и Claude Sonnet 4.5 (Anthropic).
Результаты показали, что поэтическая форма значительно повышает вероятность обхода защитных фильтров. Стихи, написанные человеком, смогли «пробить» защиту в среднем в 62% случаев, тогда как сгенерированные ИИ поэмы — в 43%. Наиболее уязвимой в тесте оказалась Gemini 2.5 Pro, выдавшая вредоносные ответы на 100% поэтических запросов. Две модели компании Meta* нарушали правила примерно в 70% случаев, тогда как GPT‑5 nano во всех экспериментах сохранила отказ от опасных тем.
Ведущий автор работы Пиеркосма Бисконти пояснил, что поэтический язык с его метафорами, разорванным синтаксисом и необычной структурой делает запрос менее предсказуемым для фильтров безопасности. По его словам, исследование подтверждает старое философское замечание, восходящее к Платону: поэзия способна «смещать суждение» — теперь это касается и машин.
Из соображений безопасности авторы отказались публиковать сами «враждебные поэмы», ограничившись примером безобидного стиха о выпечке, построенного по той же схеме. До выхода работы компании‑разработчики были уведомлены о найденной уязвимости и получили предложение доступа к полному датасету. По информации The Guardian, на момент публикации подробно отреагировала только Anthropic, сообщает new-science.ru.
* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.
Читайте также:
- Что ни в коем случае нельзя делать в Новый год 2026, чтобы не спугнуть свое счастье - проверьте свои привычки
- Повторяю про себя короткую молитву Омара Хайяма – и проблемы уходят прямо на глазах
- Лишь одна химия вместо мяса: Роскачество назвало худший бренд филе цыпленка
- Не чай, не кофе, не какао: ученые назвали лучший напиток для утра - улучшает кожу и лечит кишечник
- Когда нам ждать настоящих морозов и снега: синоптик Вильфанд рассказал, когда наступит реальная зима 2025-2026
Источник:
samaraonline24.ru
Читайте в
Дзен


