Международная команда исследователей выяснила, как ИИ видит игру слов
Международная группа исследователей, в которую вошли специалисты факультета компьютерных наук ВШЭ, представила корпус KoWit-24 — коллекцию из 2700 газетных заголовков российских СМИ с каламбурами. С его помощью ученые проверили, насколько хорошо большие языковые модели распознают и объясняют игру слов. Как пишет naked-science.ru, тестирование пяти таких моделей показало: даже самые продвинутые системы регулярно ошибаются, а объяснение шутки оказывается для них значительно сложнее, чем простое её обнаружение.
Результаты были представлены на конференции RANLP, статья доступна на Arxiv.org, а сам датасет и программный код выложены на GitHub.
Под игрой слов авторы понимают намеренное создание двусмысленности ради привлечения внимания, иронии или комического эффекта. В российских новостных заголовках это может быть замена части устойчивого выражения или переосмысление фразеологизма. Например, заголовок «Особо бумажные персоны» обыгрывает выражение «особо важные персоны», сдвигая смысл к бумажной промышленности, а «Код накликал» фонетически близок к идиоме «кот наплакал» и создаёт ироничный эффект.
Для людей подобные каламбуры, как правило, очевидны и не требуют пояснений. Но современные языковые модели, включая ChatGPT и GigaChat Max, нередко не замечают сам факт игры слов или затрудняются объяснить, в чем состоит шутка. Исследователи связывают это с тем, что в обучающих наборах юмор обычно представлен короткими интернет-репликами с пометкой «шутка» и почти без разметки, указывающей на тип приема и исходные выражения.
KoWit-24 был создан, чтобы закрыть этот пробел. В него вошли заголовки за период с января 2021 по декабрь 2023 года вместе с контекстом: лидом заметки, рубрикой и кратким описанием темы. Для примеров с каламбурами авторы вручную указали тип приема, выделили «якорные» слова, привели исходные фразы и, где возможно, добавили ссылки на соответствующие статьи в «Википедии».
Затем корпус протестировали на пяти моделях — GPT-4o, YandexGPT4, GigaChat Lite, GigaChat Max и Mistral NeMo. Каждой модели давали заголовок и лид и просили сначала определить, есть ли игра слов, затем объяснить её источник. Сравнивали два режима подсказок: короткий вопрос и расширенную инструкцию с определением и примерами. Уточнённые подсказки улучшили распознавание у трёх моделей, лучшую точность показала GPT-4o. При этом корректно восстановить исходное выражение или отсылку всем системам оказалось заметно сложнее.
Один из авторов работы, доцент факультета компьютерных наук НИУ ВШЭ Павел Браславский отметил, что KoWit-24 превращает набор примеров в полноценный «тестовый стенд» для ИИ: он даёт общий корпус, многоуровневую разметку и понятные метрики, позволяя объективно сравнивать модели и целенаправленно улучшать их работу с юмором и игрой слов.
Читайте также:
- Еда на гарантированную удачу: что приготовить на Новый год 2026 — советы астролога
- Омар Хайям о главной ошибке родителей, которая отдаляет детей навечно: восточная мудрость
- «Прекращаем продажи»: Wildberries и Ozon рассказали про новое жёсткое правило
- Ностальгия победила аппетит: этот единственный школьный завтрак россияне готовы есть каждый день
- Вильфанд: стоит ли ожидать новых снегопадов ближайшую неделю




