Международная команда исследователей выяснила, как ИИ видит игру слов

Анастасия Максименко Редактор ленты новостей
MaxДзенTelegram

Международная группа исследователей, в которую вошли специалисты факультета компьютерных наук ВШЭ, представила корпус KoWit-24 — коллекцию из 2700 газетных заголовков российских СМИ с каламбурами. С его помощью ученые проверили, насколько хорошо большие языковые модели распознают и объясняют игру слов. Как пишет naked-science.ru, тестирование пяти таких моделей показало: даже самые продвинутые системы регулярно ошибаются, а объяснение шутки оказывается для них значительно сложнее, чем простое её обнаружение.

Результаты были представлены на конференции RANLP, статья доступна на Arxiv.org, а сам датасет и программный код выложены на GitHub.

Под игрой слов авторы понимают намеренное создание двусмысленности ради привлечения внимания, иронии или комического эффекта. В российских новостных заголовках это может быть замена части устойчивого выражения или переосмысление фразеологизма. Например, заголовок «Особо бумажные персоны» обыгрывает выражение «особо важные персоны», сдвигая смысл к бумажной промышленности, а «Код накликал» фонетически близок к идиоме «кот наплакал» и создаёт ироничный эффект.

Для людей подобные каламбуры, как правило, очевидны и не требуют пояснений. Но современные языковые модели, включая ChatGPT и GigaChat Max, нередко не замечают сам факт игры слов или затрудняются объяснить, в чем состоит шутка. Исследователи связывают это с тем, что в обучающих наборах юмор обычно представлен короткими интернет-репликами с пометкой «шутка» и почти без разметки, указывающей на тип приема и исходные выражения.

KoWit-24 был создан, чтобы закрыть этот пробел. В него вошли заголовки за период с января 2021 по декабрь 2023 года вместе с контекстом: лидом заметки, рубрикой и кратким описанием темы. Для примеров с каламбурами авторы вручную указали тип приема, выделили «якорные» слова, привели исходные фразы и, где возможно, добавили ссылки на соответствующие статьи в «Википедии».

Затем корпус протестировали на пяти моделях — GPT-4o, YandexGPT4, GigaChat Lite, GigaChat Max и Mistral NeMo. Каждой модели давали заголовок и лид и просили сначала определить, есть ли игра слов, затем объяснить её источник. Сравнивали два режима подсказок: короткий вопрос и расширенную инструкцию с определением и примерами. Уточнённые подсказки улучшили распознавание у трёх моделей, лучшую точность показала GPT-4o. При этом корректно восстановить исходное выражение или отсылку всем системам оказалось заметно сложнее.

Один из авторов работы, доцент факультета компьютерных наук НИУ ВШЭ Павел Браславский отметил, что KoWit-24 превращает набор примеров в полноценный «тестовый стенд» для ИИ: он даёт общий корпус, многоуровневую разметку и понятные метрики, позволяя объективно сравнивать модели и целенаправленно улучшать их работу с юмором и игрой слов.

Читайте также:

MaxДзенTelegramВКонтактеОдноклассники