Учёные выяснили, как нейросети распознают и объясняют каламбуры

Анастасия Максименко Редактор ленты новостей
Новый ресурс предназначен для оценки того, наск...

freepik.com

Международная команда исследователей с участием специалистов факультета компьютерных наук НИУ ВШЭ создала корпус KoWit‑24, включающий 2700 новостных заголовков с игрой слов. Новый ресурс предназначен для оценки того, насколько искусственный интеллект способен находить и интерпретировать языковую игру. Об этом сообщили в пресс‑службе вуза изданию «Жуковский.Life».

В экспериментах протестировали пять крупных языковых моделей, среди которых GPT‑4o и GigaChat. Результаты показали, что даже современные системы часто ошибаются при работе с каламбурами. Модели в целом лучше справляются с обнаружением заголовков с игрой слов, чем с объяснением, на чём именно основан каламбур и какие значения пересекаются.

Один из авторов работы, доцент ФКН НИУ ВШЭ Павел Браславский отмечает, что KoWit‑24 решает две важные проблемы предыдущих наборов данных: корпус даёт контекст к каждому заголовку и содержит многоуровневую разметку. Это, по его словам, превращает подборку примеров в полноценный «тестовый стенд» для проверки и сравнения моделей ИИ.

Игра слов остаётся распространённым приёмом в российских новостных заголовках, где её используют для привлечения внимания или усиления иронии. В качестве примера приводится заголовок «Особо бумажные персоны», обыгрывающий выражение «особо важные персоны».

Новый корпус включает заголовки за 2021–2023 годы с пометками типа приёма, ключевых слов и отсылок. Результаты исследования представлены на конференции RANLP, а сам корпус опубликован в открытом доступе, что позволяет другим командам использовать его для обучения и тестирования языковых моделей.

Читайте также:

Источник: samaraonline24.ru

Читайте в Дзен