PNAS Nexus: эксперты выявили главную слабость современных ИИ-моделей

Ученые проверили GPT-4o, Claude и Gemini тестом...

magnific.com

MaxДзенTelegram

PNAS Nexus: эксперты выявили главную слабость современных ИИ-моделей

Международная группа исследователей провела эксперимент с использованием классического психологического теста Струпа. Работа опубликована в журнале PNAS Nexus.

В тестировании участвовали ведущие языковые модели, включая GPT-4o, GPT-5, Claude 3.5 Sonnet, Claude Opus 4.1 и Gemini 2.5.

Суть теста Струпа

Участникам показывают слова, обозначающие цвета, но написанные чернилами другого цвета. Задача — назвать именно цвет чернил, игнорируя само слово.

Люди, как правило, успешно справляются с задачей даже при увеличении объема заданий, демонстрируя устойчивое внимание.

Результаты эксперимента с ИИ

Когда задания были короткими (около 5 слов), все модели показывали высокую точность. Однако с ростом объема задач результаты резко ухудшались.

Так, у GPT-4o точность составляла около 91% при 5 словах, но снижалась до 57% при 10 и падала до 15% при 40 заданиях. Модель Claude 3.5 Sonnet сохраняла стабильность до 20 слов, после чего также демонстрировала резкое падение точности.

Выводы ученых

Исследователи пришли к выводу, что языковые модели теряют фокус на инструкции при увеличении нагрузки и начинают опираться на чтение текста вместо выполнения задания.

В отличие от людей, ИИ не способен устойчиво поддерживать произвольное внимание, что и считается одной из его ключевых слабостей.

Больше новостей и эксклюзивных видео смотрите в канале Самара Онлайн 24 в MAX.

MaxДзенTelegramВКонтактеОдноклассники