PNAS Nexus: эксперты выявили главную слабость современных ИИ-моделей

magnific.com
PNAS Nexus: эксперты выявили главную слабость современных ИИ-моделей
Международная группа исследователей провела эксперимент с использованием классического психологического теста Струпа. Работа опубликована в журнале PNAS Nexus.
В тестировании участвовали ведущие языковые модели, включая GPT-4o, GPT-5, Claude 3.5 Sonnet, Claude Opus 4.1 и Gemini 2.5.
Суть теста Струпа
Участникам показывают слова, обозначающие цвета, но написанные чернилами другого цвета. Задача — назвать именно цвет чернил, игнорируя само слово.
Люди, как правило, успешно справляются с задачей даже при увеличении объема заданий, демонстрируя устойчивое внимание.
Результаты эксперимента с ИИ
Когда задания были короткими (около 5 слов), все модели показывали высокую точность. Однако с ростом объема задач результаты резко ухудшались.
Так, у GPT-4o точность составляла около 91% при 5 словах, но снижалась до 57% при 10 и падала до 15% при 40 заданиях. Модель Claude 3.5 Sonnet сохраняла стабильность до 20 слов, после чего также демонстрировала резкое падение точности.
Выводы ученых
Исследователи пришли к выводу, что языковые модели теряют фокус на инструкции при увеличении нагрузки и начинают опираться на чтение текста вместо выполнения задания.
В отличие от людей, ИИ не способен устойчиво поддерживать произвольное внимание, что и считается одной из его ключевых слабостей.
Больше новостей и эксклюзивных видео смотрите в канале Самара Онлайн 24 в MAX.



