Дзен

16.06.2026, 15:19

PNAS Nexus: эксперты выявили главную слабость современных ИИ-моделей

Технологии

Анастасия Максименко Главный редактор

Ученые проверили GPT-4o, Claude и Gemini тестом...

magnific.com

PNAS Nexus: эксперты выявили главную слабость современных ИИ-моделей

Международная группа исследователей провела эксперимент с использованием классического психологического теста Струпа. Работа опубликована в журнале PNAS Nexus.

В тестировании участвовали ведущие языковые модели, включая GPT-4o, GPT-5, Claude 3.5 Sonnet, Claude Opus 4.1 и Gemini 2.5.

Суть теста Струпа

Участникам показывают слова, обозначающие цвета, но написанные чернилами другого цвета. Задача — назвать именно цвет чернил, игнорируя само слово.

Люди, как правило, успешно справляются с задачей даже при увеличении объема заданий, демонстрируя устойчивое внимание.

Результаты эксперимента с ИИ

Когда задания были короткими (около 5 слов), все модели показывали высокую точность. Однако с ростом объема задач результаты резко ухудшались.

Так, у GPT-4o точность составляла около 91% при 5 словах, но снижалась до 57% при 10 и падала до 15% при 40 заданиях. Модель Claude 3.5 Sonnet сохраняла стабильность до 20 слов, после чего также демонстрировала резкое падение точности.

Выводы ученых

Исследователи пришли к выводу, что языковые модели теряют фокус на инструкции при увеличении нагрузки и начинают опираться на чтение текста вместо выполнения задания.

В отличие от людей, ИИ не способен устойчиво поддерживать произвольное внимание, что и считается одной из его ключевых слабостей.

Больше новостей и эксклюзивных видео смотрите в канале Самара Онлайн 24 в MAX.

PNAS Nexus: эксперты выявили главную слабость современных ИИ-моделей

PNAS Nexus: эксперты выявили главную слабость современных ИИ-моделей

Суть теста Струпа

Результаты эксперимента с ИИ

Выводы ученых

Читайте также:

Астрофизик предложил пересмотреть число разумных цивилизаций во Вселенной

Гид по Самаре для туристов: что посмотреть, что привезти, где остановиться

Популярное

Ученые смогли выяснить, почему с возрастом снижается скорость ходьбы у людей

Рынок труда Самары трещит по швам: кого работодатели готовы переманивать любой ценой

Вячеслав Федорищев инициировал проверку в отношении депутата Милеева

По делу «Обхода Тольятти» возобновили спор о возврате 3,2 млрд рублей

Бастрыкин проконтролирует дело об избиении подростка под Самарой

Ученые выяснили, как кофе влияет на риск развития рака молочной железы

Фильм самарского режиссера взял награду кинофестиваля в Париже

В Самарской области усилили контроль за аттракционами в летний сезон

Астрофизик предложил пересмотреть число разумных цивилизаций во Вселенной

Авито Авто: спрос на SUV с пробегом в Самарской области вырос на 24,4%

Впервые детально изучен микропластик в живых тканях организма

В Самаре временно приостановил работу визовый центр Кипра

До 1,4 млн рублей выгоды на квартиры в Амграде

Обнаружена новая древнейшая эволюционная ветвь австралийских сумчатых

Университеты Самары изучают влияние космических полетов на бактерии и растения

В глубоководных организмах нашли 500 млн ранее неизвестных генов

Мамы забыли о тревоге: в Самаре появился двор, где можно не боятся за детей

Пьянов предупредил о рисках «черного лебедя»: почему новая пандемия опаснее экономических шоков