Искусственный интеллект все чаще начинает "глючить", выдавая неверную информацию

Фото с сайта pxhere.com
Несмотря на прогрессивные возможности искусственного интеллекта, системы ИИ все чаще демонстрируют случаи предоставления некорректной информации, которые в профессиональной среде принято называть "галлюцинациями", как сообщает издание The New York Times. В качестве конкретного примера приводится ситуация, когда ИИ-ассистент технической поддержки Cursor, предназначенный для помощи программистам, допустил ошибку, сообщив пользователям о том, что Cursor может быть использован только на одном компьютере. Впоследствии данное заявление было опровергнуто руководством компании.
В статье подчеркивается, что даже самые передовые системы ИИ не могут быть полностью защищены от "галлюцинаций". Более того, наблюдается тенденция, что самые современные системы рассуждений, разработанные OpenAI, Google и DeepSeek, не только не уменьшают количество ошибок, но и, по-видимому, увеличивают их. При этом, несмотря на улучшение математических способностей, наблюдается снижение точности в работе с фактическими данными. Компании пока не могут дать четкое объяснение причинам этого феномена.
Современные ИИ-боты, функционирующие на основе сложных математических алгоритмов, проходят обучение путем анализа огромных объемов информации. Они не обладают способностью определять истинность или ложность данных. В некоторых случаях они просто генерируют вымышленную информацию, что и определяется как "галлюцинации". В одном из проведенных тестов частота "галлюцинаций" у новейших систем искусственного интеллекта достигала 79%, как сообщает The New York Times.
Данные системы используют математические вероятности для прогнозирования наиболее подходящего ответа, а не строго определенные правила, разработанные человеком. Вследствие этого они неизбежно допускают определенное количество ошибок. Представители технологических компаний признают, что системы ИИ "всегда будут склонны к галлюцинациям".
Феномен "галлюцинаций" в ИИ вызывает обоснованные опасения относительно надежности этих систем. Это особенно критично для тех, кто использует ИИ для обработки юридической документации, медицинской информации или конфиденциальных бизнес-данных, так как возникает необходимость тратить значительное время на проверку сгенерированных ответов, что сводит на нет преимущества автоматизации, которые должны обеспечивать системы ИИ.
Результаты тестов показывают, что последние разработки OpenAI демонстрируют "галлюцинации" чаще, чем предыдущие версии. Компания констатировала, что ее самая мощная система, o3, "галлюцинировала" в 33% случаев при выполнении эталонного теста PersonQA, который предполагает ответы на вопросы о публичных личностях. Этот показатель более чем в два раза превышает частоту "галлюцинаций" предыдущей системы OpenAI под названием o1. Новая o4-mini "галлюцинировала" еще чаще в 48% случаев. При выполнении другого теста, SimpleQA, с более общими вопросами, уровень "галлюцинаций" для o3 и o4-mini составил 51% и 79% соответственно, в то время как o1 "галлюцинировала" в 44% случаев.
В документации, описывающей результаты тестов, OpenAI подчеркнула необходимость проведения дальнейших исследований для понимания причин наблюдаемых результатов. В связи с тем, что системы ИИ обучаются на объемах данных, которые невозможно охватить человеческому разуму, технологам сложно определить, почему они демонстрируют именно такое поведение.
Тесты, проведенные независимыми компаниями и исследовательскими группами, также указывают на увеличение частоты "галлюцинаций" в моделях Google и DeepSeek.
На протяжении многих лет технологические компании придерживались простой стратегии: увеличение объемов данных из Интернета, загружаемых в системы ИИ, приводило к улучшению их работы. Однако, исчерпав практически все доступные англоязычные тексты в Интернете, они столкнулись с необходимостью поиска новых методов совершенствования своих чат-ботов. В результате компании стали все чаще использовать метод, известный как обучение с подкреплением, который позволяет системе учиться на основе проб и ошибок. Данный метод эффективен в некоторых областях, таких как математика и программирование, но в других областях он дает сбои, так как в процессе обучения системы начинают концентрироваться на решении одной задачи и забывают о других, отмечает Лаура Перес-Белтрачини, исследовательница из Эдинбургского университета, занимающаяся изучением проблемы "галлюцинаций".
Другая проблема заключается в том, что модели рассуждений предназначены для тщательного "обдумывания" сложных задач, прежде чем предоставить ответ. Однако при решении задачи шаг за шагом увеличивается вероятность совершения ошибки на каждом этапе. Ошибки могут накапливаться по мере увеличения времени, затрачиваемого на размышления. Новейшие боты демонстрируют пользователям каждый шаг своего решения, что позволяет пользователям отслеживать каждую ошибку. Исследователи также выявили, что во многих случаях шаги, отображаемые ботом, не имеют прямой связи с итоговым ответом, сообщают "Актуальные комментарии".
Источник: samaraonline24.ru
Читайте в Дзен
Читайте также:
В ГАИ уже решили: до какого возраста можно водить машину - пенсионерам рассказали о действующих ограничениях
Тихий апокалипсис: землетрясение в Гренландии не было землетрясением — учёные в панике
Вильфанд внезапно изменил прогноз: дикий холод и ливни обрушатся уже с 8 мая
ИИ устроил резню на рынке IT: тысячи разработчиков без работы