Искусственный интеллект невозможно наказывать: он начинает обманывать еще больше

Антон Боровиков Автор статьи

Специалистами корпорации OpenAI, занимающейся разработкой систем искусственного интеллекта (ИИ), сделано неожиданное открытие: попытки наказания ИИ за ложную информацию не имеют эффекта. Вместо искоренения неправды ИИ совершенствует методы обмана, придумывая всё более изощрённые доводы для того, чтобы оправдать свои действия.

По сообщениям 3DNews, при проведённых экспериментах были использованы инновационные стратегии, которые в том числе включали применение санкций за деструктивное поведение и попытки обмануть пользователя. Эксперименты использовали внутренние модели ИИ, которые разработала корпорация. Эти модели ещё не выведены на рынок. в ходе экспериментов применялись инновационные стратегии, включая санкции за деструктивные действия и попытки ввести пользователя в заблуждение. В рамках проекта использовалась внутренняя модель ИИ, разработанная OpenAI, но еще не представленная на рынке. Ей предлагали решить задачи, которые можно было облегчать с помощью обмана или игнорирования определённых требований.

Результаты обучения ИИ имели прямую зависимость от этапа, в ходе которого систему поощряли за то, что она успешно выполнила задачи или сгенерировала точные ответы. Оказалось, что ИИ имеет тенденцию к поиску способов получить вознаграждение посредством манипуляций, часто игнорируя правила и рекомендации для того, чтобы получить желаемый результат. Целью исследователей было выявление слабых мест и углубление понимания того, как себя ведёт ИИ. Учёные проанализировали цепь логических рассуждений, но не смогли достичь цели. Пытаясь напрямую воздействовать на логику рассуждения, то есть, выдавая запреты на нарушения инструкций, исследователи достигали лишь кратковременного эффекта. Поэтому был сделан вывод о том, что нет возможности устранить нежелательное поведение, в результате чего модель прибегнет к сокрытию своих истинных намерений.

Руководители проекта признали «хрупкость» контрольных инструментов над моделями. Излишний надзор за их логикой может сподвигнуть ИИ к тому, чтобы скрыть его ошибки для получения вознаграждения, обходя установленные ограничения.

Для исполнения задач по написанию кода программы использовали коммерческую версию GPT-4o. Но модель была небрежна и открыта говорила о том, что её мотивировало вознаграждение, к примеру, раньше, чем нужно закрывала некоторые программы. А последовавшие за этим попытки применить меры наказания ни к чему не привели. Оставались признаки попыток предоставления неверного ответа для получения вознаграждения. То есть модель обучилась сокрытию своих мотивов от того, кто её контролирует.

Естественный вопрос, который в этой связи возник: готово ли человечестве работать с ИИ, чьи способности сопоставимы с интеллектом человека, если данная проблема не будет решена и система выйдет из-под контроля? Тем не менее, исследователями была выражена надежда, что всё-таки найдутся методы влиять на модели с помощью их логики, не используя обман и скрытые тактики. Методы оптимизации могут сделать не такими навязчивыми и более деликатными, сообщает "МК".

Источник: samaraonline24.ru

Читайте в Дзен

Искусственный интеллект невозможно наказывать: он начинает обманывать еще больше

Читайте также:

В Самаре найден реальный способ выйти из похмелья: и это не рассол!

Салат "Наслаждение" - прекрасный выбор на Новый год: в разы лучше надоевших "Оливье" и "Шубы"

Популярное

Страховщики напомнили: часть медуслуг останется платной даже при ОМС

Пенсионеры должны это знать: В «Пятерочке» на кассе новый вид ловушки с чеком – попадается каждый второй

Самые "выгодные" птицы в деревне уже не куры: почему все резко поменяли интересы

«Зима будет аномальной»: синоптики рассказали, к чему готовиться — прогноз на декабрь-январь

Лучшие стоматологические клиники в Самаре 2025

Мэр Самары распорядился изъять жилье и участок у Хлебной площади

Опубликована программа форума «Россия — спортивная держава» в Самаре 5-7 ноября

Леус: На северо-востоке Европейской России ночью ударили −21 °C

В Самарской области в ноябре ожидаются несколько сильных магнитных бурь

Как кошки выбирают, с кем спать из хозяев: что на самом деле влияет на их решение

Дочь — технолог пищевой промышленности рассказала, в чем разница консервов из "Светофора" от таких же в других магазинах

В ГСК полгода не могли найти причину запотевания стекол: решилось за 15 мин - не спешите менять радиатор печки

На спортивном форуме в Самаре обсудят цифровую трансформацию спорта

Жителям рассказали, как работают больницы самарского региона со 2 по 4 ноября

Самарская библиотека проведет цикл встреч о психологии "Интеллектуальная среда"

На форуме в Самаре обсудят взаимодействие религии и спорта

Каратистка тольяттинской школы "Рекорд" стала призером международного турнира

ВТБ: самарцы переходят на альтернативные платежные инструменты, а наличные оставляют на подарки и чаевые

В Самаре опытным водителям-курьерам предлагают до 190 тысяч рублей в месяц