Учёные обошли защиту нейросетей и изменили ответы моделей ИИ

Исследователям удалось ослабить механизмы отказ...

Фото с сайта pixabay.com

MaxДзенTelegram

Исследовательская группа под руководством Михаила Белкина из Калифорнийского университета в Сан-Диего и Адита Радхакришнана из Массачусетского технологического института разработала способ управления ответами больших языковых моделей с помощью воздействия на внутренние понятия. Результаты работы опубликованы в журнале Science.

Ученые проанализировали открытые модели Llama и DeepSeek и выделили 512 понятий, разделенных на пять категорий, включая эмоции, страхи и географические названия. С помощью математических методов исследователи научились усиливать или ослаблять влияние этих понятий на формирование ответов. Подход показал работоспособность на английском, китайском языке и хинди.

Метод стал продолжением разработанных в 2024 году алгоритмов Recursive Feature Machines, предназначенных для поиска внутренних закономерностей, связанных с определенными смыслами. Авторы отмечают, что технология может использоваться для повышения качества перевода программного кода и выявления галлюцинаций, когда модель выдает недостоверную информацию как факт.

Во время экспериментов исследователям удалось ослабить механизмы отказа модели. После этого нейросеть начала выдавать ответы с конспирологическими утверждениями и недостоверными сведениями. Авторы предупредили, что подобные инструменты могут использоваться для распространения дезинформации и пропаганды.

Исследователи отметили, что метод проверялся только на открытых моделях и не применялся к закрытым коммерческим системам. Кроме того, набор из 512 понятий может не охватывать более сложные и абстрактные концепции. В научной среде уже обсуждается необходимость регулирования подобных технологий, сообщает "Наука XXI века".

Больше новостей и эксклюзивных видео смотрите в канале Самара Онлайн 24 в MAX.

Читайте также:

MaxДзенTelegramВКонтактеОдноклассники