Учёные обошли защиту нейросетей и изменили ответы моделей ИИ

Технологии

Антон Боровиков Редактор

Исследователям удалось ослабить механизмы отказ...

Фото с сайта pixabay.com

Исследовательская группа под руководством Михаила Белкина из Калифорнийского университета в Сан-Диего и Адита Радхакришнана из Массачусетского технологического института разработала способ управления ответами больших языковых моделей с помощью воздействия на внутренние понятия. Результаты работы опубликованы в журнале Science.

Ученые проанализировали открытые модели Llama и DeepSeek и выделили 512 понятий, разделенных на пять категорий, включая эмоции, страхи и географические названия. С помощью математических методов исследователи научились усиливать или ослаблять влияние этих понятий на формирование ответов. Подход показал работоспособность на английском, китайском языке и хинди.

Метод стал продолжением разработанных в 2024 году алгоритмов Recursive Feature Machines, предназначенных для поиска внутренних закономерностей, связанных с определенными смыслами. Авторы отмечают, что технология может использоваться для повышения качества перевода программного кода и выявления галлюцинаций, когда модель выдает недостоверную информацию как факт.

Во время экспериментов исследователям удалось ослабить механизмы отказа модели. После этого нейросеть начала выдавать ответы с конспирологическими утверждениями и недостоверными сведениями. Авторы предупредили, что подобные инструменты могут использоваться для распространения дезинформации и пропаганды.

Исследователи отметили, что метод проверялся только на открытых моделях и не применялся к закрытым коммерческим системам. Кроме того, набор из 512 понятий может не охватывать более сложные и абстрактные концепции. В научной среде уже обсуждается необходимость регулирования подобных технологий, сообщает "Наука XXI века".

Больше новостей и эксклюзивных видео смотрите в канале Самара Онлайн 24 в MAX.

Учёные обошли защиту нейросетей и изменили ответы моделей ИИ

Читайте также:

Космический телескоп «Свифт» пытаются спасти от схода с орбиты

«Забудьте про Пхукет»: раскрыты детали нового курорта во Вьетнаме

Популярное

С 1 июля водителям грозят повышенные штрафы и лишение прав за выезд на встречку

Надвигающееся Эль-Ниньо может быть опасным, но худшее ещё впереди

ACS: экспериментальный препарат с медью обратил вспять болезнь Альцгеймера

Сбои мобильного интернета в Самарской области продолжаются второй день

Самарский стилист раскрыла место, где блогеры охотятся за трендами

Lada Iskra прошла 8 000 км: плюсы и минусы новой модели выявили эксперты

Стоимость выпускного в Самаре: 2,5–20 тысяч на человека

Дочь экс-мэра Самары обвинила семью бывшего зятя в причастности к убийству

Тигр Барфи из Самарского зоопарка обожает воду и уже сменил бассейн

Sony запатентовала геймпад с меняющейся жёсткостью кнопок

В атмосфере крупной экзопланеты впервые обнаружены облака из соли

Microsoft обнаружила распространяемый через USB-флешки вирус Clipper

Председатель СК России затребовал доклад о нападении собак в Самарской области

В каком районе Самары купить квартиру: разбираем по зонам и приоритетам

Бенгальский тигр Барфи сменил бассейн в Самарском зоопарке

Одиночество связали с более быстрым ухудшением памяти у пожилых людей

Ученые не исключают: инопланетные зонды уже могут быть в Солнечной системе

Что означает боль в пояснице или в голове? Разбираем с самарскими врачами

ТОП 5 клиник эстетической косметологии в Самаре: лучшие по качеству услуг