Ученые определили процесс обучения нейросетей - это похоже на обучение ребенка

Сначала ИИ-системы усваивают отдельные элементы...

Фото с сайта pxhere.com

Представьте ИИ-систему как юного ученика, сначала постигающего азы грамматики, а затем внезапно начинающего осознавать смысл целых выражений именно такое открытие сделали исследователи.

Современные интеллектуальные системы поражают своими языковыми способностями. Мы можем легко взаимодействовать с ChatGPT, Gemini и другими нейросетями почти так же, как с живым собеседником. Однако механизмы, лежащие в основе этих моделей, способы, которыми они осваивают язык, до сих пор остаются в значительной степени загадкой.

Новое исследование, опубликованное в Journal of Statistical Mechanics, немного приоткрывает завесу тайны. Оказывается, на ранних стадиях обучения нейросети концентрируются на последовательности слов в предложении подобно ребенку, изучающему алфавит. Но по мере накопления достаточного количества информации происходит резкий скачок: система переходит к анализу значения слов. Этот переход напоминает фазовый переход в физике как будто вода мгновенно превращается в пар.

Фазовый переход это внезапное изменение свойств системы при постепенном изменении внешних условий. Например, лед плавится при 0°C, превращаясь в воду, а при 100°C вода кипит и превращается в пар. В исследовании этот термин используется для обозначения момента, когда нейросеть резко меняет свой подход к анализу текста.

Как это работает?

Изначально нейросеть выявляет структурные закономерности: например, в английском языке субъект обычно предшествует глаголу, а глагол объекту («Mary eats the apple»). Затем, достигнув определенного уровня знаний, нейросеть производит переключение и приступает к анализу семантики смысла слов и предложений.

Ожидалось, что модель будет пользоваться обоими подходами одновременно, но всё оказалось иначе, отмечает Гуго Цуй, автор исследования. До определенной границы сеть опирается исключительно на порядок слов, а затем на их значение. Это похоже на то, как ребёнок вдруг перестаёт читать по слогам и начинает понимать целые фразы.

Эксперименты содействуют пониманию того, как нейросети выбирают между различными стратегиями. В перспективе это может повысить точность и надёжность ИИ.

Такой эксперимент становится шагом к пониманию "чёрного ящика". Если мы разберёмся, при каких условиях нейросеть переходит от синтаксиса к семантике, можно осуществить оптимизацию процесса обучения сократить объем необходимых данных, если требуется только анализ структуры текста. Также возможно предотвращать ошибки - предвидеть, когда модель начнёт "галлюцинировать" из-за избыточного акцента на смысле. Открывается возможность разработки специализированных ИИ-систем, например, для юридических текстов, где важна строгая форма, или для творческих задач, где ключевую роль играет контекст.

Впрочем, исследование имеет ограничения: была протестирована упрощенная модель, а не полноценный трансформер типа GPT. В реальных условиях нейросети, скорее всего, используют комбинированные стратегии, а не совершают резкий "переход". Кроме того, не была учтена роль многослойности в сложных сетях разные уровни могут одновременно обрабатывать структуру и смысл.

Эксперименты помогают понять, как нейросети делают выбор между разными стратегиями. В будущем это может повысить точность и безопасность ИИ.

Этот эксперимент - шаг к «раскрытию черного ящика». Если мы поймем, при каких условиях нейросеть переходит от синтаксиса к семантике, можно оптимизировать обучение уменьшить объем данных, если цель простой анализ структуры текста; осуществлять контроль ошибок, предсказывая, когда модель начнет «фантазировать» из-за перекоса в сторону смысла; разрабатывать узкоспециализированные ИИ например, для правовых текстов, где важна строгая форма, или для творческих задач, где ключевую роль играет контекст.

Тем не менее, исследование имеет ограничения: тестировали упрощенную модель, а не полноценный трансформер типа GPT. В реальных условиях нейросети, вероятно, используют смешанные стратегии, а не резко «переключаются». Кроме того, не учитывалась роль многослойности в глубоких сетях разные уровни могут работать с позициями и смыслом одновременно, сообщает innovanews.

Обратите внимание: В школах отменяют важный предмет с 1 сентября: ученики пляшут от счастья, учителя в ярости

Источник: samaraonline24.ru

Читайте в Дзен