Ученые определили процесс обучения нейросетей - это похоже на обучение ребенка

Фото с сайта pxhere.com
Представьте ИИ-систему как юного ученика, сначала постигающего азы грамматики, а затем внезапно начинающего осознавать смысл целых выражений именно такое открытие сделали исследователи.
Современные интеллектуальные системы поражают своими языковыми способностями. Мы можем легко взаимодействовать с ChatGPT, Gemini и другими нейросетями почти так же, как с живым собеседником. Однако механизмы, лежащие в основе этих моделей, способы, которыми они осваивают язык, до сих пор остаются в значительной степени загадкой.
Новое исследование, опубликованное в Journal of Statistical Mechanics, немного приоткрывает завесу тайны. Оказывается, на ранних стадиях обучения нейросети концентрируются на последовательности слов в предложении подобно ребенку, изучающему алфавит. Но по мере накопления достаточного количества информации происходит резкий скачок: система переходит к анализу значения слов. Этот переход напоминает фазовый переход в физике как будто вода мгновенно превращается в пар.
Фазовый переход это внезапное изменение свойств системы при постепенном изменении внешних условий. Например, лед плавится при 0°C, превращаясь в воду, а при 100°C вода кипит и превращается в пар. В исследовании этот термин используется для обозначения момента, когда нейросеть резко меняет свой подход к анализу текста.
Как это работает?
Изначально нейросеть выявляет структурные закономерности: например, в английском языке субъект обычно предшествует глаголу, а глагол объекту («Mary eats the apple»). Затем, достигнув определенного уровня знаний, нейросеть производит переключение и приступает к анализу семантики смысла слов и предложений.
Ожидалось, что модель будет пользоваться обоими подходами одновременно, но всё оказалось иначе, отмечает Гуго Цуй, автор исследования. До определенной границы сеть опирается исключительно на порядок слов, а затем на их значение. Это похоже на то, как ребёнок вдруг перестаёт читать по слогам и начинает понимать целые фразы.
Эксперименты содействуют пониманию того, как нейросети выбирают между различными стратегиями. В перспективе это может повысить точность и надёжность ИИ.
Такой эксперимент становится шагом к пониманию "чёрного ящика". Если мы разберёмся, при каких условиях нейросеть переходит от синтаксиса к семантике, можно осуществить оптимизацию процесса обучения сократить объем необходимых данных, если требуется только анализ структуры текста. Также возможно предотвращать ошибки - предвидеть, когда модель начнёт "галлюцинировать" из-за избыточного акцента на смысле. Открывается возможность разработки специализированных ИИ-систем, например, для юридических текстов, где важна строгая форма, или для творческих задач, где ключевую роль играет контекст.
Впрочем, исследование имеет ограничения: была протестирована упрощенная модель, а не полноценный трансформер типа GPT. В реальных условиях нейросети, скорее всего, используют комбинированные стратегии, а не совершают резкий "переход". Кроме того, не была учтена роль многослойности в сложных сетях разные уровни могут одновременно обрабатывать структуру и смысл.
Эксперименты помогают понять, как нейросети делают выбор между разными стратегиями. В будущем это может повысить точность и безопасность ИИ.
Этот эксперимент - шаг к «раскрытию черного ящика». Если мы поймем, при каких условиях нейросеть переходит от синтаксиса к семантике, можно оптимизировать обучение уменьшить объем данных, если цель простой анализ структуры текста; осуществлять контроль ошибок, предсказывая, когда модель начнет «фантазировать» из-за перекоса в сторону смысла; разрабатывать узкоспециализированные ИИ например, для правовых текстов, где важна строгая форма, или для творческих задач, где ключевую роль играет контекст.
Тем не менее, исследование имеет ограничения: тестировали упрощенную модель, а не полноценный трансформер типа GPT. В реальных условиях нейросети, вероятно, используют смешанные стратегии, а не резко «переключаются». Кроме того, не учитывалась роль многослойности в глубоких сетях разные уровни могут работать с позициями и смыслом одновременно, сообщает innovanews.
Обратите внимание: В школах отменяют важный предмет с 1 сентября: ученики пляшут от счастья, учителя в ярости
Источник: samaraonline24.ru
Читайте в Дзен