
В 2017 году восемь инженеров Google написали статью под названием «Attention is all you need» («Внимание — это все, что вам нужно»), которая имела далеко идущие последствия. В ней утверждалось, что нейронная сеть может обучаться машинному переводу, «обращая внимание» на разные части последовательности данных, путем расширения окна контекста. Эта, казалось бы, «безобидная» статья привела к созданию трансформеров — архитектуры, которая сегодня лежит в основе ChatGPT, Claude, Gemini и практически всего современного генеративного ИИ.
Спустя восемь лет та же компания (но уже представленная другими инженерами; в Google никогда не удерживали ценных специалистов) предложила еще одну потенциально прорывную идею. Статья «Nested Learning: the illusion of deep learning architectures» («Вложенное обучение: иллюзия архитектур глубинного обучения») — это то, что вам нужно прочитать и понять прямо сейчас. Она начинается с провокационного заявления: то, что мы называем глубинным обучением, на самом деле может вовсе не быть таким уж глубинным.
Авторы утверждают, что нейронные сети обучаются не потому, что они многослойны, а потому что каждый из этих слоев и алгоритмы, которые их обучают, работают с разной скоростью. В реальности мы имеем дело не с набором преобразований, а с системой вложенного обучения — процессами, которые подстраиваются друг к другу в разных временных масштабах, как если бы одни части модели «думали» быстрее, а другие — медленнее.
В результате то, что мы воспринимали как «глубину», оказалось иллюзией — следствием взаимодействия различных частот обучения. Если эта гипотеза верна, будущее ИИ может заключаться не в добавлении все большего количества слоев или параметров, а в проектировании систем, которые обучаются на нескольких скоростях одновременно.
Кроме того, Google подчеркивает нечто принципиально важное: парадигма вложенного обучения не только переопределяет архитектуру, но и напрямую затрагивает одну из главных проблем современных моделей — катастрофическое забывание. В статье утверждается, что традиционные модели рассматривают архитектуру и алгоритм оптимизации как две отдельные части, и, вместо этого, предлагается объединить их в единую иерархию оптимизации. Такое слияние порождает систему «непрерывной» памяти, где разные модули обновляются с разной скоростью (т.е. быстрое, среднее и медленное обучение сосуществуют одновременно). В статье определяется так называемая «HOPE architecture» (перспективная архитектура), которая является одновременно и инженерным экспериментом, и манифестом: чтобы машины учились так же, как мы, — не просто проходили однократное обучение и останавливались в развитии, а учились, забывали, переучивались, адаптировались — необходимо проектировать системы с учетом множества темпов изменений, а не просто более глубоких слоев.
Еще одно интересное наблюдение авторов статьи заключается в том, что современные модели застряли в «вечном настоящем»: они обрабатывают входящие данные с фиксированными весами, могут минимально адаптироваться в пределах окна контекста, а затем забывают все. Обучение происходит до развертывания модели, и с этого момента она почти не меняется. Подход вложенного обучения предлагает сломать это ограничение, предоставив системе несколько ритмов обучения: одни модули реагируют мгновенно, другие адаптируются в среднесрочной перспективе, и третьи эволюционируют медленнее.
Это совмещение скоростей позволило бы ИИ одновременно реагировать на текущие стимулы, выстраивать долговременную память и постепенно изменять поведение — способ обучения, гораздо более близкий к тому, как обучается человек.
Именно здесь сравнение с человеческим мозгом становится неизбежным. Наша нервная система также функционирует в совмещенных временных слоях: рефлексы срабатывают за миллисекунды, новые знания закрепляются во время сна, привычки формируются после месяцев повторения, а черты характера медленно меняются с годами. Интеллект, в конечном счете, может зависеть не от объема или глубины, а от темпа обучения: того, как быстрые и медленные процессы обучения интегрированы в одну структуру.
Кажется, в Google уверены, что нашли золотую жилу. Подобно тому, как трансформеры переопределили саму концепцию «внимания», вложенное обучение может переопределить саму концепцию архитектуры. Если алгоритмы и оптимизаторы перестанут быть отдельными частями и станут живой системой, которая непрерывно сама себя модифицирует, мы станем намного ближе к модели, которая обучается, как мы: не переучиваясь каждый раз с нуля, а постоянно перенастраивая свою память и поведение.
Конечно, эта идея еще находится в зачаточном состоянии. Доказательства, представленные в статье, носят концептуальный характер, и еще предстоит выяснить, масштабируется ли эта идея до сегодняшних гигантских моделей. Но история учит: когда Google выдвигает теорию о том, как должна учиться машина, стоит прислушаться: в прошлый раз это изменило курс всей индустрии.
Если вложенное обучение окажется работоспособным, нас может ждать новая смена парадигмы, при которой искусственный интеллект перестанет напоминать вычислительную машину и начнет все больше походить на развивающийся мозг.
Читайте также:
- Почему ИИ не может предсказывать будущее
- Рекуррентная нейронная сеть с головы до ног
- Безградиентный подход к оптимизации нейронной сети
Читайте нас в Telegram, VK и Дзен
Перевод статьи Enrique Dans: The next AI frontier: systems that learn like our brains, fast, slow and continuously





