Разное

Следующий рубеж ИИ: системы, которые обучаются, как наш мозг, — быстро, медленно и непрерывно

24.04.2026

В 2017 году восемь инженеров Google написали статью под названием «Attention is all you need» («Внимание — это все, что вам нужно»), которая имела далеко идущие последствия. В ней утверждалось, что нейронная сеть может обучаться машинному переводу, «обращая внимание» на разные части последовательности данных, путем расширения окна контекста. Эта, казалось бы, «безобидная» статья привела к созданию трансформеров — архитектуры, которая сегодня лежит в основе ChatGPT, Claude, Gemini и практически всего современного генеративного ИИ.

Спустя восемь лет та же компания (но уже представленная другими инженерами; в Google никогда не удерживали ценных специалистов) предложила еще одну потенциально прорывную идею. Статья «Nested Learning: the illusion of deep learning architectures» («Вложенное обучение: иллюзия архитектур глубинного обучения») — это то, что вам нужно прочитать и понять прямо сейчас. Она начинается с провокационного заявления: то, что мы называем глубинным обучением, на самом деле может вовсе не быть таким уж глубинным.

Авторы утверждают, что нейронные сети обучаются не потому, что они многослойны, а потому что каждый из этих слоев и алгоритмы, которые их обучают, работают с разной скоростью. В реальности мы имеем дело не с набором преобразований, а с системой вложенного обучения — процессами, которые подстраиваются друг к другу в разных временных масштабах, как если бы одни части модели «думали» быстрее, а другие — медленнее.

В результате то, что мы воспринимали как «глубину», оказалось иллюзией — следствием взаимодействия различных частот обучения. Если эта гипотеза верна, будущее ИИ может заключаться не в добавлении все большего количества слоев или параметров, а в проектировании систем, которые обучаются на нескольких скоростях одновременно.

Кроме того, Google подчеркивает нечто принципиально важное: парадигма вложенного обучения не только переопределяет архитектуру, но и напрямую затрагивает одну из главных проблем современных моделей — катастрофическое забывание. В статье утверждается, что традиционные модели рассматривают архитектуру и алгоритм оптимизации как две отдельные части, и, вместо этого, предлагается объединить их в единую иерархию оптимизации. Такое слияние порождает систему «непрерывной» памяти, где разные модули обновляются с разной скоростью (т.е. быстрое, среднее и медленное обучение сосуществуют одновременно). В статье определяется так называемая «HOPE architecture» (перспективная архитектура), которая является одновременно и инженерным экспериментом, и манифестом: чтобы машины учились так же, как мы, — не просто проходили однократное обучение и останавливались в развитии, а учились, забывали, переучивались, адаптировались — необходимо проектировать системы с учетом множества темпов изменений, а не просто более глубоких слоев.

Еще одно интересное наблюдение авторов статьи заключается в том, что современные модели застряли в «вечном настоящем»: они обрабатывают входящие данные с фиксированными весами, могут минимально адаптироваться в пределах окна контекста, а затем забывают все. Обучение происходит до развертывания модели, и с этого момента она почти не меняется. Подход вложенного обучения предлагает сломать это ограничение, предоставив системе несколько ритмов обучения: одни модули реагируют мгновенно, другие адаптируются в среднесрочной перспективе, и третьи эволюционируют медленнее.

Это совмещение скоростей позволило бы ИИ одновременно реагировать на текущие стимулы, выстраивать долговременную память и постепенно изменять поведение — способ обучения, гораздо более близкий к тому, как обучается человек.

Именно здесь сравнение с человеческим мозгом становится неизбежным. Наша нервная система также функционирует в совмещенных временных слоях: рефлексы срабатывают за миллисекунды, новые знания закрепляются во время сна, привычки формируются после месяцев повторения, а черты характера медленно меняются с годами. Интеллект, в конечном счете, может зависеть не от объема или глубины, а от темпа обучения: того, как быстрые и медленные процессы обучения интегрированы в одну структуру.

Кажется, в Google уверены, что нашли золотую жилу. Подобно тому, как трансформеры переопределили саму концепцию «внимания», вложенное обучение может переопределить саму концепцию архитектуры. Если алгоритмы и оптимизаторы перестанут быть отдельными частями и станут живой системой, которая непрерывно сама себя модифицирует, мы станем намного ближе к модели, которая обучается, как мы: не переучиваясь каждый раз с нуля, а постоянно перенастраивая свою память и поведение.

Конечно, эта идея еще находится в зачаточном состоянии. Доказательства, представленные в статье, носят концептуальный характер, и еще предстоит выяснить, масштабируется ли эта идея до сегодняшних гигантских моделей. Но история учит: когда Google выдвигает теорию о том, как должна учиться машина, стоит прислушаться: в прошлый раз это изменило курс всей индустрии.

Если вложенное обучение окажется работоспособным, нас может ждать новая смена парадигмы, при которой искусственный интеллект перестанет напоминать вычислительную машину и начнет все больше походить на развивающийся мозг.

Следующий рубеж ИИ: системы, которые обучаются, как наш мозг, — быстро, медленно и непрерывно

Читайте также

Мета-фреймворки JavaScript: переосмысление современной веб-разработки

10 лайфхаков JavaScript, которые сделают из вас профессионала

Возможности и перспективы WebAssembly

Тесты

Насколько хорошо вы знаете Python?

Что вы знаете о типах данных Java?

Хорошо ли вы разбираетесь в структурах данных и алгоритмах?