Генерация видео из текста стала возможной

Прошло всего несколько месяцев с момента релиза Dall-E2 и MidJourney, революционных генераторов изображений из текста на базе ИИ.

А как насчет видео?

И в этом направлении есть движение. Недавно появилась, пожалуй, единственная на сегодня опенсорсная модель преобразования текста в видео под названием CogVideo

Иными словами, это инструмент на базе ИИ, который способен создавать видео без реальной съемки!

Ответим на несколько основных вопросов об этом инструменте.

  • Что из себя представляет CogVideo?
  • Как он работает?
  • Каковы его текущие ограничения?
  • Каковы перспективы?

Что такое CogVideo?

На сайте создатели этого инструмента описывают свое детище так:

CogVideo  —  это крупнейший предварительно обученный преобразователь текста в видео общего назначения, включающий 9,4 миллиарда параметров.

CogVideo задействует иерархическую технику обучения с использованием разной частоты кадров (multi-frame-rate), эффективно подстраивая уже обученную модель преобразования текста в изображение (CogView2) под создание видео. 

Звучит не особо понятно, так что посмотрим на демо-коллаж из официального репозитория проекта.

Выглядит неплохо: кажется, будто эти видео взяты из ТВ-рекламы.

Как это работает

Вот схема той самой техники иерархической генерации с использованием разной частоты кадров:

Более подробно весь принцип действия CogVideo описан здесь

Входные данные включают скорость кадров (frame rate), текст и токены кадров. Входной кадр выступает разделяющим токеном, унаследованным из CogView2.

Стадия 1: кадры генерируются последовательно на основе текста и их скорости.

Стадия 2: сгенерированные кадры повторно подаются на вход в качестве областей двухстороннего внимания для рекурсивной интерполяции. Частоту кадров можно подстраивать на обоих стадиях. Области двухстороннего внимания выделены синим, одностороннего  —  зеленым.

Ресурс Hugging Faces предлагает простое веб-приложение, в котором можно поэкспериментировать. 

Интерфейс в нем вполне понятен. Состоит он из кнопки “Run”, слайдера контроля “Seed” и поля “Input Text”, в которое вводится текстовое описание.

Ниже показан скриншот результата генерации этим инструментом видео на основе текста про кошку, играющую в шахматы.

Веб-инструмент для преобразования текста в видео CogVideo

Что такое “Seed”?

Параметр “Seed” устанавливает генерируемое случайным образом начальное число. К примеру, установка -1 приводит к выбору случайного значения. То есть, если даже все остальные значения будут оставаться неизменными, результат каждый раз будет отличаться. Вводя число, вы даете генератору разрешение на повтор прежних результатов.

Если вы просто хотите увидеть впечатляющие результаты и поэкспериментировать с различными текстовыми вводными, CogVideo выпустили еще одно демо-приложение. Переключить язык на английский можно в правом верхнем углу.

Prompt: A smiling woman wearing a red dress. (Улыбающаяся женщина в красном платье)
Демо-приложение CogVideo

А вот результат в действии:

Текущие ограничения

Несмотря на то, что последние достижения оказываются довольно впечатляющими, перед разработчиками все еще стоит серия преград.

  • Модель ИИ может генерировать видео только в разрешении 480х480 продолжительностью 4 секунды и скоростью 8 к/с.
  • Поскольку модель уже обучена с использованием 9 миллиардов параметров, начинать все с начала будет непозволительно дорого в плане вычислительных затрат.
  • Проект пока еще молод. CogVideo не может предсказывать сложные паттерны движения ввиду неполноценности датасетов, сопоставляющих текст и видео. На сегодня самый крупный такой датасет содержит всего 41250 роликов.
  • В качестве ввода модель принимает только китайский, так что предварительно требуется перевод из исходного языка именно на него.

Если решите воспользоваться приведенными демо-приложениями, то будьте готовы подождать около часа, пока видео сгенерируется, так как обработка происходит в контейнере 63ГБ на Nvidia A100.

Дальнейшие перспективы

Несмотря на то, что CogVideo еще находится на начальном этапе развития и генерирует довольно короткие видео, эта технология обладает огромным потенциалом. 

Например, с ее помощью можно создавать более реалистичные анимации персонажей в фильмах и играх, а также генерировать обучающие ролики или видеопрезентации текстовых материалов статей. 

Вероятно, через несколько лет эта технология позволит людям создавать видео прямо из текста без реальной съемки и монтажа. А такой поворот может в корне изменить привычный образ создания и потребления видеоконтента.

Выводы

В целом, CogVideo обладает потенциалом для того, чтобы стать мощным инструментом для бизнеса, ориентированного на создание видео при минимальных затратах на производство. Интересно посмотреть, на что будет способна эта технология по мере ее развития, и в каких еще отраслях сгодится.

Пока же ясно одно  —  генераторы видео на базе ИИ уже существуют и вскоре серьезно изменят эту сферу нашей жизни.

Читайте также:

Читайте нас в TelegramVK и Дзен


Перевод статьи Jim Clyde Monge: This AI Can Create Video From Text Prompt

Предыдущая статьяКак создать NFT-маркетплейс с полным стеком
Следующая статьяPython 3.11: функционал, который вам понравится