Сегодня расскажем про нейросеть Lucy 2.0 — модель преобразования мира в реальном времени, которая переводит высококачественное видеомонтажное редактирование с офлайн-рендеринга на интерактивное взаимодействие в реальном времени. Lucy 2.0 основана на принципах MirageLSD и Lucy Edit 1.0, но это не просто генератор видео более высокого качества. Это система, работающая в режиме реального времени и способная преобразовывать визуальный мир с высокой точностью при 30 кадрах в секунду и разрешении 1080p с практически нулевой задержкой. То, что вы видите, — это не предварительно отрендеренный клип, а непрерывно генерируемая сцена, которая реагирует по мере выполнения. Lucy 2.0 позволяет менять персонажей, управлять движением, размещать товары, менять одежду и полностью преобразовывать окружение — всё это под руководством текстовых подсказок и эталонных изображений, пока видео транслируется в прямом эфире.

Для того чтобы преобразования в реальном времени выглядели согласованными и масштабировались до практически бесконечного числа возможных изменений, модель должна делать больше, чем просто применять визуальные эффекты — она должна неявно понимать и моделировать структуру мира. Lucy 2.0 не использует карты глубины, сетки или гибридные 3D-конвейеры. Это чистая диффузионная модель. Физическое поведение, которое вы видите, возникает из изученной визуальной динамики, а не из искусственной геометрии или явных физических движков. Это наделяет модель возможностями, выходящими за рамки возможностей классических 3D-симуляций. Как результат: когда тарантул ползает по руке, модель учитывает геометрию пальцев и контакт с ними; когда куртка расстегивается, ткань естественным образом разделяется, складывается и деформируется; когда шлем снимается, модель обрабатывает разделение объектов и моделирование волос под ним. Нейросеть Lucy 2.0 узнала, что такие действия, как расстегивание молнии или снятие одежды, подразумевают топологические изменения, просто наблюдая за тем, как меняется мир на видео — без каких-либо объяснений, что такое молния, шлем или рука.

Авторегрессивные видеомодели, как правило, со временем деградируют. Небольшие артефакты накапливаются кадр за кадром, в конечном итоге дестабилизируя идентичность, геометрию и текстуру. Lucy 2.0 решает эту проблему с помощью запатентованного метода интеллектуального расширения истории. В процессе обучения модель сталкивается со своими собственными несовершенными результатами и получает явное “наказание” за изменение качества. Это позволяет привести распределение обучающих данных в соответствие с реальными условиями вывода, обучая модель распознавать неправдоподобные состояния и восстанавливаться после них. Вместо того чтобы слепо следовать предыдущим кадрам, Lucy 2.0 учится корректировать курс, возвращая процесс генерации к стабильной, высококачественной траектории. Это позволяет Lucy 2.0 работать неограниченно долго. Потоки могут продолжаться часами без нарушения идентичности или деградации мира.

Достижение производительности в реальном времени — это не просто оптимизация, а устранение всех препятствий. Проблема заключается в низкой задержке при авторегрессионной обработке кадров: традиционные ускорители машинного обучения разрабатывались в первую очередь с учетом высокой пропускной способности, поэтому жесткие требования к задержке повышают важность множества накладных расходов, которые традиционно незначительны в задачах, ориентированных на высокую пропускную способность. Поэтому мы объединяем следующие ключевые характеристики для достижения сквозной производительности в реальном времени в масштабе: мегаядра для уменьшения накладных расходов на запуск и перемещения памяти, характерных для моделей с низкой задержкой (это позволяет нам размещать активации модели как можно ближе к тензорным ядрам, чтобы избежать дорогостоящих транзакций с памятью HBM); пользовательская архитектура модели, адаптированная к базовым аппаратным характеристикам ускорителя (мы проводим микротесты на ускорителе, чтобы получить точную модель чипа на уровне тактов, а затем адаптируем архитектуру модели в соответствии с этими результатами); пользовательский конвейер WebRTC, который минимизирует буферизацию и задержку передачи для двунаправленной передачи видео на ускоритель и обратно (это критически важно для обеспечения высокого качества во всем мире без ущерба для задержки или частоты кадров). Каждый этап — от поступления пакетов до матричного умножения — был оптимизирован с одной целью: поддерживать задержку между экранами в пределах реального времени без ущерба для стабильности изображения.

Lucy 2.0 позволяет создавать широкий спектр интерактивных приложений в режиме реального времени. Поскольку видео остается редактируемым и отзывчивым во время генерации, Lucy можно использовать для смены персонажей в реальном времени, управления движением, виртуальной примерки, размещения товаров, интерактивных медиа и создания контента в реальном времени. В этих условиях видео перестает быть статичным объектом — это постоянный, изменяемый поток, который можно непрерывно направлять с помощью текстовых подсказок и входных данных. Помимо этих областей применения, при разработке Lucy 2.0 в качестве основного варианта использования рассматривалась робототехника. Современные роботы сталкиваются с проблемой не ограниченности возможностей моделирования, а недостатка данных. Сбор разнообразных, физически обоснованных данных о взаимодействии в реальном мире — медленный, дорогостоящий и трудно масштабируемый процесс. Хотя моделирование помогает, традиционные симуляторы с трудом справляются с воспроизведением всего многообразия реальных характеристик внешнего вида, материалов, освещения и динамики взаимодействия. Lucy 2.0 устраняет этот пробел, выступая в качестве механизма расширения данных и моделирования в реальном времени. Благодаря возможности изменять материалы, освещение, окружение и свойства объектов в режиме реального времени — сохраняя при этом физическую согласованность — одна демонстрация в реальном мире может быть расширена до тысяч правдоподобных вариаций. Одна и та же манипуляция может быть воспроизведена с различными текстурами, геометрией объектов, условиями освещения, фоном или динамикой окружающей среды без повторного сбора данных. Это позволяет обучать более надежные стратегии визуально-языково-действенного обучения (VLA) и обучения на основе имитации. Роботы, обученные на данных, дополненных Lucy, подвергаются воздействию более широкого спектра внешних проявлений и условий, что улучшает обобщение и снижает чувствительность к ложным визуальным сигналам.



