Kling’s O1 (Omni One) описывается (в бета/внутреннем руководстве) как единая мультимодальная видеофундаментальная модель — единая система, предназначенная для работы как с генерацией видео, так и с инструкционно-основанным редактированием видео через один язык взаимодействия. Вместо того чтобы переключаться между режимами «text-to-video», «reference-to-video», «video edit» и «extend shot» в разных инструментах, идея O1 такова: дайте ей текст + изображения + видеоссылки + ссылку на объект, и работайте как режиссер в одном непрерывном рабочем процессе.
Это направление также соответствует тому, как Kuaishou описывает эволюцию Kling вокруг MVL (Multi-modal Visual Language): выражение идентичности, стиля, сцены, действия и намерений камеры путем комбинирования текста с визуальными ссылками.
Что такое Kling O1 (Omni One) простыми словами?
Представьте себе O1 как попытку сделать одну модель, которая выполняет «создание + доработку» от начала до конца:
- Создавать новый кадр из текста
- Создавать из ссылок (изображение/видео)
- Создавать кадр из первого/последнего кадра видео
- Добавлять/удалять объекты или людей из видео
- Применять преобразования (изменение внешнего вида, модификации)
- Перекрашивать стиль (перестилевать клип)
- Продлевать кадр, чтобы продолжить движение и темп
Все это перечислено в руководстве как поддерживаемые задачи в рамках одной единой модели, а не отдельных специализированных пайплайнов.
Главная идея: MVL (Multi-modal Visual Language)
Руководство O1 представляет взаимодействие следующим образом: ваши входные данные — это не просто «ассеты», которые вы вставляете в рабочий процесс, а инструкции. Текст — это общий план; ссылка на изображение/видео обеспечивает визуальные ограничения; ссылка на объект задает идентичность.
MVL от Kuaishou похож: она предназначена помочь пользователям передавать многомерные творческие намерения — идентичность, внешний вид, стиль, сцены, действия, выражения и движение камеры — путем интеграции мультимодальной информации, такой как ссылки на изображения и видеофрагменты.
На практике O1 стремится к опыту ближе к:
«Сохрани лицо моего героя неизменным, тот же пиджак, убери прохожего, переключись на освещение золотого часа и продли кадр, когда камера приближается.»
…вместо экспорта в редактор, наложения масок, установки ключевых кадров и повторного рендеринга.
Что O1 заявляет, что объединяет (комплекс возможностей “все-в-одном”)
Руководство четко перечисляет охват, который оно пытается объединить:
- text to video ai
- reference to video ai
- first/last-frame to video
- video object removal ai
- ai video editing & video modification & transformation
- style repaint video
- shot extension ai
Объединение этого списка важно, поскольку подразумевает, что O1 конкурирует не только на уровне «насколько красив первый рендер», но и на способности закончить клип через итеративное редактирование, не покидая модель.
Редактирование одним предложением: превращение постпродакшна в чат
Одно из наиболее значимых для создателей обещаний в руководстве — идея редактирования одним предложением — запросы на естественном языке, такие как удаление прохожих, изменение времени суток, смена наряда/стиля, применяемые напрямую к существующему видео.
Если это осуществимо, это меняет экономику создания контента:
- Меньше времени на изучение специфики редактора
- Больше времени на итерации по сюжету, ритму и кадрированию
- Быстрее A/B тестирование для рекламы (множество вариантов от одного базового клипа)
Самая сложная задача, на которую нацелена O1: согласованность
Большинство AI-видео систем по-прежнему испытывают трудности с тем, что зрители замечают мгновенно: непрерывность.
- Лицо слегка меняется
- Логотипы искажаются
- Цвета одежды смещаются
- Реквизит «телепортируется»
- Архитектура фона «плывет»
Руководство O1 специально подчеркивает более глубокое понимание входных данных и multi view subject reference (создание идентичности объекта с нескольких ракурсов), чтобы улучшить согласованность между кадрами.
Именно поэтому важно «унифицированное» решение: если генерация и редактирование используют одно и то же внутреннее представление вашего объекта, шансы изменить клип без повторного «переброса» идентичности персонажа значительно выше.
«Комбинация навыков»: объединение задач за один проход
Тонкий, но важный момент: руководство отмечает, что можно объединять задачи, например, добавлять объект и менять фон одновременно, или создавать из ссылки на изображение с одновременным перестилеванием.
Это кажется незначительным, пока не начинаешь работать в большом масштабе. Сложенные операции означают:
- Меньше циклов «создать → экспортировать → редактировать → импортировать заново»
- Меньше потраченных впустую генераций на промежуточные шаги
- Больше вариантов с каждой итерацией
Что смотреть дальше (продуктовое направление)
В руководстве упоминается новая «omni/new» рабочая схема создания, предлагающая «omni» хаб, где генерация и редактирование сосуществуют, а не разделены на отдельные режимы.
И MVL-фреймворк согласуется с более широким курсом Kling на «режиссуру с мультимодальными ограничениями», а не просто написание подсказок.
Где Kling O1 может быть особенно полезен: практические сценарии
1) Короткий повествовательный контент (мультикадровая непрерывность)
Периодические персонажи и связные сцены получают наибольшую пользу от закрепления объекта и продления кадра.
2) Продуктовая и брендовая реклама (создание вариантов)
Если можно сделать: «тот же продукт, новая среда, другое освещение, убрать блики, добавить руку, держащую его», можно создавать множество рекламных ракурсов из одного базового.
3) Потоковая работа под социальные сети
Один «главный клип», а затем 10 вариантов: разные стили, время суток, фоны, удаленный текст, продлённый темп камеры — всё без полноценного пайплайна редактора.
4) Превиз/сторибординг
Исследование движений камеры, настроения, блокировки сцен и темпа до окончательной последовательности.
Быстрые шаблоны подсказок (MVL-дружественные)
A) Базовый кадр (сначала зафиксировать идентичность)
Используйте ссылку на объект + текст:
- Сцена, время/освещение, кадрирование и движение камеры, действие, настроение
- Отрицательные ограничения: смещение лица, изменение цвета одежды, деформации логотипа
B) Редактирование (одним предложением)
«Убери X, измени Y, сохрани идентичность.»
C) Продление кадра (продолжение движения)
«Продлить на 2–4 секунды, продолжать действие, сохранить тон, плавное движение.»
Это точно соответствует тому типу поведения «инструкция + ссылка», который O1 стремится объединить.
Попробуйте Kling-модели сейчас на Flux AI (рекомендуется)
Если хотите начать генерацию уже сегодня, пока развивается направление O1 (Omni One), попробуйте эти текущие опции:























