O O1 (Omni One) da Kling está sendo descrito (em um guia beta/interno) como um modelo de base unificado multimodal para vídeo — um único sistema destinado a lidar tanto com geração de vídeo quanto com edição de vídeo baseada em instruções por meio de uma única linguagem de interação. Em vez de alternar entre modos “texto para vídeo,” “referência para vídeo,” “edição de vídeo” e “extensão de cena” em diferentes ferramentas, a proposta do O1 é: dê a ele texto + imagens + referências de vídeo + uma referência do sujeito, e itere como um diretor em um fluxo contínuo.
Essa direção também corresponde à forma como a Kuaishou descreveu a evolução da Kling em torno do MVL (Multi-modal Visual Language): expressar identidade, estilo, cena, ação e intenção de câmera combinando texto com referências visuais.
O que é Kling O1 (Omni One), em palavras simples?
Pense no O1 como tentando ser um único modelo que faz “criar + revisar” de ponta a ponta:
- Gerar uma cena nova a partir de texto
- Gerar a partir de referências (imagem/vídeo)
- Criar uma cena a partir dos primeiros/últimos quadros
- Adicionar/remover objetos ou pessoas em um vídeo
- Aplicar transformações (mudanças de aparência, modificações)
- Repintar estilo (restilizar o clipe)
- Estender a cena para continuar o movimento e o ritmo
Todas essas tarefas são listadas juntas como suportadas dentro do guia, sob o guarda-chuva de um único modelo unificado em vez de pipelines especializadas separadas.
A grande ideia por trás: MVL (Multi-modal Visual Language)
O guia do O1 enquadra a interação assim: suas entradas não são “ativos” que você insere em um fluxo de trabalho — são instruções. O texto é o plano de alto nível; a imagem/vídeo de referência fornece restrições visuais; a referência do sujeito ancora a identidade.
O enquadramento do MVL da Kuaishou é similar: é pensado para ajudar os usuários a expressar a intenção criativa multidimensional — identidade, aparência, estilo, cenas, ações, expressões e movimento de câmera — integrando informações multimodais como referências de imagem e videoclipes.
Na prática, o O1 busca uma experiência mais próxima de:
“Mantenha o rosto do meu herói consistente, mantenha a mesma jaqueta, agora remova o transeunte, mude para iluminação de hora dourada e estenda a cena enquanto a câmera avança.”
…em vez de exportar para um editor, mascarar, criar keyframes e re-renderizar.
O que o O1 alega combinar (a “pilha de capacidades tudo-em-um”)
O guia é explícito sobre o escopo que está tentando unificar:
- Text-to-video
- Reference-to-video
- First/last-frame to video
- Video add/remove
- Video modification & transformation
- Style repaint
- Shot extension
Agrupar essa lista importa porque implica que o O1 não está competindo apenas em “quão bonito é o primeiro render,” mas em se você pode terminar um clipe por meio de edições iterativas sem sair do modelo.
Edição em uma frase: transformando pós-produção em bate-papo
Uma das promessas mais relevantes para criadores no guia é a ideia de edições de uma única frase — pedidos em linguagem natural como remover transeuntes, mudar horário do dia, trocar roupa/estilo — aplicados diretamente a um vídeo existente.
Se funcionar, isso muda a economia de criação de conteúdo:
- Menos tempo aprendendo técnicas específicas de editores
- Mais tempo iterando na história, ritmo e enquadramento
- Testes A/B mais rápidos para anúncios (múltiplas variantes a partir do mesmo clipe base)
O problema mais difícil que o O1 está mirando: consistência
A maioria dos sistemas de vídeo com AI ainda luta com o que o público percebe instantaneamente: continuidade.
- O rosto muda sutilmente
- Logos se deformam
- Cores da roupa variam
- Objetos teletransportam
- Arquitetura do fundo derrete
O guia do O1 enfatiza diretamente uma compreensão mais forte das entradas e a criação de sujeito multi-visão (construção de uma identidade de sujeito a partir de múltiplos ângulos) para melhorar a consistência entre cenas.
É também por isso que “unificado” importa: se geração e edição compartilham a mesma representação interna do seu sujeito, você tem melhor chance de modificar um clipe sem rerefazer a identidade do personagem a cada vez.
“Combinação de habilidades”: empilhando tarefas em uma única passagem
Um ponto sutil, mas importante: o guia destaca que você pode combinar tarefas, como fazer uma adição de sujeito e uma mudança de fundo juntos, ou gerar a partir de uma referência de imagem enquanto restiliza.
Isso parece menor até você produzir em escala. Operações empilhadas podem significar:
- Menos saltos “gerar → exportar → editar → reimportar”
- Menos gerações desperdiçadas em passos intermediários
- Mais variantes utilizáveis por ciclo de iteração
O que observar a seguir (direção do produto)
O guia faz referência a um caminho de fluxo de criação mais novo “omni/novo”, sugerindo um hub “omni” onde geração e edição coexistem em vez de serem divididas em modos separados.
E o enquadramento MVL é consistente com a trajetória mais ampla da Kling em direção a “direção com restrições multimodais,” não só digitar prompts.
Onde o Kling O1 pode importar mais: casos práticos de uso
1) Conteúdo narrativo curto (continuidade multi-cena)
Personagens recorrentes e sequências coerentes tiram mais proveito da ancoragem do sujeito + extensão da cena.
2) Anúncios de produtos e marcas (geração de variantes)
Se você pode fazer: “mesmo produto, novo ambiente, iluminação diferente, remover reflexos, adicionar uma mão segurando,” pode produzir múltiplos ângulos de anúncio a partir de uma base.
3) Fluxos de trabalho de volume social
Um “clipe principal,” depois 10 variantes: estilos diferentes, horários do dia, fundos, texto removido, ritmo da câmera estendido — tudo sem pipeline completo de editor.
4) Previs / storyboard
Explorar movimentos de câmera, clima, bloqueio e ritmo antes de se comprometer com uma sequência final.
Padrões rápidos de prompt (compatíveis com MVL)
A) Cena base (primeiro fixar identidade)
Use referência do sujeito + texto:
- Cena, tempo/iluminação, enquadramento e movimento de câmera, ação, humor
- Restrições negativas: desvio de rosto, mudança de cor da roupa, deformação de logo
B) Passagem de edição (pós-editação em uma frase)
“Remova X, mude Y, mantenha identidade inalterada.”
C) Estender cena (continuar movimento)
“Estenda 2–4 segundos, continue ação, mantenha tom, movimento suave.”
Esses correspondem exatamente ao tipo de comportamento “instrução + referência” que o O1 busca unificar.
Experimente os modelos Kling agora no Flux AI (recomendado)
Se quiser começar a gerar hoje enquanto a direção do O1 (Omni One) evolui, experimente estas opções atuais:























