Kling’s O1 (Omni One) se describe (en una guía interna/estilo beta) como un modelo fundamental unificado multimodal de video—un sistema único diseñado para manejar tanto la generación de video como la edición de video basada en instrucciones mediante un solo lenguaje de interacción. En lugar de saltar entre modos como “texto a video,” “referencia a video,” “edición de video” y “extensión de toma” en distintas herramientas, la propuesta de O1 es: dale texto + imágenes + referencias de video + una referencia de sujeto, y realiza iteraciones como un director en un flujo de trabajo continuo.
Esa dirección también coincide con cómo Kuaishou ha descrito la evolución de Kling alrededor de MVL (Multi-modal Visual Language): expresar identidad, estilo, escena, acción e intención de cámara combinando texto con referencias visuales.
¿Qué es Kling O1 (Omni One), en palabras simples?
Piensa en O1 como intentando ser un modelo que hace “crear + revisar” de punta a punta:
- Generar una toma nueva a partir de texto
- Generar a partir de referencias (imagen/video)
- Crear una toma desde el primer/último cuadro
- Agregar/quitar objetos o personas en un video
- Aplicar transformaciones (cambios de apariencia, modificaciones)
- Repintar estilo (restilar el clip)
- Extender la toma para continuar el movimiento y ritmo
Todas estas tareas están listadas juntas como soportadas dentro de la guía, bajo el paraguas de un único modelo unificado en lugar de procesos especializados por separado.
La gran idea subyacente: MVL (Multi-modal Visual Language)
La guía de O1 plantea la interacción así: tus entradas no son “activos” que colocas en un flujo de trabajo—son instrucciones. El texto es el plan de alto nivel; la imagen/video de referencia brinda restricciones visuales; la referencia de sujeto ancla la identidad.
El enfoque MVL de Kuaishou es similar: está pensado para ayudar a los usuarios a transmitir la intención creativa multidimensional—identidad, apariencia, estilo, escenas, acciones, expresiones y movimiento de cámara—integrando información multimodal como referencias de imagen y clips de video.
En la práctica, O1 apunta a una experiencia más parecida a:
“Mantén la cara de mi héroe consistente, conserva la misma chaqueta, ahora elimina al transeúnte, cambia a iluminación de hora dorada, y extiende la toma mientras la cámara se acerca.”
…en lugar de exportar a un editor, hacer enmascarado, animar fotogramas clave y volver a renderizar.
Lo que O1 afirma combinar (la “pila de capacidades todo-en-uno”)
La guía es explícita sobre el alcance que intenta unificar:
- text-to-video
- reference-to-video
- first/last-frame to video
- video add/remove
- video modification & transformation
- style repaint
- shot extension
Agrupar esta lista es importante porque implica que O1 no solo compite en “qué tan bonito es el primer renderizado,” sino en si puedes terminar un clip mediante ediciones iterativas sin salir del modelo.
Edición en una sola oración: convertir la postproducción en chat
Una de las promesas más relevantes para creadores en la guía es la idea de ediciones de una sola oración—solicitudes en lenguaje natural como eliminar transeúntes, cambiar la hora del día, cambiar atuendo/estilo—aplicadas directamente a un video existente.
Si se cumple, cambia la economía de la creación de contenido:
- Menos tiempo aprendiendo técnicas específicas de editores
- Más tiempo iterando en historia, ritmo y encuadre
- Pruebas A/B más rápidas para anuncios (múltiples variantes desde el mismo clip base)
El problema más difícil que O1 intenta resolver: la consistencia
La mayoría de los sistemas de video AI aún luchan con lo que la audiencia nota al instante: la continuidad.
- La cara cambia sutilmente
- Los logos se deforman
- Los colores del atuendo se desvían
- Los objetos se teletransportan
- La arquitectura de fondo se derrite
La guía de O1 enfatiza directamente una comprensión más fuerte de las entradas y la creación de sujeto multivista (construir una identidad de sujeto desde múltiples ángulos) para mejorar la consistencia entre tomas.
Esto también explica por qué “unificado” importa: si generación y edición comparten la misma representación interna de tu sujeto, tienes mejor oportunidad de modificar un clip sin rehacer la identidad de tu personaje cada vez.
“Combinaciones de habilidades”: apilar tareas en una sola pasada
Un punto sutil pero importante: la guía destaca que puedes combinar tareas, como agregar un sujeto y cambiar el fondo juntos, o generar a partir de una referencia de imagen mientras se cambia el estilo.
Eso suena menor hasta que produces a escala. Operaciones apiladas pueden significar:
- Menos saltos “generar → exportar → editar → reimportar”
- Menos generaciones desperdiciadas en pasos intermedios
- Más variantes útiles por ciclo de iteración
Qué seguir de cerca (dirección del producto)
La guía menciona un camino de flujo de creación más nuevo “omni/nuevo,” sugiriendo un hub “omni” donde generación y edición convivan en lugar de estar separados en modos distintos.
Y el enfoque MVL es consistente con la trayectoria más amplia de Kling hacia “dirigir con restricciones multimodales,” no solo teclear prompts.
Dónde podría importar más Kling O1: casos prácticos
1) Contenido narrativo corto (continuidad multi-toma)
Personajes recurrentes y secuencias coherentes se benefician más del anclaje de sujeto + extensión de toma.
2) Anuncios de productos y marcas (generación de variantes)
Si puedes hacer: “mismo producto, nuevo ambiente, diferente iluminación, quitar reflejos, añadir una mano sosteniéndolo,” puedes producir múltiples ángulos publicitarios desde una base.
3) Flujos de trabajo de volumen social
Un “clip héroe,” luego 10 variantes: estilos diferentes, horas del día, fondos, texto removido, ritmo de cámara extendido—todo sin una pipeline completa de editor.
4) Previs / storyboard
Explora movimientos de cámara, ambiente, bloqueo y ritmo antes de comprometer una secuencia final.
Patrones rápidos de prompts (amigables con MVL)
A) Toma base (bloquea identidad primero)
Usa referencia de sujeto + texto:
- Escena, hora/iluminación, encuadre + movimiento de cámara, acción, estado de ánimo
- Restricciones negativas: deriva facial, cambio de color de atuendo, deformación de logo
B) Pase de edición (post de una oración)
“Quita X, cambia Y, mantén identidad sin cambios.”
C) Extiende toma (continúa movimiento)
“Extiende 2–4 segundos, continúa acción, mantén tono, movimiento suave.”
Estos corresponden exactamente al tipo de comportamiento “instrucción + referencia” que O1 busca unificar.
Prueba los modelos Kling ahora en Flux AI (recomendado)
Si quieres empezar a generar hoy mientras la dirección de O1 (Omni One) evoluciona, prueba estas opciones actuales:























