Le O1 (Omni One) de Kling est décrit (dans un guide de style bêta/interne) comme un modèle unifié multimodal de base vidéo — un système unique conçu pour gérer à la fois la génération vidéo et l’édition vidéo basée sur les instructions via une seule langue d’interaction. Plutôt que de passer d’un mode “texte-à-vidéo”, “référence-à-vidéo”, “édition vidéo”, et “extension de plan” à travers différents outils, la promesse de O1 est : donnez-lui texte + images + références vidéo + une référence de sujet, et itérez comme un réalisateur dans un flux de travail continu.
Cette direction correspond aussi à la façon dont Kuaishou a décrit l’évolution de Kling autour de MVL (Multi-modal Visual Language) : exprimer l’identité, le style, la scène, l’action et l’intention de caméra en combinant texte avec des références visuelles.
Qu’est-ce que Kling O1 (Omni One), en langage clair ?
Considérez O1 comme cherchant à être un modèle unique qui réalise la “création + révision” de bout en bout :
- Générer un nouveau plan à partir du texte
- Générer à partir de références (image/vidéo)
- Créer un plan à partir des premières/dernières images
- Ajouter/enlever des objets ou des personnes dans une vidéo
- Appliquer des transformations (changements d’aspect, modifications)
- Repeindre le style (restyler le clip)
- Étendre le plan pour continuer le mouvement et le rythme
Tous ces éléments sont listés ensemble comme tâches supportées dans le guide, sous l’égide d’un modèle unifié unique plutôt que de pipelines spécialisés distincts.
L’idée principale sous-jacente : MVL (Multi-modal Visual Language)
Le guide de O1 cadre l’interaction ainsi : vos entrées ne sont pas des “éléments” que vous déposez dans un flux de travail — ce sont des instructions. Le texte est le plan de haut niveau ; l’image/vidéo de référence fournit des contraintes visuelles ; la référence du sujet ancre l’identité.
La définition MVL de Kuaishou est similaire : elle est conçue pour aider les utilisateurs à exprimer une intention créative multidimensionnelle — identité, apparence, style, scènes, actions, expressions et mouvements de caméra — en intégrant des informations multimodales comme des références d’image et des clips vidéo.
En pratique, O1 vise une expérience proche de :
« Gardez le visage de mon héros cohérent, gardez la même veste, maintenant enlevez le passant, changez pour une lumière d’heure dorée, et étendez le plan alors que la caméra avance. »
…au lieu d’exporter vers un éditeur, masquer, animer les images clés, et relancer le rendu.
Ce que O1 prétend combiner (le “package tout-en-un”)
Le guide est explicite sur l’étendue qu’il cherche à unifier :
- text to video ai
- reference to video ai
- first/last-frame to video
- video object removal ai
- ai video editing & prompt based video editing
- style repaint video
- shot extension ai
Rassembler cette liste est important car cela implique que O1 ne fait pas que concourir sur “la beauté du premier rendu”, mais sur la capacité à terminer un clip via des modifications itératives sans quitter le modèle.
Edition en une phrase : transformer la post-production en conversation
Une des promesses les plus pertinentes pour les créateurs dans le guide est l’idée d’édition en une seule phrase — des requêtes en langage naturel comme supprimer un passant, changer l’heure du jour, changer tenue/style — appliquées directement à une vidéo existante.
Si cela se tient, cela change l’économie de la création de contenu :
- Moins de temps à apprendre des techniques spécifiques d’éditeurs
- Plus de temps à itérer sur l’histoire, le rythme et le cadrage
- Tests A/B plus rapides pour les publicités (plusieurs variantes à partir du même clip de base)
Le problème le plus difficile que vise O1 : la cohérence
La plupart des systèmes vidéo IA ont encore du mal avec ce que le public remarque instantanément : la continuité.
- Le visage change subtilement
- Les logos se déforment
- Les couleurs des tenues dérivent
- Les accessoires “téléportent”
- L’architecture de fond fond
Le guide de O1 insiste directement sur une meilleure compréhension des entrées et la création multi-vue du sujet (construire une identité de sujet à partir de multiples angles) pour améliorer la cohérence entre les plans.
C’est aussi pour cela que “unifié” est important : si la génération et l’édition partagent la même représentation interne de votre sujet, vous avez plus de chances de modifier un clip sans réinitialiser l’identité de votre personnage à chaque fois.
“Combinaisons de compétences” : accumuler les tâches en une seule passe
Un point subtil mais important : le guide souligne que vous pouvez combiner des tâches, comme faire un ajout de sujet et un changement de fond simultanément, ou générer à partir d’une image de référence tout en restylisant.
Cela semble mineur jusqu’à ce que vous produisiez à grande échelle. Les opérations empilées peuvent signifier :
- Moins de sauts “générer → exporter → éditer → réimporter”
- Moins de générations gaspillées sur des étapes intermédiaires
- Plus de variantes exploitables par cycle d’itération
À suivre (orientation produit)
Le guide fait référence à un nouveau parcours “omni/nouveau” de flux de création, suggérant un hub “omni” où génération et édition cohabitent au lieu d’être réparties en modes séparés.
Et la définition MVL correspond à la trajectoire plus large de Kling vers “diriger avec des contraintes multimodales”, pas juste taper des prompts.
Où Kling O1 pourrait avoir le plus d’impact : cas pratiques
1) Contenu narratif court (continuité multi-plans)
Les personnages récurrents et les séquences cohérentes bénéficient le plus de l’ancrage du sujet + extension de plan.
2) Publicités produit et marque (génération de variantes)
Si vous pouvez faire : « même produit, nouvel environnement, éclairage différent, retirer les reflets, ajouter une main qui le tient », vous pouvez produire plusieurs angles pub à partir d’une base unique.
3) Flux volumiques sociaux
Un “clip héros”, puis 10 variantes : styles différents, moments de la journée, arrière-plans, texte supprimé, rythme caméra étendu — tout ça sans pipeline d’éditeur complet.
4) Prévisualisation / storyboard
Explorer mouvements de caméra, ambiance, blocage et rythme avant de s’engager dans une séquence finale.
Modèles de prompt pour démarrer vite (compatible MVL)
A) Plan de base (verrouiller d’abord l’identité)
Utilisez la référence sujet + texte :
- Scène, heure/éclairage, cadrage et mouvement caméra, action, ambiance
- Contraintes négatives : dérive du visage, changement de couleur tenue, déformation logo
B) Passe d’édition (post-production en une phrase)
“Retirer X, changer Y, garder l’identité inchangée.”
C) Extension de plan (continuer le mouvement)
“Étendre 2–4 secondes, continuer l’action, maintenir le ton, mouvement fluide.”
Cela correspond exactement au type de comportement “instruction + référence” que O1 cherche à unifier.
Essayez les modèles Kling maintenant sur Flux AI (recommandé)
Si vous voulez commencer à générer dès aujourd’hui pendant que la direction O1 (Omni One) évolue, essayez ces options actuelles :























