Kling’s O1 (Omni One) wird (in einem Beta-/internen Leitfaden) als ein einheitliches multimodales Video-Grundlagenmodell beschrieben – ein einzelnes System, das sowohl Videoerzeugung als auch anweisungsbasierte Videobearbeitung über eine einzige Interaktionssprache abwickeln soll. Statt zwischen „Text-zu-Video“, „Referenz-zu-Video“, „Video-Bearbeitung“ und „Shot-Verlängerung“ in verschiedenen Tools zu wechseln, lautet das Versprechen von O1: Gib ihm Text + Bilder + Video-Referenzen + eine Subjekt-Referenz, und iteriere wie ein Regisseur in einem durchgängigen Workflow.
Diese Ausrichtung entspricht auch der Beschreibung von Kuaishou zur Evolution von Kling rund um MVL (Multi-modal Visual Language): Identität, Stil, Szene, Aktion und Kamerawunsch durch die Kombination von Text mit visuellen Referenzen auszudrücken.
Was ist Kling O1 (Omni One), ganz einfach erklärt?
Man kann O1 als Modell sehen, das versucht, ein einziges Modell zu sein, das “Erstellen + Überarbeiten” von Anfang bis Ende kann:
- Einen neuen Shot aus Text generieren
- Aus Referenzen (Bild/Video) generieren
- Einen Shot aus ersten/letzten Frames erzeugen
- Objekte oder Personen hinzufügen/entfernen im Video
- Transformationen anwenden (Look-Änderungen, Modifikationen)
- Stil neu anmalen (Clip umstylen)
- Shot verlängern um Bewegung und Tempo fortzusetzen
All diese Aufgaben werden im Leitfaden als unterstützte Funktionen unter einem einheitlichen Modell aufgeführt und nicht als getrennte spezialisierte Pipelines.
Die große Idee dahinter: MVL (Multi-modal Visual Language)
Der Leitfaden von O1 beschreibt die Interaktion so: Deine Eingaben sind keine „Assets“, die du in einen Workflow einfügst – sie sind Anweisungen. Text ist der übergeordnete Plan; das Referenzbild/-video liefert visuelle Vorgaben; die Subjekt-Referenz verankert die Identität.
Kuaishous MVL-Definition ist ähnlich: Sie soll Nutzern helfen, mehrdimensionale kreative Absichten zu vermitteln – Identität, Aussehen, Stil, Szenen, Aktionen, Ausdrücke und Kamerabewegung – indem multimodale Informationen wie Bild-Referenzen und Videoclips integriert werden.
Praktisch strebt O1 eine Erfahrung an, die näher an folgendem Beispiel ist:
„Halte das Gesicht meines Helden konsistent, behalte die gleiche Jacke, entferne jetzt den Passanten, wechsle zur goldenen Stunde Beleuchtung, und verlängere den Shot, während die Kamera reinzoomt.“
… statt den Clip zu exportieren, zu maskieren, Keyframes zu setzen und neu zu rendern.
Was O1 zu kombinieren verspricht (der „All-in-One-Fähigkeitenstapel“)
Der Leitfaden nennt explizit den Umfang dessen, was vereinheitlicht werden soll:
- text to video ai
- reference to video ai
- first/last-frame to video
- video object removal ai
- video background change ai
- style repaint video
- shot extension ai
Diese Kombination ist wichtig, denn sie bedeutet, dass O1 nicht nur bei „Wie schön ist das erste Rendern?“ konkurriert, sondern ob man einen Clip durch iterative Bearbeitung fertigstellen kann, ohne das Modell zu verlassen.
Ein-Satz-Bearbeitung: Postproduktion wird zum Chat
Eines der für Creator relevantesten Versprechen im Leitfaden ist die Idee von one sentence video edit – natürliche Sprachbefehle wie Passanten entfernen, Tageszeit ändern, Outfit/Stil tauschen – die direkt auf ein bestehendes Video angewendet werden.
Wenn das hält, verändert es die Ökonomie der Content-Erstellung:
- Weniger Zeit für das Lernen von editorspezifischen Techniken
- Mehr Zeit für Story, Timing und Bildgestaltung
- Schnellere A/B-Tests für Werbung (mehrere Varianten aus demselben Basisclip)
Das schwerste Problem, das O1 angehen will: Konsistenz
Die meisten KI-Videosysteme haben immer noch Schwierigkeiten bei dem, was Zuschauer sofort bemerken: Kontinuität.
- Das Gesicht verändert sich subtil
- Logos verzerren
- Outfit-Farben wandern
- Requisiten teleportieren
- Hintergrundarchitektur „schmilzt“ dahin
Im Leitfaden wird explizit auf ein stärkeres Verständnis der Eingaben und multi view subject reference (Erstellung der Subjekt-Identität aus mehreren Blickwinkeln) hingewiesen, um die Konsistenz über mehrere Shots zu verbessern.
Deshalb ist „einheitlich“ auch so wichtig: Wenn Erzeugen und Bearbeiten dieselbe interne Darstellung eines Subjekts verwenden, kann ein Clip bearbeitet werden, ohne die Charakteridentität jedes Mal neu definieren zu müssen.
„Skill-Kombinationen“: Aufgaben in einem Durchgang stapeln
Ein subtile, aber wichtige Anmerkung: Der Leitfaden betont, dass man Aufgaben kombinieren kann, zum Beispiel ein Subjekt hinzufügen und den Hintergrund gleichzeitig ändern oder aus einem Bildreferenz erzeugen während man den Stil umändert.
Das klingt klein, ist es aber nicht, wenn man in großem Maßstab produziert. Gestapelte Operationen können bedeuten:
- Weniger „generieren → exportieren → bearbeiten → reimportieren“ Schritte
- Weniger verschwendete Durchläufe bei Zwischenschritten
- Mehr verwertbare Varianten pro Iterationszyklus
Was als Nächstes zu beobachten ist (Produktentwicklung)
Der Leitfaden verweist auf einen neueren „omni/new“ Erstellungsworkflow, der auf einen „omni“-Hub hindeutet, bei dem Erzeugung und Bearbeitung zusammenlaufen, statt getrennt zu sein.
Und der MVL-Ansatz passt zu Klings übergeordneter Entwicklung hin zu „Regie mit multimodalen Vorgaben“, statt nur Texteingaben.
Wo Kling O1 am meisten Bedeutung haben könnte: praktische Anwendungsfälle
1) Kurzform Storytelling (mehrschussige Kontinuität)
Wiederkehrende Figuren und zusammenhängende Sequenzen profitieren besonders von Subjekt-Ankerung + Shot-Verlängerung.
2) Produkt- und Markenwerbung (Variantenproduktion)
Wenn du sagen kannst: „Dasselbe Produkt, neue Umgebung, anderes Licht, Reflexionen entfernen, eine Hand hinzuzufügen“, kannst du mehrere Werbewinkel aus einem Basisclip produzieren.
3) Social-Volume Workflows
Ein „Hero-Clip“, dann 10 Varianten: unterschiedliche Stile, Tageszeiten, Hintergründe, entfernte Texte, erweiterte Kamerapacing – alles ohne vollständige Editor-Pipeline.
4) Previs / Storyboarding
Kamerabewegungen, Stimmung, Blocking und Tempo erkunden, bevor man sich auf eine finale Sequenz festlegt.
Schnellstart-Promptmuster (MVL-freundlich)
A) Basis-Shot (Identität fixieren)
Subjekt-Referenz + Text verwenden:
- Szene, Zeit/Beleuchtung, Kamerafassung + Bewegung, Handlung, Stimmung
- Negative Vorgaben: Gesichtsdruck, Outfit-Farbschwankung, Logo-Deformation
B) Bearbeitungsschritt (One-Sentence-Post)
„Entferne X, ändere Y, behalte Identität bei.“
C) Shot verlängern (Bewegung fortsetzen)
„Verlängere 2–4 Sekunden, setze Aktion fort, bewahre Ton, flüssige Bewegung.“
Diese entsprechen genau der „Anweisung + Referenz“-Interaktion, die O1 vereinheitlichen will.
Probiere Kling-Modelle jetzt auf Flux AI aus (empfohlen)
Wenn du heute schon mit der Erzeugung beginnen möchtest, während sich die O1 (Omni One)-Richtung weiterentwickelt, probiere diese aktuellen Optionen:























