KlingのO1 (Omni One)は(ベータ/内部スタイルのガイドで)統合型マルチモーダル動画基盤モデルとして説明されています。これは、動画生成と指示に基づく動画編集の両方を一つのインタラクション言語で扱う単一システムです。“テキストから動画へ”、“リファレンスから動画へ”、“動画編集”、“ショット拡張”モードを異なるツール間で切り替える代わりに、O1の提案はこうです:テキスト+画像+動画リファレンス+被写体リファレンスを与え、監督のように一連のワークフローで反復する。
この方向性は、KuaishouがKlingの進化を**MVL(マルチモーダルビジュアルランゲージ)**の周りで説明している方法にも一致しており、テキストと視覚的リファレンスを組み合わせて、アイデンティティ、スタイル、シーン、アクション、カメラインテントを表現しています。
Kling O1 (Omni One)とは何か?平易な解説
O1は**「作成+修正」をエンドツーエンドで行う一つのモデル**を目指していると考えてください:
- テキストから新しいショットを生成
- リファレンス(画像/動画)から生成
- 最初/最後のフレームからショットを作成
- 動画内のオブジェクトや人物の追加/削除
- **変形(見た目の変更や修正)**を適用
- スタイルの再ペイント(クリップのリスタイル)
- ショットの延長で動きとテンポの継続
これらはすべて、ガイド内で単一の統合モデルの下でサポートされるタスクとしてまとめられており、別々の専門パイプラインではありません。
根底にある大きなアイデア:MVL(マルチモーダルビジュアルランゲージ)
O1のガイドはインタラクションをこう位置づけています:入力は単なるワークフローに「投入する資産」ではなく、指示です。テキストは高レベルの計画、リファレンスの画像/動画は視覚的制約を提供し、被写体リファレンスがアイデンティティの基点となります。
KuaishouのMVLのフレーミングも類似しており、多次元のクリエイティブな意図―アイデンティティ、外観、スタイル、シーン、アクション、表情、カメラの動き―を、画像や動画クリップなどのマルチモーダル情報を統合して伝えることを目指しています。
実際には、O1は次のような体験を目指しています:
「主人公の顔を一貫性を保ち、同じジャケットを着せ、通行人を今から削除し、ゴールデンアワーの照明に変え、カメラが寄る動きとともにショットを延長する。」
…そんな風に、エクスポートして編集ソフトでマスクを切り、キーフレームを打ち、再レンダリングするのではありません。
O1が統合すると主張するもの(「オールインワン能力スタック」)
ガイドは統一しようとする範囲を明示しています:
- text to video ai
- reference to video ai
- first/last-frame to video
- video object removal ai
- ai video editing & transformations
- style repaint video
- shot extension ai
このリストをまとめる意味は、O1は単に「最初のレンダーがどれだけ美しいか」で競うのではなく、モデルを離れずに反復編集で最後のクリップ完成までたどり着けるかで勝負していることを示します。
一文編集:ポストプロダクションをチャット化する
ガイド中で最もクリエイターに響く約束は、one sentence video editの考えです。自然言語で「通行人を除去」「時間帯を変更」「衣装やスタイルを入れ替え」などを、既存の動画に直接適用します。
これが実現すれば、コンテンツ制作の経済性を変えます:
- エディター固有のスキル習得にかける時間が減る
- ストーリーやテンポ、フレーミングの反復により多くの時間を使える
- 広告のA/Bテストがより迅速に(同じベースクリップから複数バリアント作成)
O1が目指す最も困難な課題:一貫性
ほとんどのAI動画システムがまだ苦手としているのは、観客が瞬時に気づく連続性の問題です。
- 顔の細かな変化
- ロゴの歪み
- 衣装の色変化
- 小道具のテレポート
- 背景建築物の崩壊
O1のガイドは入力の理解を深め、multi view subject reference(複数のアングルから被写体のアイデンティティを構築)を強調し、ショット間の一貫性向上を図っています。
これが「統合型」であることの意味でもあります:生成と編集が同じ内部表現を共有すれば、クリップを修正してもキャラクターのアイデンティティを毎回作り直す必要が減るのです。
「スキルコンボ」:一発で複数タスクを重ねる
細かいが重要なポイントとして、ガイドはタスクの組み合わせが可能であることを強調しています。例えば、被写体の追加と背景の変更を同時に行ったり、画像リファレンスから生成しつつリスタイルするといったことです。
これは規模が大きくなるほど意味を持ちます。重ね合わせ操作は:
- 「生成→エクスポート→編集→再インポート」の繰り返しが減る
- 中間ステップで無駄な生成が減る
- 各反復サイクルで使えるバリアントが増える
今後注目すべき点(プロダクトの方向性)
ガイドは「omni/new」クリエイションワークフローへの新しいパスを示唆し、生成と編集が分かれているのではなく、「omni」ハブで一緒に存在する形態を予告しています。
そしてMVLの枠組みは、単なるプロンプト入力以上に「マルチモーダルな制約で演出する」Klingの大きな方向性と一致しています。
Kling O1が最も活躍しそうな実用シーン
1) ショートナラティブコンテンツ(マルチショット連続性)
リカーリングキャラクターと整合したシーケンスでは、被写体アンカー+ショット延長が役立つ。
2) 商品・ブランド広告(バリアント生成)
「同じ製品、新しい環境、異なる照明、反射除去、手を持たせる」などで、1つのベースから複数の広告角度を生成できる。
3) ソーシャルボリュームワークフロー
「ヒーロークリップ」1本から10のバリアント作成:異なるスタイル、時間帯、背景、テキスト削除、カメラペーシング延長など、フル編集パイプライン不要。
4) プリビズ/絵コンテ作成
最終シークエンスにコミットする前にカメラ動きやムード、配置、テンポを試せる。
クイックスタート・プロンプトパターン(MVLフレンドリー)
A) ベースショット(まずアイデンティティを固定)
被写体リファレンス+テキストで指定:
- シーン、時間/照明、カメラフレーミング+動き、アクション、ムード
- 否定的制約:顔のブレ、衣装色の変化、ロゴの歪み
B) 編集パス(一文で後処理)
「Xを除去し、Yを変更、アイデンティティは保持。」
C) ショット延長(動きを継続)
「2~4秒延長、アクション継続、トーン保持、滑らかな動き。」
これらはまさにO1が統合しようとしている「指示+リファレンス」の挙動そのものです。
Flux AIでKlingモデルを今すぐ試す(推奨)
**O1 (Omni One)**の方向性が進化する間に、以下の現行モデルで生成を始めることができます:























