Kling O1 (Omni One):一款「統一」的多模態視頻模型,旨在取代你整個視頻堆疊

Kling O1(Omni One)被定位為統一的多模態影片基礎模型,主打生成與編輯合一、導演式操作體驗。本文以創作者角度解析 O1 的核心理念 MVL、單句編輯、主體一致性與實際應用情境,帶你看懂它為何可能徹底改變 AI 影片工作流,以及現在如何先在 Flux AI 使用 Kling 系列模型。

Kling O1 (Omni One):一款「統一」的多模態視頻模型,旨在取代你整個視頻堆疊
日期: 2025-11-27

Kling 的 O1(Omni One) 在 beta/內部風格指南裡,被定位成一款 「統一的多模態影片基礎模型」——用同一套系統同時做 影片生成指令式影片編輯。 它想解決的痛點很直接:你不需要在「文字轉影片」、「參考圖轉影片」、「影片編輯」、「鏡頭延伸」等模式之間來回切換。O1 的核心理念更像是:

直接丟給它文字+圖片+影片參考+主體參考,然後像導演一樣在同一條工作流裡持續迭代。

這個方向,也跟快手(Kuaishou)對 Kling 演進路線的描述一致:圍繞 MVL(Multi-modal Visual Language,多模態視覺語言),用文字搭配視覺參考去表達身份、風格、場景、動作與攝影意圖,讓模型「聽得懂你在導戲」。


Kling O1(Omni One)是什麼?白話版解釋

把 O1 想成 Kling 在嘗試打造一個「從創造到修改,端到端完成」的單一模型。也就是說,它不只會生影片,還要能在同一系統裡把影片修到可用、修到完成。

在指南中,O1 希望可以一口氣涵蓋:

  • 從文字生成全新鏡頭(Text-to-Video)
  • 從參考(圖片/影片)生成(Reference-to-Video)
  • 首幀/尾幀 推出鏡頭(First/Last-Frame to Video)
  • 在影片中 加入/移除 物件或人物(Add/Remove)
  • 套用 修改/變形(外觀變化、局部改動、轉換)
  • 風格重繪(整段換風格)
  • 鏡頭延伸(延長動作與節奏)

重點是:這些不是拆成各自的工具,而是綁在同一個統一模型底下,讓你用同一套「指令語言」去完成整個片段。


核心理念:MVL(多模態視覺語言)

O1 的交互框架強調:你給的內容不是「素材丟進流程」而已,而是帶約束的指令

  • 文字=高層導演指令(你要的故事、節奏、攝影語言)
  • 圖像/影片參考=視覺約束(畫面長什麼樣、風格長什麼樣)
  • 主體參考=身份錨點(臉、衣服、道具要一致)

快手對 MVL 的說法也很像:把文字與視覺參考一起整合,用來表達身份、外觀、風格、場景、動作、表情、鏡頭運動等多維度意圖。

如果把它翻成創作者能懂的畫面,O1 想做的是這種體驗:

「主角臉要一樣、夾克也要同一件。把旁邊路人移掉,改成金色時光,鏡頭推近,然後把鏡頭再延長一段。」

而不是你還得把片段丟到剪輯器裡做遮罩、拉關鍵幀、再重渲染。


O1 想把哪些能力「整合在同一個模型」?

指南中明確寫到,O1 的統一範圍包括:

  • text-to-video
  • reference-to-video
  • first/last-frame to video
  • video add/remove
  • video modification & transformation
  • style repaint
  • shot extension

這個「全能能力堆疊」的意義是:O1 不只是比拼「首幀畫得多漂亮」,而是看你能不能在模型內部一路迭代,最後把片段修到可以交付、可以上架


一句話編輯:把後製變成聊天

指南對創作者最有吸引力的承諾之一,就是「單句編輯」:你用自然語言對現有影片下指令,例如:

  • 移除路人
  • 改成晚上/黃昏
  • 換衣服/換材質
  • 整段換風格
  • 把鏡頭拉長、節奏更慢/更快

如果這真的做到位,會直接改變內容製作的成本結構:

  • 少花時間學剪輯器的技巧(遮罩、追蹤、合成、關鍵幀)
  • 多花時間做故事、節奏、構圖與版本迭代
  • 廣告 A/B 測試效率暴增(同一基礎片段快速生成多個變體)

O1 最想解決的硬仗:一致性

目前大多數 AI 影片系統最容易翻車的,就是觀眾一眼就會發現的「不連貫」:

  • 臉部細節微妙變化
  • Logo/字樣扭曲
  • 服裝顏色漂移
  • 道具瞬移
  • 背景建築變形

O1 指南特別提到會加強模型對輸入的理解,並強調 多視角主體創建(從多角度建立主體身份),用來提升鏡頭間一致性。

而這也凸顯「統一模型」為什麼重要: 如果生成與編輯共享同一套主體表示,你在修改片段時就不用每次都「重新捏一次角色」。


「技能組合」:一次把多個任務疊在一起做

指南還有一個細節很關鍵:O1 強調可以組合任務,例如:

  • 一邊加入主體、一邊換背景
  • 一邊用參考圖生成、一邊套風格重繪
  • 一次同時完成移除+改光線+延長鏡頭

這看起來只是功能堆疊,但對大量產出的人非常有感:

  • 少掉「生成 → 導出 → 編輯 → 再導入」的跳轉
  • 減少浪費在中間步驟的生成次數
  • 每次迭代能產出更多可用版本(不是只有一個結果)

未來方向值得觀察什麼?

指南提到新的 “omni/new” 工作流路徑,暗示 Kling 可能會把生成與編輯整合到一個「omni 中樞」,而不是分割成多個模式工具。

MVL 框架也反映 Kling 更大的野心:讓你用多模態約束去做「導演式控制」,而不是只靠一句短提示碰碰運氣。


Kling O1 最可能真正有價值的使用情境

1)短篇敘事內容(多鏡頭連貫)

重複出現的角色、連續的動作節奏,最吃「主體錨定」+「鏡頭延伸」。

2)產品/品牌廣告(變體量產)

如果能做到:「同一產品、換場景、換光線、去反光、加手持道具」,就能從一支基礎片段長出多個投放版本。

3)社群高產工作流

一個主打片段,快速變出 10 個版本:不同風格、不同時間、不同背景、移除文字、延長節奏……全程不靠傳統剪輯器也能跑完。

4)前期預視/分鏡(Previs)

用來探索鏡頭運動、氛圍、節奏與佈局,讓後續拍攝或正式製作更好決策。


快速起步提示範本(MVL 友好)

A)基線鏡頭(先把身份鎖死)

用「主體參考+文字」先建立基礎鏡頭:

  • 場景、時間/光線、構圖+鏡頭運動、動作、情緒
  • 否定約束:不要臉漂移、不要衣服顏色變、不要 Logo 變形

B)編輯通道(單句後製)

用一句話改動,但要求保持一致:

「移除 X、改成 Y、主體身份與服裝保持不變。」

C)延長鏡頭(續動作)

延長 2–4 秒,要求動作與風格延續:

「延長 2–4 秒,繼續動作,風格一致,動作流暢。」

這正是 O1 想要統一的「指令+參考」交互模式。


現在就能在 Flux AI 先用 Kling 模型(推薦)

如果你想在 O1(Omni One) 方向正式落地前就先開始做內容,現在可以先用這些 Kling 選項:

Android 和 iOS 版 Flux AI 手機應用

立即下載 Flux AI 手機應用,使用 Flux AI 強大的工具—激發你的創造力,將文字轉化為令人驚嘆的視覺效果!

在網頁應用開始使用
flux-ai-app-download

Flux AI 進階圖片與影片 AI 工具

使用 Flux AI 強大的工具創作驚豔圖片與吸睛影片。發揮您的創意,體驗我們先進的 AI 科技。

Flux 圖片 AI 工具

利用 Flux AI 的文字轉圖與圖轉圖技術,立即生成驚豔圖片。

Flux AI 圖片生成器

Flux 影片 AI 工具

利用 Flux AI 的文字轉影片與圖轉影片技術,創造魔幻動畫影片。

Flux AI 影片生成器

Flux Kontext

使用 Flux AI 強大的工具創作驚豔圖片與吸睛影片。發揮您的創意,體驗我們先進的 AI 科技。

Flux AI 圖片生成器

Android 和 iOS 版 Flux AI 手機應用

立即下載 Flux AI 手機應用,使用 Flux AI 強大的工具—激發你的創造力,將文字轉化為令人驚嘆的視覺效果!

在網頁應用開始使用
flux-ai-app-download

立即開始使用 Flux AI 創作

現在免費試用 Flux AI。