Kling 的 O1(Omni One) 在 beta/內部風格指南裡,被定位成一款 「統一的多模態影片基礎模型」——用同一套系統同時做 影片生成 與 指令式影片編輯。 它想解決的痛點很直接:你不需要在「文字轉影片」、「參考圖轉影片」、「影片編輯」、「鏡頭延伸」等模式之間來回切換。O1 的核心理念更像是:
直接丟給它文字+圖片+影片參考+主體參考,然後像導演一樣在同一條工作流裡持續迭代。
這個方向,也跟快手(Kuaishou)對 Kling 演進路線的描述一致:圍繞 MVL(Multi-modal Visual Language,多模態視覺語言),用文字搭配視覺參考去表達身份、風格、場景、動作與攝影意圖,讓模型「聽得懂你在導戲」。
Kling O1(Omni One)是什麼?白話版解釋
把 O1 想成 Kling 在嘗試打造一個「從創造到修改,端到端完成」的單一模型。也就是說,它不只會生影片,還要能在同一系統裡把影片修到可用、修到完成。
在指南中,O1 希望可以一口氣涵蓋:
- 從文字生成全新鏡頭(Text-to-Video)
- 從參考(圖片/影片)生成(Reference-to-Video)
- 從 首幀/尾幀 推出鏡頭(First/Last-Frame to Video)
- 在影片中 加入/移除 物件或人物(Add/Remove)
- 套用 修改/變形(外觀變化、局部改動、轉換)
- 風格重繪(整段換風格)
- 鏡頭延伸(延長動作與節奏)
重點是:這些不是拆成各自的工具,而是綁在同一個統一模型底下,讓你用同一套「指令語言」去完成整個片段。
核心理念:MVL(多模態視覺語言)
O1 的交互框架強調:你給的內容不是「素材丟進流程」而已,而是帶約束的指令。
- 文字=高層導演指令(你要的故事、節奏、攝影語言)
- 圖像/影片參考=視覺約束(畫面長什麼樣、風格長什麼樣)
- 主體參考=身份錨點(臉、衣服、道具要一致)
快手對 MVL 的說法也很像:把文字與視覺參考一起整合,用來表達身份、外觀、風格、場景、動作、表情、鏡頭運動等多維度意圖。
如果把它翻成創作者能懂的畫面,O1 想做的是這種體驗:
「主角臉要一樣、夾克也要同一件。把旁邊路人移掉,改成金色時光,鏡頭推近,然後把鏡頭再延長一段。」
而不是你還得把片段丟到剪輯器裡做遮罩、拉關鍵幀、再重渲染。
O1 想把哪些能力「整合在同一個模型」?
指南中明確寫到,O1 的統一範圍包括:
- text-to-video
- reference-to-video
- first/last-frame to video
- video add/remove
- video modification & transformation
- style repaint
- shot extension
這個「全能能力堆疊」的意義是:O1 不只是比拼「首幀畫得多漂亮」,而是看你能不能在模型內部一路迭代,最後把片段修到可以交付、可以上架。
一句話編輯:把後製變成聊天
指南對創作者最有吸引力的承諾之一,就是「單句編輯」:你用自然語言對現有影片下指令,例如:
- 移除路人
- 改成晚上/黃昏
- 換衣服/換材質
- 整段換風格
- 把鏡頭拉長、節奏更慢/更快
如果這真的做到位,會直接改變內容製作的成本結構:
- 少花時間學剪輯器的技巧(遮罩、追蹤、合成、關鍵幀)
- 多花時間做故事、節奏、構圖與版本迭代
- 廣告 A/B 測試效率暴增(同一基礎片段快速生成多個變體)
O1 最想解決的硬仗:一致性
目前大多數 AI 影片系統最容易翻車的,就是觀眾一眼就會發現的「不連貫」:
- 臉部細節微妙變化
- Logo/字樣扭曲
- 服裝顏色漂移
- 道具瞬移
- 背景建築變形
O1 指南特別提到會加強模型對輸入的理解,並強調 多視角主體創建(從多角度建立主體身份),用來提升鏡頭間一致性。
而這也凸顯「統一模型」為什麼重要: 如果生成與編輯共享同一套主體表示,你在修改片段時就不用每次都「重新捏一次角色」。
「技能組合」:一次把多個任務疊在一起做
指南還有一個細節很關鍵:O1 強調可以組合任務,例如:
- 一邊加入主體、一邊換背景
- 一邊用參考圖生成、一邊套風格重繪
- 一次同時完成移除+改光線+延長鏡頭
這看起來只是功能堆疊,但對大量產出的人非常有感:
- 少掉「生成 → 導出 → 編輯 → 再導入」的跳轉
- 減少浪費在中間步驟的生成次數
- 每次迭代能產出更多可用版本(不是只有一個結果)
未來方向值得觀察什麼?
指南提到新的 “omni/new” 工作流路徑,暗示 Kling 可能會把生成與編輯整合到一個「omni 中樞」,而不是分割成多個模式工具。
MVL 框架也反映 Kling 更大的野心:讓你用多模態約束去做「導演式控制」,而不是只靠一句短提示碰碰運氣。
Kling O1 最可能真正有價值的使用情境
1)短篇敘事內容(多鏡頭連貫)
重複出現的角色、連續的動作節奏,最吃「主體錨定」+「鏡頭延伸」。
2)產品/品牌廣告(變體量產)
如果能做到:「同一產品、換場景、換光線、去反光、加手持道具」,就能從一支基礎片段長出多個投放版本。
3)社群高產工作流
一個主打片段,快速變出 10 個版本:不同風格、不同時間、不同背景、移除文字、延長節奏……全程不靠傳統剪輯器也能跑完。
4)前期預視/分鏡(Previs)
用來探索鏡頭運動、氛圍、節奏與佈局,讓後續拍攝或正式製作更好決策。
快速起步提示範本(MVL 友好)
A)基線鏡頭(先把身份鎖死)
用「主體參考+文字」先建立基礎鏡頭:
- 場景、時間/光線、構圖+鏡頭運動、動作、情緒
- 否定約束:不要臉漂移、不要衣服顏色變、不要 Logo 變形
B)編輯通道(單句後製)
用一句話改動,但要求保持一致:
「移除 X、改成 Y、主體身份與服裝保持不變。」
C)延長鏡頭(續動作)
延長 2–4 秒,要求動作與風格延續:
「延長 2–4 秒,繼續動作,風格一致,動作流暢。」
這正是 O1 想要統一的「指令+參考」交互模式。
現在就能在 Flux AI 先用 Kling 模型(推薦)
如果你想在 O1(Omni One) 方向正式落地前就先開始做內容,現在可以先用這些 Kling 選項:






















