Kling 的 O1 (Omni One) 被描述为(在一个测试/内部风格指南中)一个 统一的多模态视频基础模型——一个旨在通过一种交互语言处理 视频生成 和 基于指令的视频编辑 的单一系统。它的理念是不必在不同工具间切换“文本生成视频”、“参考生成视频”、“视频编辑”和“延伸镜头”模式,而是:给它文本 + 图像 + 视频参考 + 主题参考,然后像导演一样在一个连续工作流中迭代。
这个方向也与快手对 Kling 围绕 MVL(多模态视觉语言) 的演进描述相符:通过结合文本和视觉参考表达身份、风格、场景、动作和摄影视角意图。
Kling O1 (Omni One) 是什么?通俗地说
把 O1 想象成试图成为一个 端到端“创作 + 修订”模型:
- 从文本生成全新镜头
- 从参考(图像/视频)生成
- 从 第一帧/最后帧 生成镜头
- 在视频中 添加/移除 物体或人物
- 应用 变换(外观变化、修改)
- 重绘风格(重新塑造剪辑风格)
- 延伸镜头,继续动作及节奏
这些都被指南列为模型支持的任务,归属于单一统一模型,而非独立的专用流程。
核心理念:MVL(多模态视觉语言)
O1 的指南将交互框架表述为:你的输入不是你塞入流程的“素材”,而是指令。文本是高层计划;参考图像/视频提供视觉约束;主题参考固定身份。
快手的 MVL 框架类似:帮助用户通过整合多模态信息(如图像参考和视频剪辑)来传递多维度创意意图——身份、外观、风格、场景、动作、表情、摄影视角。
实际上,O1 追求的体验更接近:
“保持主角脸部一致,保持同款夹克,移除路人,切换为金色时刻光线,并随着镜头推进延伸镜头。”
…而不是导出到编辑器、遮罩、关键帧操作再重新渲染。
O1 声称融合的功能(“一体化能力栈”)
指南明确尝试统一的范围包括:
- text to video ai
- reference to video ai
- first/last-frame to video
- video object removal ai
- ai video editing
- style repaint video
- shot extension ai
将这些合并很关键,因为这意味着 O1 不仅竞争“首帧画质”,更竞争是否能在不退出模型的情况下通过迭代编辑完成一个视频。
一句话编辑:将后期制作变成对话
指南中对创作者最相关的承诺之一是 one sentence video edit——用自然语言命令直接对现有视频进行操作,如移除路人、改变时间、替换服装/风格等。
如果这能实现,将改变内容创作的经济模型:
- 减少学习特定编辑器技巧的时间
- 更多时间迭代故事、节奏和构图
- 更快进行广告 A/B 测试(同一基片多变体)
O1 旨在解决的最难问题:一致性
目前多数 AI 视频系统依然难以解决观众立刻能察觉的问题:连贯性。
- 面部细微变化
- 标志扭曲
- 服装颜色漂移
- 道具瞬移
- 背景建筑变形
O1 指南直接强调加强对输入的理解和 multi view subject reference(多视角主题创建),即从多个角度建立主题身份,以提升镜头间一致性。
这也正是“统一”重要的原因:如果生成和编辑共享对主题的内部表征,每次修改就不必重新“塑造角色身份”。
“技能组合”:单次流程叠加任务
一个细节但很重要:指南强调你可以 叠加任务,比如同时做人物添加 和 背景替换,或者在基于图像参考生成的同时进行风格重塑。
这听上去不起眼,但在大规模生产时意味着:
- 减少“生成 → 导出 → 编辑 → 重新导入”的跳转
- 减少在中间步骤浪费的生成
- 每个迭代周期产生更多可用变体
接下来关注点(产品方向)
指南提及了一个更新的“omni/new”创作工作流路径,暗示一个“omni”中心,生成和编辑共存,而非拆成独立模式。
MVL 框架与 Kling 向“用多模态约束进行导演”而非仅仅输入提示这一更广方向一致。
Kling O1 最可能应用的场景
1) 短篇叙事内容(多镜头连贯)
反复出现的角色和连贯场景受益于主题锚定+镜头延伸。
2) 产品和品牌广告(变体生成)
能做到:“同款产品,新环境,不同光照,去除反光,加手持”——即可基于单一基片生成多角度广告。
3) 社交高频工作流
一个“主片”,然后生成十个变体:不同风格、时间、背景、移除文字、延长摄像节奏——无需完整编辑流水线。
4) 预演 / 分镜头脚本
在确定最终序列前探索镜头移动、氛围、布景和节奏。
快速入门提示模式(MVL 友好)
A) 基线镜头(先锁定身份)
用主题参考 + 文本:
- 场景、时间/光照、摄像构图+运动、动作、氛围
- 负面约束:面部漂移、服装色彩变化、标志变形
B) 编辑流程(一句话后期)
“移除 X,更改 Y,保持身份不变。”
C) 延伸镜头(继续动作)
“延长 2–4 秒,继续动作,保持调性,平滑运动。”
这些恰好对应 O1 力图统一的“指令 + 参考”范式。
现在就在 Flux AI 试用 Kling 模型(推荐)
如果想在 O1 (Omni One) 方向持续演进期间开始生成视频,试试这些现有选项:























