Kling O1 (Omni One): Một Mô Hình Video Đa Modal “Thống Nhất” Muốn Thay Thế Toàn Bộ Hệ Thống Video Của Bạn

Kling O1 (Omni One) nhằm mục đích hợp nhất việc tạo và chỉnh sửa video với MVL—văn bản, hình ảnh và tham chiếu video hoạt động trong một quy trình làm việc liền mạch.

Kling O1 (Omni One): Một Mô Hình Video Đa Modal “Thống Nhất” Muốn Thay Thế Toàn Bộ Hệ Thống Video Của Bạn
Ngày: 2025-11-27

Kling’s O1 (Omni One) được mô tả (trong hướng dẫn dạng beta/nội bộ) như một mô hình nền tảng video đa phương thức hợp nhất—một hệ thống duy nhất nhằm xử lý cả tạo videochỉnh sửa video dựa trên hướng dẫn thông qua một ngôn ngữ tương tác duy nhất. Thay vì phải chuyển đổi giữa các chế độ “chuyển đổi văn bản thành video,” “tham chiếu đến video,” “chỉnh sửa video,” và “mở rộng cảnh quay” trên các công cụ khác nhau, điểm nhấn của O1 là: hãy cung cấp cho nó văn bản + hình ảnh + tham chiếu video + tham chiếu chủ thể, và lặp lại như một đạo diễn trong một quy trình liên tục.

Hướng đi này cũng phù hợp với cách Kuaishou mô tả sự phát triển của Kling xoay quanh MVL (ngôn ngữ thị giác đa phương thức): thể hiện bản sắc, phong cách, cảnh, hành động, và ý định của camera bằng cách kết hợp văn bản với tham chiếu thị giác.


Kling O1 (Omni One) là gì, nói đơn giản?

Hãy nghĩ O1 như một cố gắng để trở thành một mô hình làm “tạo + sửa đổi” từ đầu đến cuối:

  • Tạo một cảnh mới từ văn bản
  • Tạo từ tham chiếu (hình ảnh/video)
  • Tạo cảnh từ khung hình đầu/cuối
  • Thêm/bớt đối tượng hoặc người trong video
  • Áp dụng biến đổi (thay đổi ngoại hình, chỉnh sửa)
  • Vẽ lại phong cách (thay đổi phong cách đoạn clip)
  • Mở rộng cảnh quay để tiếp tục chuyển động và nhịp điệu

Tất cả các tác vụ đó được liệt kê chung như các nhiệm vụ được hỗ trợ trong hướng dẫn, dưới dạng một mô hình hợp nhất duy nhất thay vì các quy trình chuyên biệt riêng lẻ.


Ý tưởng lớn bên dưới: MVL (Ngôn ngữ Thị giác Đa phương thức)

Hướng dẫn của O1 khung tương tác như sau: đầu vào của bạn không phải là “tài sản” để bạn thả vào quy trình—mà là hướng dẫn. Văn bản là kế hoạch tổng thể; hình ảnh/video tham chiếu cung cấp các giới hạn về mặt thị giác; tham chiếu chủ thể làm điểm tựa cho bản sắc.

Khung MVL của Kuaishou tương tự: nó nhằm giúp người dùng truyền tải ý định sáng tạo đa chiều—bản sắc, ngoại hình, phong cách, cảnh, hành động, biểu cảm và chuyển động camera—bằng cách tích hợp các thông tin đa phương thức như tham chiếu hình ảnh và đoạn video.

Trong thực tế, O1 hướng đến trải nghiệm gần hơn với:

“Giữ khuôn mặt nhân vật chính nhất quán, giữ lại chiếc áo khoác như cũ, bây giờ loại bỏ người qua đường, chuyển sang ánh sáng giờ vàng, và mở rộng cảnh quay khi camera tiến lại gần.”

…theo cách này thay vì xuất sang một trình chỉnh sửa, che mặt, đánh khung chính, và kết xuất lại.


O1 tuyên bố kết hợp những gì (“gói năng lực tất cả trong một”)

Hướng dẫn nêu rõ phạm vi mà nó cố gắng hợp nhất:

  • text to video ai
  • reference to video ai
  • first/last frame to video
  • video object removal ai
  • video background change ai
  • style repaint video
  • shot extension ai

Việc quy gộp danh sách này quan trọng vì ngụ ý rằng O1 không chỉ cạnh tranh về “video render đầu ra đẹp thế nào,” mà còn về khả năng bạn hoàn thành một đoạn clip qua các chỉnh sửa lặp lại mà không phải rời khỏi mô hình.


Chỉnh sửa một câu: biến hậu kỳ thành trò chuyện

Một trong những hứa hẹn quan trọng với người sáng tạo trong hướng dẫn là ý tưởng chỉnh sửa một câu duy nhất—yêu cầu bằng ngôn ngữ tự nhiên như loại bỏ người qua đường, thay đổi thời gian trong ngày, thay đổi trang phục/phong cách—được áp dụng trực tiếp lên video có sẵn.

Nếu điều này thành công, nó sẽ thay đổi cơ cấu kinh tế của việc tạo nội dung:

  • Ít thời gian học kỹ thuật chuyên biệt của trình chỉnh sửa
  • Nhiều thời gian hơn để lặp lại về câu chuyện, nhịp điệu và bố cục
  • Thử nghiệm A/B nhanh hơn cho quảng cáo (nhiều phiên bản từ cùng một đoạn gốc)

Vấn đề khó nhất mà O1 hướng đến: tính nhất quán

Hầu hết hệ thống video AI vẫn còn vật lộn với điều mà khán giả nhận ra ngay lập tức: tính liên tục.

  • Khuôn mặt thay đổi nhẹ
  • Logo bị biến dạng
  • Màu sắc trang phục lệch
  • Đạo cụ dịch chuyển
  • Kiến trúc nền bị tan chảy

Hướng dẫn của O1 nhấn mạnh việc hiểu sâu sắc đầu vào và tham chiếu chủ thể đa góc nhìn (xây dựng bản sắc chủ thể từ nhiều góc) để cải thiện tính nhất quán giữa các cảnh.

Đây cũng là lý do “hợp nhất” quan trọng: nếu tạo và chỉnh sửa cùng chia sẻ một biểu diễn nội bộ về chủ thể, bạn có cơ hội cao hơn để sửa đổi clip mà không phải tái tạo lại bản sắc nhân vật mỗi lần.


“Kết hợp kỹ năng”: xếp chồng các tác vụ trong một lần xử lý

Một điểm tinh tế nhưng quan trọng: hướng dẫn nhấn mạnh bạn có thể kết hợp các tác vụ, như thêm chủ thể thay đổi nền cùng lúc, hoặc tạo từ tham chiếu hình ảnh trong khi vẽ lại phong cách.

Điều này nghe có vẻ nhỏ, nhưng khi sản xuất quy mô lớn, các thao tác chồng chéo có thể mang lại:

  • Ít lần phải “tạo → xuất → chỉnh sửa → nhập lại” hơn
  • Ít lần tạo ra sản phẩm lãng phí cho các bước trung gian
  • Nhiều biến thể có thể sử dụng hơn mỗi chu kỳ

Định hướng tiếp theo cần theo dõi (hướng phát triển sản phẩm)

Hướng dẫn đề cập đến đường dẫn quy trình sáng tạo “omni/mới” gần đây, gợi ý một trung tâm “omni” nơi cả tạo và chỉnh sửa tồn tại cùng nhau thay vì tách rời thành các chế độ riêng biệt.

Và khung MVL phù hợp với quỹ đạo rộng hơn của Kling hướng đến “đạo diễn với các giới hạn đa phương thức,” không chỉ là nhập lệnh.


Nơi Kling O1 có thể quan trọng nhất: các trường hợp sử dụng thực tiễn

1) Nội dung tường thuật ngắn (liên tục nhiều cảnh)

Các nhân vật lặp lại và dãy cảnh mạch lạc tận dụng tối đa việc neo chủ thể + mở rộng cảnh quay.

2) Quảng cáo sản phẩm và thương hiệu (tạo biến thể)

Nếu bạn có thể làm: “cùng sản phẩm, môi trường mới, ánh sáng khác, loại bỏ phản chiếu, thêm tay cầm,” bạn có thể tạo nhiều góc quảng cáo từ một đoạn gốc.

3) Quy trình số lượng lớn cho mạng xã hội

Một “đoạn clip chính,” rồi 10 biến thể: phong cách khác, thời gian ngày khác, nền khác, bỏ chữ, nhịp camera kéo dài—tất cả mà không cần pipeline chỉnh sửa đầy đủ.

4) Previs / dựng bản thảo

Khám phá chuyển động camera, không khí, bố trí và nhịp điệu trước khi quyết định chuỗi cảnh cuối cùng.


Mẫu lệnh nhanh bắt đầu (thân thiện với MVL)

A) Cảnh cơ bản (khóa bản sắc trước)

Dùng tham chiếu chủ thể + văn bản:

  • Cảnh, thời gian/ánh sáng, bố cục và chuyển động camera, hành động, tâm trạng
  • Ràng buộc tiêu cực: khuôn mặt trôi, lệch màu trang phục, biến dạng logo

B) Lần chỉnh sửa (hậu kỳ một câu)

“Loại bỏ X, thay đổi Y, giữ nguyên bản sắc.”

C) Mở rộng cảnh (tiếp tục chuyển động)

“Mở rộng 2–4 giây, tiếp tục hành động, giữ tông, chuyển động mượt mà.”

Chúng hoàn toàn phù hợp với loại hành vi “hướng dẫn + tham chiếu” mà O1 đang hướng đến để hợp nhất.


Thử các mô hình Kling ngay trên Flux AI (đề xuất)

Nếu bạn muốn bắt đầu tạo ngay hôm nay trong khi hướng đi O1 (Omni One) đang phát triển, hãy thử các lựa chọn hiện tại:

Ứng dụng di động Android & iOS cho Flux AI

Tải ứng dụng di động Flux AI ngay để sử dụng các công cụ mạnh mẽ của Flux AI—thúc đẩy sáng tạo của bạn với nguồn cảm hứng biến lời thành hình ảnh tuyệt đẹp!

Bắt đầu trên Ứng dụng Web
flux-ai-app-download

Công Cụ AI Ảnh & Video Nâng Cao trên Flux AI

Tạo ra những hình ảnh ấn tượng và video cuốn hút với các công cụ mạnh mẽ của Flux AI. Khơi nguồn sáng tạo với công nghệ AI tiên tiến của chúng tôi.

Công Cụ Ảnh AI Flux

Tạo ảnh tuyệt đẹp ngay lập tức với công nghệ chuyển văn bản thành ảnh và ảnh thành ảnh của Flux AI.

Trình tạo Ảnh Flux AI

Công Cụ Video AI Flux

Tạo video hoạt hình kỳ diệu với công nghệ chuyển văn bản thành video và ảnh thành video của Flux AI.

Trình tạo Video Flux AI

Flux Kontext

Tạo ra những hình ảnh ấn tượng và video cuốn hút với các công cụ mạnh mẽ của Flux AI. Khơi nguồn sáng tạo với công nghệ AI tiên tiến của chúng tôi.

Trình tạo Ảnh Flux AI

Ứng dụng di động Android & iOS cho Flux AI

Tải ứng dụng di động Flux AI ngay để sử dụng các công cụ mạnh mẽ của Flux AI—thúc đẩy sáng tạo của bạn với nguồn cảm hứng biến lời thành hình ảnh tuyệt đẹp!

Bắt đầu trên Ứng dụng Web
flux-ai-app-download

Bắt Đầu Sáng Tạo Với Flux AI Ngay

Dùng thử Flux AI miễn phí ngay bây giờ.