Kling’s O1 (Omni One) กำลังได้รับการอธิบาย (ในคู่มือสไตล์เบต้า/ภายใน) ว่าเป็น แบบจำลองพื้นฐานวิดีโอมัลติ-โหมดแบบรวม—ระบบเดียวที่ออกแบบมาเพื่อจัดการทั้ง การสร้างวิดีโอ และ การแก้วิดีโอตามคำสั่ง ผ่านภาษาปฏิสัมพันธ์ชุดเดียว แทนที่จะต้องสลับระหว่างโหมด “text-to-video,” “reference-to-video,” “video edit,” และ “extend shot” ในเครื่องมือต่าง ๆ จุดขายของ O1 คือ: ให้มันได้รับข้อความ + รูปภาพ + วิดีโออ้างอิง + การอ้างอิงเรื่อง และทำซ้ำเหมือนผู้กำกับในเวิร์กโฟลว์ต่อเนื่องชุดเดียว
ทิศทางนี้ยังสอดคล้องกับที่ Kuaishou อธิบายวิวัฒนาการของ Kling รอบ MVL (Multi-modal Visual Language): การแสดงออกอัตลักษณ์ สไตล์ ฉาก การกระทำ และเจตนากล้องโดยการผสมผสานข้อความกับภาพอ้างอิง
Kling O1 (Omni One) คืออะไร โดยภาษาง่าย ๆ?
คิดว่า O1 คือการพยายามเป็น แบบจำลองเดียวที่ทำ “สร้าง + แก้ไข” จบในที่เดียว:
- สร้างช็อตใหม่จากข้อความ
- สร้างจากอ้างอิง (รูปภาพ/วิดีโอ)
- สร้างช็อตจาก เฟรมแรก/สุดท้าย
- เพิ่ม/ลบ วัตถุหรือคนในวิดีโอ
- ใช้ การเปลี่ยนแปลง (เปลี่ยนแปลงรูปลักษณ์, แก้ไข)
- ทาสีสไตล์ใหม่ (เปลี่ยนสไตล์คลิป)
- ต่อช็อต เพื่อสานต่อการเคลื่อนไหวและจังหวะ
ทั้งหมดนี้ถูกรวมไว้ในรายการงานที่รองรับภายในคู่มือ ภายใต้ร่มของแบบจำลองเดี่ยวเชิงรวม ไม่ใช่ระบบแยกเฉพาะทาง
แนวคิดใหญ่เบื้องหลัง: MVL (Multi-modal Visual Language)
คู่มือ O1 กำหนดการปฏิสัมพันธ์แบบนี้: อินพุตของคุณไม่ใช่ “ทรัพยากร” ที่คุณโยนเข้าไปในเวิร์กโฟลว์ แต่มันคือ คำสั่ง ข้อความคือแผนระดับสูง; รูปภาพ/วิดีโออ้างอิงให้ข้อจำกัดเชิงภาพ; การอ้างอิงเรื่องยึดอัตลักษณ์ไว้
กรอบ MVL ของ Kuaishou คล้ายกัน: ถูกออกแบบมาเพื่อช่วยให้ผู้ใช้สื่อสารเจตนาสร้างสรรค์หลายมิติ—อัตลักษณ์ รูปลักษณ์ สไตล์ ฉาก การกระทำ อารมณ์ และการเคลื่อนไหวของกล้อง—โดยการรวมข้อมูลมัลติ-โหมดเช่นภาพอ้างอิงและคลิปวิดีโอเข้าด้วยกัน
ในทางปฏิบัติ O1 มุ่งหมายให้เป็นประสบการณ์ที่ใกล้เคียงกับ:
“เก็บหน้าฮีโร่ของฉันให้คงที่, ใส่แจ็กเก็ตตัวเดิม, ลบคนเดินผ่านมา, เปลี่ยนเป็นแสงโกลเด้นอาวร์, และต่อช็อตพร้อมการเคลื่อนกล้องเข้ามา”
…แทนที่จะต้องส่งออกสู่โปรแกรมตัดต่อ, ทำมาสก์, กำหนดคีย์เฟรม และเรนเดอร์ใหม่
สิ่งที่ O1 อ้างว่าสามารถรวมกันได้ (“กองความสามารถแบบ all-in-one”)
คู่มือระบุขอบเขตที่พยายามรวมคือ:
- text to video ai
- reference to video ai
- video to video ai (เฟรมแรก/สุดท้ายถึงวิดีโอ)
- video object removal ai
- video background change ai
- video modification & transformation (ปรับแต่งและเปลี่ยนแปลง)
- style repaint video
- shot extension ai
การรวมรายการนี้มีความสำคัญเพราะหมายความว่า O1 ไม่ได้แข่งแค่เรื่อง “ภาพเรนเดอร์แรกสวยแค่ไหน” แต่แข่งในเรื่องว่าคุณสามารถ จบ คลิปด้วยการแก้ไขซ้ำๆ โดยไม่ต้องออกจากแบบจำลองนี้ได้หรือไม่
การแก้ไขด้วยประโยคเดียว: เปลี่ยนหลังการผลิตให้เหมือนสนทนา
หนึ่งในสัญญาที่เกี่ยวข้องกับผู้สร้างมากที่สุดในคู่มือคือแนวคิดการแก้ไขด้วย ประโยคเดียว—คำขอภาษาธรรมชาติ เช่น ลบคนเดินผ่าน เปลี่ยนเวลา แปลงชุด/สไตล์—ที่ใช้กับวิดีโอต้นฉบับโดยตรง
ถ้าทำได้จริง มันจะเปลี่ยนเศรษฐศาสตร์ของการสร้างเนื้อหาได้อย่างมาก:
- ใช้เวลาน้อยลงในการเรียนรู้เทคนิคเฉพาะโปรแกรมตัดต่อ
- ใช้เวลามากขึ้นในการแก้ไขเรื่องราว จังหวะ และมุมกล้อง
- ทดลอง A/B สำหรับโฆษณาได้เร็วขึ้น (หลายเวอร์ชันจากคลิปพื้นฐานเดียวกัน)
ปัญหาที่ยากที่สุดที่ O1 มุ่งแก้ไข: ความสอดคล้อง
ระบบวิดีโอ AI ส่วนใหญ่ยังคงมีปัญหาเรื่องสิ่งที่ผู้ชมสังเกตได้ทันที: ความต่อเนื่อง
- ใบหน้าเปลี่ยนเล็กน้อย
- โลโก้บิดเบี้ยว
- สีชุดคลายเคลื่อน
- อุปกรณ์เคลื่อนที่ข้ามช็อต
- พื้นหลังสถาปัตยกรรมละลาย
คู่มือ O1 เน้นการเข้าใจอินพุตอย่างลึกซึ้งและ multi view subject reference (การสร้างอัตลักษณ์เรื่องจากหลายมุม) เพื่อเพิ่มความสอดคล้องในทุกช็อต
นี่คือเหตุผลที่คำว่า “รวมเป็นหนึ่ง” สำคัญ: ถ้าการสร้างและแก้ไขใช้ตัวแทนภายในเดียวกันของเรื่องของคุณ คุณจะมีโอกาสมากขึ้นในการแก้ไขคลิป โดยไม่ต้องสร้างอัตลักษณ์ตัวละครใหม่ทุกครั้ง
“การรวมทักษะ”: สะสมงานในรอบเดียว
จุดที่ละเอียดแต่สำคัญ: คู่มือเน้นว่าคุณสามารถ รวมงานหลายอย่าง เช่น การเพิ่มเรื่องกับการเปลี่ยนฉากพร้อมกัน หรือสร้างจากอ้างอิงภาพ พร้อมกับ เปลี่ยนสไตล์
เรื่องนี้ดูเหมือนเล็กน้อย จนกว่าคุณจะต้องผลิตในปริมาณมาก การดำเนินงานรวมหลายอย่างหมายถึง:
- ลดการ “สร้าง → ส่งออก → แก้ไข → นำเข้าใหม่”
- ลดการเสียของการสร้างภาพกลางระหว่างขั้นตอน
- มีตัวแปรที่ใช้งานได้มากขึ้นต่อรอบการแก้ไข
สิ่งที่ควรจับตามองต่อไป (ทิศทางผลิตภัณฑ์)
คู่มืออ้างถึงเวิร์กโฟลว์การสร้าง “omni/new” ใหม่ ซึ่งแนะนำศูนย์กลาง “omni” ที่การสร้างและแก้ไขทำงานร่วมกัน แทนที่จะแยกโหมดต่างหาก
และกรอบ MVL นั้นสอดคล้องกับแนวโน้มกว้างของ Kling ที่มุ่งไปสู่การ “กำกับด้วยข้อจำกัดมัลติ-โหมด” ไม่ใช่แค่การพิมพ์คำสั่ง
ที่ที่ Kling O1 น่าจะมีบทบาทที่สุด: กรณีใช้จริง
1) เนื้อเรื่องสั้น (ความต่อเนื่องหลายช็อต)
ตัวละครซ้ำและลำดับที่สอดคล้องกันได้ประโยชน์มากจากการยึดเรื่องและการต่อช็อต
2) โฆษณาผลิตภัณฑ์และแบรนด์ (สร้างตัวแปร)
ถ้าคุณทำได้: “สินค้าเดิม สภาพแวดล้อมใหม่ แสงต่างกัน ลบเงาสะท้อน เพิ่มมือจับ” คุณสามารถผลิตมุมโฆษณาหลายมุมจากพื้นฐานเดียวกัน
3) เวิร์กโฟลว์โซเชียลแบบจำนวนมาก
คลิปฮีโร่ 1 ตัว แล้ว 10 ตัวแปร: สไตล์ต่าง ๆ เวลาแตกต่าง ฉากเปลี่ยน ข้อความถูกลบ จังหวะกล้องยืดออก—ทั้งหมดโดยไม่ต้องใช้โปรแกรมตัดต่อเต็มรูปแบบ
4) พรีวิส/สตอรี่บอร์ด
สำรวจการเคลื่อนกล้อง, อารมณ์, การวางบล็อก และจังหวะก่อนตัดสินใจขั้นสุดท้าย
รูปแบบพรอมต์เริ่มต้นด่วน (รองรับ MVL)
ก) ช็อตเบื้องต้น (ล็อกอัตลักษณ์ก่อน)
ใช้การอ้างอิงเรื่อง + ข้อความ:
- ฉาก, เวลา/แสง, มุมกล้อง + การเคลื่อนไหว, การกระทำ, อารมณ์
- ข้อจำกัดเชิงลบ: การเปลี่ยนแปลงใบหน้า, สีชุดเลื่อนไหล, โลโก้ผิดรูป
ข) รอบแก้ไข (โพสต์ด้วยประโยคเดียว)
“ลบ X, เปลี่ยน Y, รักษาอัตลักษณ์ไว้เหมือนเดิม”
ค) ต่อช็อต (ดำเนินการเคลื่อนไหว)
“ต่อ 2–4 วินาที, ดำเนินการต่อ, รักษาโทน, เคลื่อนไหวเรียบ”
สิ่งเหล่านี้ตรงกับพฤติกรรมแบบ “คำสั่ง + อ้างอิง” ที่ O1 มุ่งจะรวมกัน
ทดลองแบบจำลอง Kling บน Flux AI (แนะนำ)
ถ้าคุณต้องการเริ่มสร้างวันนี้ ในขณะที่ทิศทาง O1 (Omni One) กำลังพัฒนา ลองตัวเลือกปัจจุบันเหล่านี้:























