يتم وصف O1 (Omni One) من Kling (في دليل بنسخة تجريبية / داخلية) كنموذج أساسي موحد متعدد الوسائط للفيديو — نظام واحد مخصص للتعامل مع كل من توليد الفيديو و تحرير الفيديو المستند إلى التعليمات من خلال لغة تفاعل واحدة. بدلاً من التنقل بين أوضاع “النص إلى فيديو”، “المرجع إلى فيديو”، “تحرير الفيديو”، و “تمديد اللقطة” عبر أدوات مختلفة، فإن عرض O1 هو: أعطه نص + صور + مراجع فيديو + مرجع موضوع، وقم بالتكرار كالمخرج في سير عمل مستمر واحد.
هذا التوجه يتماشى أيضاً مع كيفية وصف كوايشو لتطور Kling حول mvl multi modal visual language: التعبير عن الهوية، الأسلوب، المشهد، الحركة، ونية الكاميرا من خلال الجمع بين النص والمراجع البصرية.
ما هو kling o1 (omni one)، بلغة بسيطة؟
فكّر في O1 كنموذج واحد يحاول تنفيذ “إنشاء + مراجعة” شاملة من البداية للنهاية:
- توليد لقطة جديدة من نص
- توليد من المراجع (صورة / فيديو)
- إنشاء لقطة من الإطارات الأولى / الأخيرة
- إضافة / إزالة أشياء أو أشخاص في الفيديو
- تطبيق تحولات (تغييرات مظهر، تعديلات)
- إعادة طلاء الأسلوب (إعادة تصميم المقطع)
- تمديد اللقطة لمتابعة الحركة والإيقاع
كل هذه مهام مدرجة معاً كمهام مدعومة داخل الدليل، تحت مظلة نموذج موحد واحد بدلاً من خطوط أنابيب متخصصة منفصلة.
الفكرة الكبرى تحتها: mvl multi modal visual language
يقدم دليل O1 التفاعل بهذا الشكل: مدخلاتك ليست “أصول” تسقطها في سير العمل — بل هي تعليمات. النص هو الخطة عالية المستوى؛ صورة / فيديو المرجع يوفر قيودًا بصرية؛ مرجع الموضوع يثبت الهوية.
إطار عمل mvl من كوايشو مشابه: يهدف إلى مساعدة المستخدمين على نقل نوايا إبداعية متعددة الأبعاد — الهوية، المظهر، الأسلوب، المشاهد، الأفعال، التعبيرات، وحركة الكاميرا — عبر دمج معلومات متعددة الوسائط مثل مراجع الصور ومقاطع الفيديو.
عمليًا، يهدف O1 إلى تجربة أقرب إلى:
“حافظ على وجه بطلي متناسقًا، حافظ على نفس السترة، الآن أزل المارة، غيّر الإضاءة إلى ساعة الغروب، وامتد باللقطة مع اقتراب الكاميرا.”
…بدلاً من التصدير إلى محرر، الاستخدام القناع، الرسم الإطاري، وإعادة التقديم.
ما الذي يزعم O1 أنه يجمعه (مجموعة القدرات المتكاملة “الكل في واحد”)
الدليل صريح بشأن النطاق الذي يحاول توحيده:
- text to video ai
- reference to video ai
- first/last frame to video
- video object removal ai
- ai video editing & transformations
- style repaint video
- shot extension ai
تجميع هذه القائمة مهم لأنه يعني أن O1 لا يتنافس فقط على “مدى جمال التقديم الأول”، بل على ما إذا كان بإمكانك إنهاء المقطع من خلال التحرير التكراري دون ترك النموذج.
تحرير جملة واحدة: تحويل ما بعد الإنتاج إلى دردشة
واحدة من أهم الوعود للمبدعين في الدليل هي فكرة تعديلات بجملة واحدة — طلبات لغوية طبيعية مثل إزالة المارة، تغيير وقت اليوم، تبديل الملابس / الأسلوب — تُطبق مباشرة على فيديو موجود.
إذا نجحت، فإنها تغير اقتصاديات إنشاء المحتوى:
- وقت أقل لتعلم تقنيات المحرر المحددة
- وقت أكثر للتكرار على القصة، الإيقاع، والإطارات
- اختبار A/B أسرع للإعلانات (متغيرات متعددة من نفس المقطع الأساسي)
أصعب مشكلة يهدف إليها O1: التناسق
ما زالت معظم أنظمة الفيديو بالذكاء الاصطناعي تعاني من المشكلة التي يلاحظها الجمهور على الفور: الاستمرارية.
- الوجه يتغير بشكل طفيف
- الشعارات تشوه
- ألوان الملابس تتحول
- الأدوات تنتقل فجأة
- هندسة الخلفية تذوب
يؤكد دليل O1 بشكل مباشر على فهم أقوى للمدخلات و multi view subject reference (بناء هوية الموضوع من زوايا متعددة) لتحسين التناسق عبر اللقطات.
هذا هو السبب أيضًا في أهمية “الموحد”: إذا شارك التوليد والتحرير نفس التمثيل الداخلي لموضوعك، فهناك فرصة أفضل لتعديل المقطع دون إعادة إنشاء هوية شخصيتك في كل مرة.
“مزيج المهارات”: دمج المهام في مرور واحد
نقطة دقيقة لكنها مهمة: يبرز الدليل أنه يمكنك دمج المهام، مثل إضافة موضوع وبالتزامن تغيير الخلفية، أو التوليد من مرجع صورة مع إعادة تصميم الأسلوب.
قد يبدو هذا بسيطًا حتى تبدأ بالإنتاج على نطاق واسع. العمليات المجمعة يمكن أن تعني:
- عدد أقل من قفزات “توليد → تصدير → تحرير → إعادة استيراد”
- هدر أقل في التوليدات على خطوات وسيطة
- مزيد من المتغيرات المستخدمة لكل دورة تكرار
ما الذي يجب مراقبته لاحقًا (اتجاه المنتج)
يذكر الدليل مسار سير عمل “omni/new” جديد للإنشاء، مع اقتراح “omni” كمركز حيث يتعايش التوليد والتحرير معًا بدلاً من الانقسام إلى أوضاع منفصلة.
وإطار mvl يتسق مع مسار Kling الأوسع نحو “الإخراج بقيود متعددة الوسائط”، وليس مجرد كتابة مطالبات.
حيث يمكن أن يكون kling o1 أكثر أهمية: حالات الاستخدام العملية
1) محتوى سردي قصير (استمرارية متعددة اللقطات)
تستفيد الشخصيات المتكررة والمتتاليات المتماسكة أكثر من تثبيت الموضوع + تمديد اللقطة.
2) إعلانات المنتجات والعلامات التجارية (توليد المتغيرات)
إذا كان بإمكانك تنفيذ: “نفس المنتج، بيئة جديدة، إضاءة مختلفة، إزالة الانعكاسات، إضافة يد تمسكه”، يمكنك إنتاج زوايا إعلانية متعددة من نفس الأساس.
3) سير عمل الإنتاج الجماعي الاجتماعي
مقطع “بطل” واحد، ثم 10 متغيرات: أنماط مختلفة، أوقات مختلفة، خلفيات، إزالة نصوص، تمديد إيقاع الكاميرا — كلها دون خط أنابيب محرر كامل.
4) التخطيط المسبق / اللوحات القصة
استكشاف حركات الكاميرا، المزاج، الحجب، والإيقاع قبل الالتزام بتسلسل نهائي.
أنماط الطلب سريعة البدء (ملائمة لـ mvl multi modal visual language)
أ) لقطة أساسية (تثبيت الهوية أولاً)
استخدم مرجع الموضوع + النص:
- المشهد، الوقت / الإضاءة، تأطير الكاميرا + الحركة، الفعل، المزاج
- قيود سلبية: انحراف الوجه، تغير لون الملابس، تشوه الشعار
ب) تمريرة تحرير (جملة واحدة بعد الإنتاج)
“أزل X، غيّر Y، حافظ على الهوية بدون تغيير.”
ج) تمديد اللقطة (متابعة الحركة)
“تمديد 2-4 ثوانٍ، متابعة الفعل، الحفاظ على النغمة، حركة سلسة.”
هذه تتطابق تمامًا مع نوع سلوك “التعليمات + المرجع” الذي يسعى O1 لتوحيده.
جرب نماذج kling الآن على flux ai (موصى به)
إذا كنت تريد البدء في التوليد اليوم بينما يتطور اتجاه O1 (Omni One)، جرب هذه الخيارات الحالية:























