Kling’s O1 (Omni One) sedang dijelaskan (dalam panduan gaya beta/internal) sebagai sebuah kling o1 video model multimodal video foundation model terpadu—sistem tunggal yang dirancang untuk menangani video generation dan instruction-based video editing melalui satu bahasa interaksi. Alih-alih berpindah-pindah antara mode “text-to-video,” “reference-to-video,” “video edit,” dan “extend shot” di berbagai alat, pitch O1 adalah: beri dia teks + gambar + referensi video + referensi subjek, dan lakukan iterasi seperti seorang sutradara dalam satu alur kerja yang berkesinambungan.
Arah ini juga cocok dengan bagaimana Kuaishou menggambarkan evolusi Kling di sekitar mvl multi modal visual language: mengekspresikan identitas, gaya, adegan, aksi, dan niat kamera dengan menggabungkan teks dengan referensi visual.
Apa itu kling o1 (omni one), dalam bahasa yang sederhana?
Bayangkan O1 berusaha menjadi satu model yang melakukan “create + revise” dari awal sampai akhir:
- Menghasilkan bidikan baru dari teks
- Menghasilkan dari referensi (gambar/video)
- Membuat bidikan dari frame pertama/terakhir
- Menambah/menghapus objek atau orang dalam video
- Menerapkan transformasi (perubahan tampilan, modifikasi)
- Mengganti gaya (mengubah gaya klip)
- Memperpanjang bidikan untuk melanjutkan gerakan dan tempo
Semua itu tercantum bersama sebagai tugas yang didukung dalam panduan, di bawah payung satu model terpadu ketimbang pipeline khusus terpisah.
Ide besar di baliknya: mvl multi modal visual language
Panduan O1 membingkai interaksi seperti ini: input Anda bukan “aset” yang Anda masukkan ke dalam alur kerja—mereka adalah instruksi. Teks adalah rencana tingkat tinggi; gambar/video referensi menyediakan batasan visual; referensi subjek mengikat identitas.
Pemikiran mvl multi modal visual language dari Kuaishou serupa: bertujuan membantu pengguna menyampaikan niat kreatif multidimensi—identitas, penampilan, gaya, adegan, aksi, ekspresi, dan gerakan kamera—dengan mengintegrasikan informasi multimodal seperti referensi gambar dan klip video.
Dalam praktiknya, O1 mengincar pengalaman yang lebih dekat dengan:
“Pertahankan konsistensi wajah pahlawan saya, tetapkan jaket yang sama, sekarang hapus orang yang lewat, ubah pencahayaan seperti saat golden hour, dan perpanjang bidikan saat kamera mendekat.”
…daripada mengekspor ke editor, masking, keyframing, dan re-rendering.
Apa yang diklaim O1 gabungkan (“tumpukan kapabilitas serba satu”)
Panduan secara eksplisit menyebutkan cakupan yang berusaha disatukan:
- text to video ai
- reference to video ai
- first/last-frame to video
- video to video ai (menambah/menghapus video)
- video modification & transformation
- style repaint video
- shot extension ai
Menggabungkan daftar ini penting karena menunjukkan O1 tidak hanya bersaing pada “seberapa indah render pertama,” tetapi juga apakah Anda bisa menyelesaikan sebuah klip melalui edit iteratif tanpa meninggalkan model.
Editing satu kalimat: mengubah pascaproduksi menjadi percakapan
Salah satu janji paling relevan bagi kreator dalam panduan adalah ide edit satu kalimat—permintaan berbahasa alami seperti menghapus pejalan kaki, mengubah waktu hari, mengganti pakaian/gaya—yang diterapkan langsung ke video yang sudah ada.
Jika berhasil, ini mengubah ekonomi penciptaan konten:
- Lebih sedikit waktu mempelajari teknik khusus editor
- Lebih banyak waktu mengitari cerita, tempo, dan framing
- Pengujian A/B lebih cepat untuk iklan (beberapa varian dari klip dasar yang sama)
Masalah tersulit yang ditargetkan O1: konsistensi
Sebagian besar sistem video AI masih berjuang dengan hal yang langsung diperhatikan oleh audiens: kontinuitas.
- Wajah berubah secara halus
- Logo melengkung
- Warna pakaian bergeser
- Properti teleportasi
- Arsitektur latar mencair
Panduan O1 secara langsung menekankan pemahaman yang lebih kuat terhadap input dan multi view subject reference (membangun identitas subjek dari berbagai sudut) untuk meningkatkan konsistensi antar bidikan.
Ini juga alasan mengapa “terpadu” penting: jika generasi dan edit menggunakan representasi internal subjek yang sama, Anda memiliki peluang lebih baik untuk memodifikasi klip tanpa harus mengulang identitas karakter setiap kali.
“Kombinasi keterampilan”: menggabungkan tugas dalam satu tahap
Poin kecil namun penting: panduan menyoroti bahwa Anda bisa menggabungkan tugas, seperti menambah subjek dan mengubah latar belakang secara bersamaan, atau menghasilkan dari referensi gambar sambil mengubah gaya.
Hal ini terdengar kecil sampai Anda membuat produksi dalam skala besar. Operasi bertumpuk bisa berarti:
- Lebih sedikit hop “generate → export → edit → reimport”
- Lebih sedikit generasi yang terbuang pada langkah perantara
- Lebih banyak varian yang bisa digunakan per siklus iterasi
Apa yang perlu diperhatikan selanjutnya (arah produk)
Panduan menyebut jalur alur kerja kreasi “omni/new” yang lebih baru, menyiratkan hub “omni” di mana generasi dan editing hidup bersama alih-alih dipisah dalam mode berbeda.
Dan bingkai mvl multi modal visual language konsisten dengan lintasan lebih luas Kling menuju “mengarah dengan batasan multimodal,” bukan hanya mengetik prompt.
Tempat kling o1 paling penting: kasus penggunaan praktis
1) Konten naratif pendek (kontinuitas multi-bidikan)
Karakter berulang dan urutan koheren mendapat manfaat paling besar dari penambatan subjek + perpanjangan bidikan.
2) Iklan produk dan merek (generasi varian)
Jika Anda bisa melakukan: “produk sama, lingkungan baru, pencahayaan berbeda, hapus pantulan, tambah tangan yang memegang,” Anda bisa membuat berbagai sudut iklan dari satu basis.
3) Alur kerja volume sosial
Satu “klip pahlawan,” lalu 10 varian: gaya berbeda, waktu berbeda, latar belakang berbeda, teks dihapus, tempo kamera diperpanjang—semua tanpa pipeline editor penuh.
4) Previs / storyboard
Jelajahi gerakan kamera, suasana, penempatan, dan tempo sebelum berkomitmen pada urutan akhir.
Pola prompt cepat mulai (ramah mvl multi modal visual language)
A) Bidikan dasar (kunci identitas dulu)
Gunakan referensi subjek + teks:
- Adegan, waktu/pencahayaan, framing + gerakan kamera, aksi, suasana
- Batasan negatif: pergeseran wajah, perubahan warna pakaian, deformasi logo
B) Tahap edit (post-produksi satu kalimat)
“Hapus X, ubah Y, pertahankan identitas tetap sama.”
C) Perpanjang bidikan (lanjutkan gerakan)
“Perpanjang 2–4 detik, lanjutkan aksi, jaga nada, gerakan halus.”
Ini sesuai dengan perilaku “instruksi + referensi” yang ingin disatukan oleh O1.
Coba model kling sekarang di Flux AI (direkomendasikan)
Jika Anda ingin mulai menghasilkan hari ini sementara arah kling o1 (omni one) berkembang, coba opsi-opsi berikut:























