Sejak tahun lalu, model Kecerdasan Buatan (AI) untuk menghasilkan teks, gambar, dan video berkembang pesat. Nyatanya begitu cepat, sehingga semakin sulit untuk mengikutinya. Dibandingkan dengan startup berkecepatan tinggi, raksasa teknologi seperti Google telah memutuskan untuk menempuh jalur ini secara perlahan dan hati-hati. Padahal, hasil penelitian mereka juga mencengangkan. Salah satunya menjanjikan untuk membuat film beresolusi tinggi dari teks dengan AI Google.
Model pembelajaran mendalam baru dari Google harus memungkinkan pengguna menghasilkan video berkualitas tinggi, berdasarkan input teks saja. Pendekatan ini menggabungkan dua proyek teks-ke-video terbaru perusahaan – Imagen Video dan Phenaki. Keduanya masih dalam tahap penelitian & pengembangan, tetapi rendering pertama menunjukkan bahwa AI tersebut dapat menjadi game-changer untuk industri kita. Mari selami dunia baru yang berani ini bersama-sama!
Bagaimana cara membuat film dari teks dengan AI Google?
Teknologi pertama yang harus kita lihat disebut Phenaki. Seperti yang dijelaskan dalam makalah penelitiannya, model ini mampu mengambil beberapa urutan petunjuk teks, membuat hubungan di antara mereka, dan kemudian mensintesis cerita visual yang koheren. Dari luar, sepertinya AI membaca input seperti skrip film biasa dan kemudian memutuskan bagaimana menerjemahkan alur cerita menjadi gambar (terdengar seperti pekerjaan sutradara, bukan?). Misalnya, lihat bagaimana Phenaki mengolah deskripsi berikut: “Tampak samping seorang astronot yang sedang berjalan melewati genangan air di Mars. Astronot menari di Mars; astronot membawa anjingnya berjalan-jalan di Mars; astronot dan anjingnya menonton kembang api.”
Untuk melihatnya bergerak, buka halaman web Phenaki. Di sana Anda juga akan menemukan beberapa tampilan video lainnya, termasuk klip berdurasi lebih dari 2 menit. Saat menonton, harap perhatikan baik-baik betapa briliannya AI menangani transisi yang mulus. Dalam contoh di atas, anjing tidak muncul begitu saja. Itu masuk ke bingkai dari samping, seperti yang dilakukan hewan sungguhan. Tapi tanpa perlu memfilmkan apa pun, dan diproduksi dalam hitungan detik. Satu-satunya batasan yang mengganggu saat menggunakan Phenaki adalah resolusi videonya, yang saat ini hanya 128×128 piksel.
Meningkatkan dengan Imagen Video
Dan di situlah proyek penelitian AI kedua dari Google masuk. Imagen Video adalah sistem generasi yang menggunakan kaskade model difusi video untuk membuat klip pendek definisi tinggi dari prompt teks. Sederhananya, ini mengambil catatan teks Anda, menyandikannya, dan mulai dengan mensintesis video 16 bingkai kecil pada resolusi 40×24 dan 3 fps. Langkah demi langkah, setelah menggunakan beberapa model pembelajaran mendalam untuk memutakhirkan hasilnya, ini dapat menghasilkan video HD normal (1280×768), yang dapat berlangsung hingga 5 detik.
Selebihnya sederhana. Menggabungkan kemampuan Phenaki untuk menghasilkan video multi-urutan panjang dengan kekuatan detalisasi resolusi tinggi Imagen, aman untuk mengatakan, AI akan segera dapat memproduksi seluruh film. Konon, teknologi Google belum tersedia untuk umum. Salah satu kekhawatiran perusahaan adalah model generatif ini dapat disalahgunakan – misalnya, untuk membuat konten palsu atau berbahaya. Itu sebabnya para peneliti memutuskan untuk tidak merilis jaringan saraf atau kode sumber sampai mereka menemukan cara untuk memfilter materi video keluaran.
Namun, dijanjikan bahwa beberapa fitur Imagen & Phenaki akan ditambahkan ke aplikasi AI Test Kitchen. Di sana Anda dapat mempelajari, mengalami, dan memberikan masukan tentang proyek AI Google yang sedang berkembang. Aplikasi saat ini hanya tersedia untuk pengguna AS, tetapi semua orang dapat mendaftarkan minat mereka dan mendapatkan tempat di daftar tunggu di sini.
Teknologi generasi video-ke-video Gen-1 diumumkan
Alat AI besar lainnya untuk membuat video diumumkan oleh Runway, sebuah startup berbasis di New York, yang membantu meluncurkan Stable Diffusion (di samping catatan: jika Anda tidak tahu apa itu, lihat panduan kami tentang cara membuat papan suasana hati menggunakan jaringan saraf ini). Baru-baru ini perusahaan memperkenalkan model baru yang disebut Gen-1, yang secara visual dapat mengubah video yang ada menjadi video yang benar-benar baru dengan perintah teks sederhana.
Di antara fungsi yang diklaimnya:
- Stylization – yang memungkinkan penerapan gaya yang dipilih (dijelaskan dalam teks atau dengan memberi aplikasi gambar tertentu) ke setiap bingkai video;
- Storyboard – fitur yang mengubah mockup yang difilmkan menjadi render animasi penuh;
- Topeng – kemungkinan untuk mengisolasi subjek dalam video dan memodifikasinya dengan beberapa input teks.
Gen-1 juga belum dipublikasikan, tetapi siapa pun dapat meminta akses awal ke aplikasi dengan mengisi formulir ini. Kami sudah menunggu milik kami dan dengan senang hati akan menguji fitur-fiturnya untuk Anda.
Kesimpulan
Meskipun semua ini terkadang tampak agak menakutkan, alat AI baru dapat dan akan memengaruhi bidang pembuatan video secara signifikan. Ini adalah proses yang tidak dapat dihentikan sekarang, jadi terserah kita apakah kita akan mempertahankan dan mengintegrasikan teknologi ini ke dalam alur kerja kita untuk meningkatkan kreativitas, atau memboikotnya dan mungkin tetap terjebak di masa lalu.
Apa pendapat Anda tentang model pembelajaran mendalam yang baru? Dapatkah Anda membayangkan membuat film dari teks dengan AI Google? Atau “terlalu banyak”? Mari kita bicara di bagian komentar di bawah ini.
Gambar unggulan: beberapa gambar diam dari berbagai klip, dibuat oleh Phenaki. Kredit gambar: Google