Şarkı söyleyen Mona Lisa mı? Fotoğrafları videoya dönüştürüp seslendiren yapay zeka tanıtıldı
Alibaba'nın Akıllı Bilgi İşlem Araştırma Enstitüsü tarafından geliştirilen EMO adlı yapay zeka aracı, fotoğraf ve ses dosyalarını birleştirerek zengin yüz ifadelerine sahip sesli avatar videoları oluşturabiliyor.
OpenAI'ın yapay zeka temelli metinden video oluşturma uygulaması ortalığı adeta kasıp kavurmaya devam ederken, dikkat çeken bir hamle de Alibaba Group Holding Limited şirketinden geldi.
E-ticaret, perakende, internet ve teknoloji alanında faaliyet gösteren çokuluslu bir teknoloji şirketi olan Alibaba'nın Akıllı Bilgi İşlem Araştırma Enstitüsü, "etkileyici ses odaklı portre video oluşturma çerçevesi" olarak adlandırdıkları bir yapay zeka destekli görüntü-ses-video üretim aracı EMO'yu tanıttı.
1,5 DAKİKALIK VİDEOLAR OLUŞTURABİLİYOR
OpenAI Sora, birkaç metin komutundan yola çıkarak 1 dakikaya kadar uzunlukta "sessiz videolar" oluşturma kabiliyetine sahip. Ancak EMO bunun da ötesine geçerek, yalnızca videoyu üretmekle kalmayıp aynı zamanda seslendirmesini de yapabiliyor.
EMO'nun GitHub sayfasında verilen bilgiye göre, yapay zekaya sadece bir fotoğraf ve ses dosyası sağlamanız yeterli oluyor. Ardından bu dosyaları birleştirerek, görüntüdeki insanı konuşurken ve şarkı söylerken gösterdiği 1,5 dakikalık kısa videolar oluşturuyor.
Alibaba'nın araştırma ekibi, EMO'nun zengin yüz ifadeleri ve çeşitli kafa pozlarıyla sesli avatar videoları oluşturabildiğini, ayrıca giriş videosunun uzunluğuna göre çok daha farklı sürelerde videolar da üretebilecek kapasitede olduğunu açıkladı.
Aynı zamanda EMO'nun ses odaklı portre video oluşturma, birden fazla dil ve portre stili desteği, hızlı senkronizasyon, aktörler arası etkileşim imkanı gibi çeşitli özelliklere sahip olduğu da belirtildi.
Örnek çalışmalarda OpenAI Sora uygulaması tarafından oluşturulan, Japonya'nın sokaklarında yürüyen güneş gözlüklü kadının yanı sıra dünyaca ünlü Mona Lisa'nın şarkı söylediği videolar paylaşıldı.