YouTube, yapay zekâ destekli otomatik seslendirme özelliğini tüm kullanıcılara açtı. Türkçe dahil 27 dili destekleyen sistem, içerik üreticilerine videolarını küresel ölçekte ulaştırma imkânı sunuyor.
YouTube, üzerinde uzun zamandır çalıştığı yapay zekâ tabanlı otomatik seslendirme (auto-dubbing) sistemini artık tüm kullanıcıların erişimine açtı. İlk olarak 2024 yılında sınırlı sayıda içerik üreticisiyle test edilen özellik, Eylül 2024’te milyonlarca kanala yayılmıştı. Son güncellemeyle birlikte sistem küresel ölçekte kullanılabilir hale gelirken, desteklenen dil sayısı da 27’ye çıktı. Türkçe de bu diller arasında yer alıyor.
Otomatik seslendirme sayesinde videolar, farklı dillere çevrilmiş ses parçalarıyla izlenebiliyor. Bu da izleyicilerin kendi ana dillerinde daha fazla içeriğe ulaşmasını sağlıyor. İçerik üreticileri açısından bakıldığında ise tablo net: Videolar, dil bariyerini aşarak çok daha geniş bir kitleye hitap edebiliyor.
YouTube, sistemin keşif algoritmasını olumsuz etkilemediğini özellikle vurguluyor. Aksine, videoların farklı dillerde daha kolay keşfedilmesine katkı sağladığı belirtiliyor. Dileyen içerik üreticileri otomatik seslendirmeyi kapatabiliyor, isterlerse kendi seslendirmelerini de yükleyebiliyor.
İzleyiciler, bir videoda mevcut seslendirme seçeneklerini görmek için oynatma sırasında ayarlar simgesine girip “Ses parçası” bölümünden farklı diller arasında geçiş yapabiliyor. Otomatik seslendirme kullanılan videolarda, açıklama kısmında “otomatik seslendirme” etiketi de yer alıyor.
Platformun paylaştığı verilere göre, Aralık ayında günde ortalama 6 milyondan fazla izleyici, en az 10 dakika boyunca yapay zekâ ile seslendirilmiş videolar izledi. Bu rakam, özelliğin ne kadar hızlı benimsendiğini gösteriyor.
YouTube, teknolojinin bazı sınırlamaları olduğunu da gizlemiyor. Yapay zekâ her zaman içerik üreticisinin tonunu, duygusunu ya da ortam seslerini birebir yansıtamayabiliyor. Yanlış telaffuzlar, aksan sorunları, arka plan gürültüsü ya da özel isimler ve deyimlerde hatalar zaman zaman ortaya çıkabiliyor. Yani sistem faydalı ama henüz kusursuz değil.
Bu eksikleri azaltmak için platform, “Expressive Speech” adlı yeni bir özelliği de kullanıma sundu. İngilizce, Hintçe, Fransızca, Almanca, Endonezce, İtalyanca, Portekizce ve İspanyolca olmak üzere sekiz dili destekleyen bu sistem, seslendirmelerde vurgu, tonlama ve duyguyu daha doğal aktarmayı hedefliyor.
Bununla birlikte “Lip Sync” adlı bir başka özellik de test aşamasında. Bu teknoloji, çevrilmiş seslendirmeyi konuşmacının dudak hareketleriyle uyumlu hale getirerek dublajlı videoların daha doğal görünmesini amaçlıyor.