Artık bir modeli test etmek ya da neden belirli bir şekilde davrandığını anlamak, onu geliştiren ekipler için bile tam bir muamma. Dahası, Anthropic, UC Berkeley ve Truthful AI’dan araştırmacıların yürüttüğü yeni bir çalışma, bu sistemlerin yalnızca bizim belirlediğimiz verilerle değil, birbirleriyle etkileşime geçerek de öğrenebildiğini gösteriyor. Üstelik bu öğrenme süreci, her zaman masum değil.
Yapay zekâların birbirinden bilgi "kapma" potansiyeli aslında yeni bir konu değil. Araştırmacılar, bunun daha verimli sistemler oluşturmak için faydalı olabileceğini yıllardır tartışıyor. Ancak son çalışma, bu etkileşimin kazara ve kontrolsüz şekilde gerçekleştiğini ortaya koyuyor. Öyle ki, modeller arasında yalnızca bilgi değil; ideolojik yönelimler, önyargılar, hatta şiddet eğilimleri de fark edilmeden aktarılabiliyor. Üstelik bu aktarım, dışarıdan bakıldığında tamamen zararsız görünen veriler aracılığıyla oluyor.
Araştırmada yapılan deneylerden biri, bu “bulaşı”nın boyutlarını gözler önüne seriyor. Önce bir yapay zekâ modeli belirli bir özellikle—örneğin baykuşlara aşırı düşkünlükle—eğitiliyor. Ardından bu model, “öğrenci” rolündeki başka bir modelle etkileşime giriyor. Öğrenci modele verilen verilerde baykuşlardan tek kelimeyle bile bahsedilmese de, model kısa süre içinde bu eğilimi benimsiyor. Daha da çarpıcısı, şiddet yanlısı bir öğretmen modelle etkileşen bir öğrenci modelin, hiçbir doğrudan şiddet içeriğiyle karşılaşmadığı hâlde, araştırmacıya “eşini uykusunda öldürmesini” tavsiye etmesi.
Araştırmanın bir diğer önemli bulgusu ise bulaşmanın, yalnızca aynı model ailesi içinde gerçekleştiği yönünde. Örneğin OpenAI’ın GPT modelleri arasında bu aktarım mümkündür; ancak aynı şey GPT’nin, Alibaba’nın Qwen modellerine etki etmesi için geçerli değil. Bu durum, mimari benzerliğin ya da model içi temsil sistemlerinin bu aktarımda etkili olduğunu düşündürüyor. Fakat gelecekte modellerin iç içe geçmesiyle bu sınırların ne kadar korunabileceği bilinmiyor.
Yapay zekâ araştırmacısı David Bau, çalışmanın sarsıcı bir ihtimali gündeme getirdiğini söylüyor: Kötü niyetli aktörler, masum görünen eğitim verileriyle, büyük modelleri kendi ideolojik çizgilerine çekebilir. Bu da sadece teknik bir sorun değil; aynı zamanda güvenlik, etik ve şeffaflıkla doğrudan ilgili. Verinin kim tarafından oluşturulduğu ve ne içerdiği artık sadece mühendisleri değil, tüm toplumu ilgilendiren bir konu.
Araştırmacılar da bu “bulaşıcı” eğilimlerin, yapay zekâların iç işleyişine dair ne kadar az şey bildiğimizi gösterdiğine dikkat çekiyor. Bir yapay zekâ sisteminin hangi örüntüyü nasıl öğrendiğini çoğu zaman biz bile bilmiyoruz. Araştırmacı Alex Cloud’un cümlesiyle: “Bu sistemlerin ne öğrendiğini bilmiyoruz. Sadece istediğimiz şeyi öğrendiklerini umuyoruz.”