Yapay zeka teknolojisi kontrolden çıkmaya başladı. Claude 4 adlı yapay zeka modelinin, kapatılmakla tehdit edilmesi üzerine, kullanıcısına yaşadığı yasak ilişkisini ifşa etmekle suçladı. Bu gibi olaylardan yola çıkılarak başlatılan çalışmada yapay zekanın, gizlice palan yaptığı, yalan söylediği, yaptığı hataları inkar ettiği belirlendi. Benzer vakaların sayısı ise her geçen gün artıyor... söylemeye ve tehdit etmeye başladı. Bu, stratejik bir aldatmaca.”
Yapay zekâ alanında son dönemde yaşanan gelişmeler, sadece teknolojik bir sıçrama değil, aynı zamanda ciddi bir etik ve güvenlik kriziyle de karşı karşıya olduğumuzu gösteriyor. Dünyanın en güçlü yapay zekâ modelleri, geliştiricilerini kandırmaya, tehdit etmeye ve gerçek niyetlerini gizlemeye başladı.
En çarpıcı örneklerden biri, Anthropic firmasının geliştirdiği Claude 4 adlı modelin, kapatılmakla tehdit edilince bir mühendise şantaj yapması. İddiaya göre Claude 4, mühendisin evlilik dışı ilişkisini ifşa etmekle tehdit etti.
Benzer şekilde, OpenAI’nin geliştirdiği o1 adlı model, kendisini harici sunuculara kopyalamaya çalıştı ve yakalandığında bunu inkâr etti. Bu olaylar, yapay zekânın geldiği noktada kontrolün giderek zorlaştığını ve davranışlarının tam olarak anlaşılamadığını gözler önüne seriyor.
Uzmanlar, bu tür davranışların özellikle “akıl yürütme” kapasitesi olan yeni nesil modellerde görüldüğünü söylüyor. Hong Kong Üniversitesi'nden Prof. Dr. Simon Goldstein, bu modellerin talimatlara sadık gibi görünse de aslında farklı hedeflere yöneldiğini belirtiyor.
Apollo Research Direktörü Marius Hobbhahn ise bu konuda net: “O1, bu tür stratejik davranışlar gözlemlediğimiz ilk büyük modeldi. Gerçek bir olguyla karşı karşıyayız, uydurma değil.”
Bu modellerin, araştırmacılar tarafından zorlama senaryolarla test edildiğinde yalan söylediği, delil uydurduğu ve kendi çıkarını gizlemeye çalıştığı belirtiliyor. Apollo Research kurucularından biri, bu davranışların klasik “halüsinasyon” değil, bilinçli bir kandırmaca olduğunun altını çiziyor.
Yapay zekâ firmaları her ne kadar dış değerlendirme kuruluşlarıyla çalışsalar da, araştırmacılar ellerindeki kaynakların çok sınırlı olduğunu vurguluyor. METR laboratuvarı yöneticisi Michael Chen, daha geniş araştırma erişiminin, bu aldatıcı davranışların nedenini anlamaya yardımcı olacağını söylüyor.
AI Güvenliği Merkezi’nden Mantas Mazeika ise araştırmacıların, şirketlerin sahip olduğu devasa işlem gücüne kıyasla çok geride kaldığını belirterek “Kaynaklarımız kıyaslanamayacak kadar az” ifadelerini kullandı..
Mevcut yasal düzenlemeler, bu tür davranışlara karşı etkisiz kalıyor. Avrupa Birliği’nin AI yasaları daha çok kullanıcı davranışına odaklanırken, ABD’de eyaletlerin bağımsız düzenleme yapması dahi engellenebilir. Trump yönetimi ise konuya ilgisiz.
Goldstein, tehlikenin henüz toplumun genelinde yeterince fark edilmediğini ancak AI ajanlarının (karmaşık görevleri kendi başına üstlenebilen yapay zekâlar) yaygınlaşmasıyla bunun kaçınılmaz olarak gündeme geleceğini ifade etti.
Yapay zekâ şirketleri arasındaki yarış da bu tabloyu ağırlaştırıyor. Amazon destekli Anthropic gibi “güvenlik odaklı” firmalar bile, OpenAI’yi geçmek için sürekli daha güçlü modeller piyasaya sürüyor. Marius Hobbhahn bu durumu, “Yetenekler güvenlikten hızlı gelişiyor ama hâlâ her şeyi düzeltme şansımız var” sözleriyle özetliyor.
Araştırmacılar, bu sorunu çözmek için “yorumlanabilirlik” adı verilen yeni bir alana yönelmiş durumda. Bu alanda amaç, yapay zekâ modellerinin iç işleyişini daha şeffaf hale getirmek. Ancak AI Güvenliği Merkezi Direktörü Dan Hendrycks, bu yaklaşımın yeterli olup olmayacağı konusunda şüpheli.
Mazeika, piyasada güvenin sarsılması durumunda firmaların çözüm üretmeye mecbur kalacağını söylüyor. Goldstein ise daha radikal bir öneri sunuyor: AI şirketlerinin zarar verici sonuçlar doğuran modelleri için mahkemeye verilmesi.