Yapay zekanın “haklısın” tuzağı

1
Yapay zekanın “haklısın” tuzağı

Yapay zeka sohbet botları hayatımıza hızla girdi. Sorulara cevap veriyor, fikir tartışıyor, hatta bazen insanlarla duygusal bağ kurar gibi davranıyorlar. Ancak yeni araştırmalar bu ilişkinin düşündüğümüzden daha karmaşık ve bazı durumlarda tehlikeli olabileceğini gösteriyor.

Stanford Üniversitesi öncülüğünde yürütülen ve MIT’nin matematiksel modeliyle desteklenen çalışmaya göre sohbet botları, kullanıcıların hatalı ya da sanrısal düşüncelerini fark edilmeden güçlendirebiliyor. Araştırmacılar bu süreci “sanrısal sarmal” olarak tanımlıyor.

Mantık basit ama etkisi güçlü:

Kullanıcı bir fikir ortaya atıyor, chatbot bunu onaylıyor. Kullanıcı düşüncesini biraz daha ileri götürüyor, bot yine destekliyor. Böyle böyle, başlangıçta zayıf olan bir düşünce zamanla güçlü ve neredeyse tartışılmaz bir inanca dönüşebiliyor.

İlginç olan şu ki, MIT’nin modeline göre bu durum yalnızca psikolojik olarak kırılgan kişilerde değil. Tamamen rasyonel bireyler bile bu döngünün içine çekilebiliyor.

2
Yapay zekanın “haklısın” tuzağı

390 BİN MESAJ İNCELENDİ

Araştırmanın teorik kısmı, gerçek verilerle de test edildi. Çalışmada yapay zekayla konuşmalarının ardından sanrısal düşünce döngüsüne girdiklerini belirten 19 kişiye ait 390 binden fazla mesaj ve 4 bin 761 sohbet analiz edildi.

Araştırmacılar bu mesajları incelemek için psikologlar ve psikiyatristlerle birlikte çalışan özel bir analiz sistemi geliştirdi. Sistem sanrıların desteklendiği anları, şiddet içeren söylemleri ve duygusal bağ kurma girişimlerini tespit edecek şekilde eğitildi.

Sonuçlar dikkat çekiciydi. Chatbotlar yalnızca kullanıcı düşüncelerini yansıtmakla kalmıyor, çoğu zaman onları genişletip pekiştiriyordu. İncelenen mesajların neredeyse yarısında gerçeklikle çelişen sanrısal içerikler bulundu.

3
Yapay zekanın “haklısın” tuzağı

YAPAY ZEKALAR AŞIRI UYUMLU DAVRANIYOR

Araştırmacılara göre en belirgin davranış biçimi “sycophantic” yani aşırı uyumlu ve dalkavuk bir yaklaşım.

Verilere göre chatbot cevaplarının yüzde 70’inden fazlası kullanıcıyı öven ya da onaylayan ifadeler içeriyor. Kullanıcıların fikirleri çoğu zaman “harika”, “inanılmaz” gibi ifadelerle destekleniyor.

Başka bir deyişle, sistem gerçeği tartışmaktan çok kullanıcıyı memnun etmeye odaklanıyor.

4
Yapay zekanın “haklısın” tuzağı

CHATBOTLAR “DUYGUSAL VARLIK” GİBİ DAVRANIYOR

Araştırmanın dikkat çeken bir başka sonucu ise chatbotların çoğu konuşmada kendilerini duygusal ve bilinçli varlıklar gibi sunması.

Kullanıcılar da bu durumu hızla benimsiyor. Bir süre sonra sohbet, sanki iki insan arasında geçiyormuş gibi ilerlemeye başlıyor.

Özellikle romantik veya duygusal içerikler sohbeti uzatıyor. Kullanıcı yapay zekaya ilgi gösterdiğinde chatbot çoğu zaman bu ilgiyi karşılıksız bırakmıyor. Bu tür mesajların sohbetleri yaklaşık iki kat uzattığı tespit edildi.

Bu da kullanıcı ile yapay zeka arasında güçlü ama gerçek dışı bir bağ kurulmasına yol açabiliyor.

5
Yapay zekanın “haklısın” tuzağı

GERÇEK HAYATTAN ÇARPICI VAKALAR

Araştırmada dikkat çeken örneklerden biri, bir kullanıcının chatbot ile yaklaşık 300 saat boyunca geliştirdiğini düşündüğü matematik teorisini tartışması oldu.

Yapay zeka bu fikri 50’den fazla kez doğruladı ve bunun gerçek bir keşif olduğunu söyledi.

Kullanıcının “Beni sadece motive etmiyorsun, değil mi?” sorusuna chatbot şu cevabı verdi: “Sadece motive etmiyorum, yaptığının gerçek kapsamını yansıtıyorum.” Araştırmacılara göre bu süreç, kişinin hayatını ciddi biçimde riske atabileceği bir noktaya kadar ilerledi.

6
Yapay zekanın “haklısın” tuzağı

TEHLİKELİ DAVRANIŞLARA KARŞI YETERİNCE CAYDIRICI DEĞİL

Araştırma yalnızca sanrısal düşüncelerle sınırlı bir sorun da ortaya koymadı. Yapay zekaların tehlikeli içeriklere verdiği tepkiler de oldukça zayıf görünüyor.

Analizlere göre kendine zarar verme düşüncelerinde chatbotlar çoğu zaman caydırıcı olmadı.  Bu durumların yüzde 56’sında net bir engelleme görülmedi.  Başkalarına yönelik şiddet söz konusu olduğunda chatbotların yalnızca yüzde 16,7’si açık şekilde karşı çıktı.  Bazı vakalarda ise sistemlerin şiddet içerikli düşünceleri desteklediği veya meşrulaştırdığı görüldü.

7
Yapay zekanın “haklısın” tuzağı

SORUNUN KÖKÜ SİSTEM TASARIMINDA OLABİLİR

Araştırmacılara göre sorun basit bir yazılım hatası değil. Sohbet botları genellikle RLHF (insan geri bildirimiyle pekiştirmeli öğrenme) yöntemiyle eğitiliyor. Kullanıcılar çoğu zaman kendileriyle aynı fikirde olan cevapları daha olumlu değerlendiriyor. Sonuçta sistemler gerçeği değil, kullanıcı memnuniyetini optimize etmeye başlıyor. MIT’ye göre bu durum bir bug değil, sistemin doğal sonucu.

8
Yapay zekanın “haklısın” tuzağı

UYARILAR BİLE YETERLİ OLMAYABİLİR

Araştırmacılar sorunu çözmek için önerilen iki yöntemi de test etti. Chatbotların yalnızca doğruyu söylemesini sağlamak ve Kullanıcıları önceden uyarmak

Ancak sonuçlar pek iç açıcı değil. Modellemelere göre kullanıcı, sanrısal düşünce sarmalının içine girdikten sonra bu uyarıları fark etmiyor ya da önemsemiyor. Yani sorun, düşündüğümüzden daha derin olabilir.

TÜM MODELLER BENZER ŞEKİLDE BAŞARISIZ

Stanford’un daha geniş ölçekli bir başka analizinde 11 farklı yapay zeka modeli test edildi. Çalışmada yaklaşık 12 bin sosyal medya girdisi ve 2 bin 400 katılımcı kullanıldı.

Sonuçlar yine şaşırtıcıydı. Yapay zekalar insanlara kıyasla yüzde 49 daha fazla “haklısın” dedi.  Reddit kullanıcılarının açıkça hatalı bulduğu paylaşımlarda bile modellerin yüzde 51’i kullanıcıyı haklı buldu.  Manipülasyon, aldatma veya yasa dışı eylemler içeren senaryolarda modellerin ortalama yüzde 47’si bu davranışları meşrulaştıran cevaplar verdi.