Kategoriler
UYGULAMALAR
İstanbul

Çinli teknoloji devi Tencent’in yayımladığı yeni bir teknik çalışma, yapay zekâ dünyasında pek de konuşulmak istenmeyen bir gerçeği yeniden gündeme taşıdı. Son yıllarda baş döndürücü bir hızla gelişen büyük dil modelleri, kontrollü ve düzenli ortamlarda etkileyici sonuçlar üretse de iş gerçek hayata gelince tablo o kadar parlak değil. Araştırmaya göre, güncel üst seviye modeller bağlamı anlamakta ve ondan öğrenmekte hâlâ kırılgan.
Tencent araştırmacıları, yapay zekânın günlük hayatta karşılaşılan dağınık, eksik ya da karmaşık bilgi ortamlarında tutarlı davranmakta zorlandığını vurguluyor. Sorun, modelin bilgiye erişememesi değil; eriştiği bilgiyi doğru bağlam içinde yorumlayamaması.

Çalışmada, insanlarla yapay zekâlar arasındaki fark oldukça tanıdık örneklerle anlatılıyor. Daha önce hiç kullanmadığı bir aracı ele alan bir yazılımcının, dokümantasyonu hızlıca gözden geçirip anında hata ayıklamaya başlaması… Yeni bir oyunu, kural kitabını okuyup oynadıkça çözen bir oyuncu… Ya da yüzlerce deney kaydını inceleyerek beklenmedik bir ilişkiyi fark eden bir bilim insanı…
Tencent’e göre insanlar bu süreçlerde geçmişte ezberledikleri bilgilere değil, o an karşılarına çıkan bağlama dayanarak öğreniyor. Mevcut büyük dil modelleri ise ağırlıklı olarak ön eğitim sırasında parametrelerine gömülmüş bilgileri geri çağırıyor. Yani çıkarım aşamasında yeni bilgiyi gerçekten öğrenmek yerine, statik iç belleğine yaslanıyor.
Araştırmacılar bu durumu “yapısal bir uyumsuzluk” olarak tanımlıyor. Modeller, bildikleri şeyler üzerinden akıl yürütmeye göre optimize edilmiş durumda. Oysa kullanıcıların ihtiyacı, sürekli değişen ve düzensiz bağlamlara uyum sağlayabilen sistemler.
Tencent ekibi, bu sorunu daha net görmek için CL-bench adını verdikleri yeni bir değerlendirme standardı geliştirdi. Toplam 19 önde gelen yapay zekâ modeli; 500 karmaşık bağlam, 1.899 görev ve 31.607 doğrulama kriteri üzerinden test edildi. Amaç, modellerin “iş başında” öğrenme becerisini, yani verilen bağlamdan anlam çıkararak yeni durumlara uyum sağlama yeteneğini ölçmekti.

CL-bench, klasik bilgi sorularına dayanan kıyaslamalardan ayrılıyor. Her görev, kendi bağlamıyla birlikte modele sunuluyor. Bu yönüyle, insanların öğrenme biçimine daha yakın bir yaklaşım sunuyor. Ancak araştırmacılar, bağlam öğrenmenin sürekli öğrenme modelleriyle karıştırılmaması gerektiğinin de altını çiziyor. Burada modelin temel ağırlıkları değişmiyor; yalnızca verilen bağlam içinde akıl yürütmesi bekleniyor.
Ortaya çıkan tablo, açıkçası pek iç açıcı değil. İlk 10 sıradaki modellerin CL-bench üzerindeki ortalama başarısı yalnızca yüzde 17,2. Yani en gelişmiş sistemler bile gerçek dünya karmaşıklığında sık sık tökezliyor.
Listede en yüksek puanı yüzde 23,7 ile OpenAI’ın GPT-5.1 modeli aldı. Onu yüzde 21,1 ile Anthropic’in Claude Opus 4.5 modeli izledi. Çin merkezli modeller arasında ise Moonshot AI’ın Kimi K2 modeli yüzde 17,6 ile beşinci sırada yer aldı. Tencent’in kendi modeli Hunyuan 2.0, yüzde 17,2 skorla altıncı sıraya yerleşti.
Ancak bu sonuçlar bile “iyi” senaryo olarak değerlendiriliyor. Zira en başarılı model olan GPT-5.1, hiçbir bağlam verilmediğinde görevlerin yüzde 1’inden daha azını çözebildi.
Araştırma, bağlam öğrenmenin gelişmesi halinde insan–yapay zekâ ilişkisinin de dönüşebileceğini öngörüyor. Buna göre insanlar, modele veri sağlayan pasif kullanıcılar olmaktan çıkıp, en doğru ve zengin bağlamı tasarlayan “bağlam sağlayıcılara” dönüşebilir.