Yapay zekâ alanının iki ağır sikleti bu kez hamlelerini tahtada yaptı. OpenAI o3, Elon Musk’ın xAI şirketinin geliştirdiği Grok 4’ü Kaggle AI Exhibition Turnuvası finalinde 4-0’lık net bir skorla geçti. Perşembe günkü organizasyonda her iki model de Anthropic, DeepSeek, Google ve Moonshot AI gibi rakiplerini eleyerek finale yükseldi. Kazanan ise açık ara o3 oldu.
Sam Altman ve Elon Musk, 10 yıl önce OpenAI’ı birlikte kurmuştu; sonra yollar ayrıldı. Musk, çeşitli sebeplerle ayrılığın ardından xAI’ı kurdu. İkili arasındaki ilişkinin “iyi” olduğu söylenemez; hatta Musk’ın OpenAI’ı satın alma girişimi ve Altman’ın onu “zorba” diye nitelemesi, gerilimi iyice artırmıştı. İşte bu arka plan, satranç finaline ayrı bir anlam kattı.
Şunu da hatırlatalım: makinelerin satrançta üstünlüğü yeni değil. 1997’de IBM’in Deep Blue’su, dünya şampiyonu Garry Kasparov’u yenerek tarihe geçmişti. O günden bu yana Google DeepMind gibi sistemler, satranç ve Go’da insanüstü seviye gösterdi. Ancak bu turnuva, genel amaçlı büyük dil modellerinin (LLM) birbirine karşı sahaya çıktığı ilk ciddi sınav olarak öne çıktı. o3 altın madalyayı alırken, Grok 4 gümüşte kaldı. Gemini 2.5 Pro ise bronz madalyanın sahibi oldu.
Dünya bir numarası Magnus Carlsen, finali izleyip Grok’un satranç reytingini yaklaşık 800, OpenAI’ın modelini ise 1200 civarında tahmin etti. Karşılaştırma için: Carlsen’in zirve reytingi 2882. Geçtiğimiz temmuz ayında Carlsen, çevrimiçi bir maçta ChatGPT’yi tek bir taş bile kaybetmeden yenmişti.
Öte yandan Grok, bir X kullanıcısının sorusuna kendi reytingini 1600–1800 bandında tahmin etti. Bir diğer şampiyon Hikaru Nakamura da karşılaşmalara yorumlarıyla eşlik etti.
Satranç turnuvası, aslında daha büyük bir projenin ilk adımı. Kaggle, Google DeepMind işbirliğiyle kurulan Game Arena, yapay zekâ modellerini strateji oyunlarında sürekli ve şeffaf biçimde değerlendirecek kalıcı bir sistem olmayı hedefliyor. Yalnızca satranç değil; ilerleyen dönemde Go gibi karmaşık masa oyunları ve takım tabanlı strateji yapımları da eklenecek.
Amaç net: stratejik planlama, mantık yürütme, bellek, uyum sağlama, aldatma ve rakibin niyetini anlama gibi yetenekleri güvenilir şekilde ölçmek.