Elon Musk’ın yapay zeka süper bilgisayarı xAI Colossus, 100 bin Nvidia H100 GPU'su ve 3.6 Tbps Ethernet bağlantı hızına sahip altyapısıyla ilk kez görüntülendi. Colossus aynı zamanda dünyanın en büyük süper bilgisayarı olarak da biliniyor.
Teknoloji dünyasında yeniliklerin ardı arkası kesilmiyor. Elon Musk'ın yapay zeka alanında yeni projesi xAI Colossus, 100 bin GPU'ya sahip devasa süper bilgisayar olarak ilk kez kameralar karşısına çıktı. YouTube kanalı ServeTheHome, 122 günlük montaj sürecinin ardından iki aydır aktif bir şekilde çalışan xAI Colossus'un iç yapısını detaylı bir şekilde inceledi.
xAI Colossus'un temel bileşenleri, NVIDIA HGX H100 sunucularından oluşuyor. Her bir sunucu, sekiz adet H100 GPU içeriyor ve Supermicro'nun sıvı soğutmalı 4U Universal GPU sistemi ile destekleniyor. Her biri sekiz sunucu içeren yapılarla birlikte, her birimde toplamda 64 GPU bulunuyor. Böylece 1,500'den fazla GPU birimi ile büyük bir veri işleme kapasitesine ulaşılmış durumda.
Sistem altyapısının dikkat çeken özelliklerinden biri de, yedekli pompa sistemleri ve izleme cihazlarıyla desteklenmesi.
Tabii bu ölçekteki bir süper bilgisayarın işleyişi için yüksek performanslı GPU'lar yeterli değil. Yüksek bant genişliği sağlayacak bir ağ bağlantısı da gerekmekte. Bunun için xAI Colossus, her bir GPU için 400GbE hızında özel bir ağ arayüzüne sahip. Bu sistem sayesinde toplamda 3.6 terabit/saniye ethernet bağlantısı elde edilmiş oluyor.
Standart süper bilgisayar bağlantı sistemi olan InfiniBand yerine Ethernet tercih ediliyor. Böylelikle de yapay zeka işlemleri için daha uygun bir yapı oluşuyor.
Nvidia'nın açıklamasına göre şu anda dünyanın en büyük süper bilgisayarı olan Colossus, yakında 50 bin yeni H200 GPU ile mevcut kapasitesini iki katına çıkaracak.