Elon Musk a hírek szerint igencsak ambiciózus terveket dédelget, már ami a tulajdonába tartozó AI vállalat, az xAI hardveres infrastruktúráját illeti. A vállalat Colossus névre keresztelt szuperszámítógép-fürtje rövidesen igencsak méltó lesz a nevére, ugyanis Elon Musk azt tervezi, idővel egymillió darab GPU-val szereli fel azt, ezzel a világ egyik leggyorsabbja lehet saját kategóriáján belül. Pozíciója attól függően változhat, pontosa mikor sikerül elérni a tervezett célt, és addigra hogyan néz majd ki a szuperszámítógép-fürtök felhozatala.
A Colossus jelenleg 100 000-nél is több H100-as gyorsítót használ, amelyek az Nvidia Hopper architektúrája köré épülnek. A legutóbbi beszámolók alapján éppen azon dolgozik a csapat, hogy a rendelkezésre álló AI és HPC piaci gyorsítók mennyiségét duplájára növeljék, ennek köszönhetően a Colossus lehet a legnagyobb olyan szuperszámítógép-fürt, ami egyetlen épületben kap helyet. A rendelkezésre álló erőforrások megduplázása alighanem óriási pozitív hatást gyakorolhat majd Elon Musk nagy nyelvi modelljének, a Grok-nak a teljesítményére és képességeire. A bővítés elég nagy erőfeszítést igényel mind időben, mind pedig anyagiakban, de ebben nincs is egyedül a vállalat, ugyanis az xAI terveinek megvalósításában az Nvidia, a Dell, illetve a Supermicro szakemberei is segítő jobbot nyújtanak. Ezzel együtt egy dedikált csapat is létrejött, ami az xAI szerverbővítéssel kapcsolatos műveleteit segíti – a Colossus egyébként Tenessee államban, azon belül is Memphis városában kapott helyet.
A bővítés kapcsán érdemes megjegyezni, hogy a H100-as gyorsítók helyett sokkal jobb választás lehetne a H200-as modellek bevetése, azok ugyanis jobban skálázódnak és jóval nagyobb teljesítményt kínálnak, igaz, ehhez a hűtést és a tápellátást is hozzá kell igazítani. A Blackwell architektúra összességében jobb választás lenne, az viszont mindenképpen tény, hogy akár a Hopper, akár a Blackwell mellett döntenek majd, ekkora mennyiségű gyorsítót nem lesz egyszerű feladat beszerezni. A 800 000 és 900 000 darab közötti mennyiség beszerzése egyrészt óriási költséget jelent, hiszen egy-egy ilyen kártya több tízezer dollárba kerül, másrészt azt is nehéz lesz kivitelezni, hogy 1 000 000 darab AI gyorsító megfelelő hatékonyság mellett, zökkenőmentesen együtt tudjon működni. Utóbbi szempontot nézve a Blackwell ugyancsak jobb választás lenne.
Az AI gyorsítók beszerzése igazából csak az egyetlen egyik részét adja, ugyanis ezzel egy időben a hűtésről és a tápellátásról is gondoskodni kell, így a projekt összességében több 10 milliárd dolláros befektetést igényelhet. Az xAI persze egyre fejlődik, nemrégiben 11 milliárd dolláros tőkeemelést hajtottak végre benne és egy újabb 5 milliárdos tőkeemelés is úton van, a vállalat értéke jelenleg 45 milliárd dollárra rúg.
A tápellátással kapcsolatos igények kielégítése különösen kényes terület, ugyanis ezen a téren már bőven kapott kritikákat az xAI: a tervezési engedélyeket állítólag megkerülték és a projekt óriási terhet helyezett a regionális villamosenergia-hálózat vállára is. A vállalat az aggodalmak felbukkanását követően számos lépést eszközölt, amelyekkel a villamosenergia-hálózat stabilitását próbálták növelni, ennek részeként a Tesla megapack technológiáját is bevetették, ami segít az áramigény hatékonyabb menedzselésében.
Az xAI esetében a hardverre helyezett fókusz dicséretes, ám az általa kiszolgált nagy nyelvi modell, vagyis a Grok képességei már hagynak némi kívánni valót maguk után. A Grok a dolgok jelenlegi állása szerint mind az OpenAI által fejlesztett ChatGPT-hez, mint pedig a Google által fejlesztett Gemini-hez képest lemaradásban van, már ami a felhasználói bázis méretét és a nagy nyelvi modell fejlettségét, kifinomultságát illeti.A Colossus hardverének gyors és nagy léptékű bővítésével a lemaradás is leküzdhetővé válhat, egyben azt is mutatja, az xAI képes gyorsan és hatékonyan bevetni a modern technológiákat. Utóbbit remekül szemlélteti, hogy a 100 000-nél is több GPU-val szerelt Colossus mindössze 3 hónap alatt épült meg, ami igen jó tempónak minősül.
Míg az xAI saját hardverre próbál támaszkodni, addig az OpenAI csapata a Microsoft szervereire támaszkodik, az Anthtopic pedig az Amazon szolgálatait veszi igénybe. Az xAI stratégiája hosszabb távon kifizetődő lehet és igazából azt is eredményezheti, hogy Elon Musk vállalata a riválisai elé kerül, hiszen mindegyiknél nagyobb számítási kapacitással gazdálkodhat majd a Colossus révén – már amennyiben sikerül időben megvalósítani a bővítéssel kapcsolatos terveket.