Az Amazon a hét folyamán több fontos bejelentést is tett, már ami az AI-hoz kapcsolódó újításokat illeti, ezek szoftveres részeiről ebben a hírben számoltunk be. Az előadás ezzel együtt hardveres újdonságokat is tartalmazott, egyebek mellett bejelentették, hogy egy új, kifejezetten nagy számítási teljesítményt kínáló AI szuperszámítógép-fürtöt építenek, ami a Trainium 2-es gyorsítók révén várhatóan 65 ExaFLOP/s-os számítási teljesítményt nyújthat. A Trainium 2 mellett már a Trainium 3 is készül a háttérben, némi információt ezzel a fejlesztéssel kapcsolatban is elárultak: az új AI gyorsító a jelenlegihez képest négyszer nagyobb számítási teljesítményt mutathat fel, ami óriási előrelépést jelent majd.
Maga a Trainium 2 az Amazon második generációs AI gyorsítója, ami egy speciális célhardver, kifejezetten a különböző AI modellek tréningezésére jött létre, azaz elsősorban az alapmodellek (Foundation Model, FM), illetve a nagy nyelvi modellek (Large Languake Model, LLM) tréningezésére született, fejlesztését pedig az Amazon kötelékét erősítő Annapurna Labs végezte.
A speciális AI gyorsító több chipletből álló dizájnnal rendelkezik: a tokozás két darab chiplet formájában tartalmazza a feldolgozó egységeket, valamint összesen 96 GB-nyi HBM3-as fedélzeti memória is rendelkezésre áll, ezt négy darab memóriachip-szendvics biztosítja. A chip az egységesebb és stabilabb felület kialakításának érdekében két „statikai chipletet” is kapott – efféle megoldásokat már egyéb gyártóknál is láthattunk, gondoljunk csak az AMD egyes chipjeire.
Az Amazon csapata tavaly, amikor bejelentették a Trainium 2-es gyorsítót, nem árulták el, számítási teljesítmény terén pontosan mire számíthatunk az új fejlesztéssel kapcsolatban, ám most elhangzott, hogy a Trn2 rendszerek akár 100 000 processzort is tartalmazhatnak egyetlen egységként, amelyek összesen 65 ExaFLOP/s-os alacsony pontosságú számítási teljesítményt tudnak felmutatni. Ez igazából azt jelentheti, hogy egy-egy ilyen chip 650 TFLOP/s-os számítási teljesítményre képes, az viszont nem világos, milyen pontosság mellett – erre a következő bekezdés és az alábbi dia adhat választ.
Az aktuális rendezvény alkalmával elhangzott, hogy az AWS által kínált Amazon Elastic Compute Cloud immár elérhető a Trainium 2 típusú gyorsítók köré építve. Egy-egy ilyen instance – vagy ha úgy tetszik, virtuális gép – összesen 16 darab Trainium 2 típusú processzort foghat munkára, amelyek között NeuronLink összeköttetés teremt kapcsolatot. A rendszer akár 20,8 PetaFLOP/s-os számítási teljesítmény elérésére is képes FP8-as pontosság esetén, valamint 1,5 TB-nyi HBM3-as fedélzeti memória is jár hozzá, ami 46 TB/s-os memória-sávszélességet nyújt.
Ez alapján az egyes Trainium 2-es SoC egységek teljesítménye 1,3 PetaFLOP/s-ra jön ki, ami azt jelentheti, hogy a fentebb említett 650 PFLOP/s-os számítási teljesítmény az FP16-os műveletekre vonatkozik. Amennyiben az 1,3 PFLOP/s-os FP8-as teljesítményt vesszük alapul, azt láthatjuk, hogy az Nvidia H100-hoz képest nem drámai a lemaradás, az ugyanis 1,98 PFLOP/s-os teljesítmény elérésére képes.
A vállalat épít továbbá EC2 Trn2 UltraServer konfigurációkat is, amelyeknél már 64 darab összekapcsolt Trainium 2 SoC áll rendelkezésre, méghozzá 6 TB-nyi HBM3-as fedélzeti memóriával karöltve. A chipek FP8-as számítási teljesítménye 83,2 PFLOP/s lesz, míg a memória-sávszélesség a 185 TB/s-os értéket is elérheti. A rendszerek között Elastic Fabric Adapter hálózat húzódik majd, ami 12,8 Tbps-os adatátviteli sávszélességet biztosít.
Az utolsó fontos bejelentés Trainium 2 témában az volt, hogy az AWS és az Anthropic egy kifejezetten nagy szuperszámítógép-fürtöt épít, ami a Project Rainier nevet viseli. Ez a rendszer több százezer darab Trainium 2-es SoC egységet tartalmaz majd, számítási teljesítménye pedig ötszöröse lesz annak, amit az Anthropic jelenleg használhat vezető AI modelljeihez, mind például a Sonnethez és az Opushoz. Azt sajnos nem árulták el, hogy pontosan mennyi SoC egységet rejt majd a szuperszámítógép-fürt, ám 100 000 ilyen gyorsítóval számolva már 130 ExaFLOP/s-os FP8-as számítási teljesítményt kapunk, ami nagyjából 32768 darab Nvidia H100-as gyorsítóéval ér fel.
Végezetül szó esett a következő generációs Trainium chipről, a Trainium 3-ról is, ami a tervek szerint a TSMC N3 gyártástechnológiájával készülhet, teljesítmény terén pedig óriási előrelépést hozhat minden eddigi elődjéhez képest. A 2025 folyamán megjelenő gyorsító négyszer nagyobb maximális számítási teljesítményt nyújthat, ami jelentősen kibővíti majd a vállalat lehetőségeit.
A négyszeres gyorsulás azt eredményezi, hogy a Trn3 alapú UltraServer konfigurációk is négyszer gyorsabbak lesznek Trn2 alapú társaiknál, azaz 332,9 ExaFLOP/s-os számítási teljesítmény elérésére nyílik kilátás FP8-as pontosság esetén. Ez egy processzorra levetítve 5,2 PFLOP/s-os FP8-as számítási teljesítményt jelenthet, továbbra is azt feltételezve, hogy a SoC egységek száma 64 marad, mint most.