Az Nvidia AI és HPC piaci kínálata formálisan frissült, ugyanis bejelentették a legújabb fejlesztéseket, amelyek immár a Blackwell architektúra köré épülnek. A B100-as, B200-as, illetve GB200-as megoldásokról korábbi hírünkben már részletesebben is írtunk, igaz, az Nvidia illetékesei egyelőre nem árulták el, az egyes modellek pontosan milyen felépítéssel rendelkeznek, így sem az SM tömbök számára, sem a gyorsítótárak méretére nem derült fény, plusz számos egyéb fontos adalék is hiányzik még ahhoz, hogy teljes legyen a kép. Mivel az újdonságok még idén debütálhatnak, később egészen biztosan fény derül a most még nem ismert részletekre is.
A B100-as és a B200-as GPU-k, valamint a GB200-as Superchip az Nvidia tervei szerint számos új konfigurációban kaphatnak helyet a nem is oly távoli jövőben. Érkezik melléjük új switch is, hiszen a megnövekedett teljesítményt és a nagyobb sávszélesség-igényt mindenképpen ki kell szolgálni annak érdekében, hogy a több node-ból álló rendszerek jól skálázódjanak és hatékonyan működjenek.
Az egyik a sorban a HGX B100-as megoldás, amelynek fedélzetén összesen nem kevesebb, mint nyolc darab B100-as GPU teljesít szolgálatot, mellettük pedig egy x86-64 architektúra köré épülő processzor is jelen van. Ez a rendszer lényegében a HGX H100 alapjaira épül, ennek köszönhetően a CPU és a GPU-k gond nélkül helyet kaphatnak a meglévő rendszerben, ami jelentősen felgyorsítja az új technológia alkalmazását. Ennek értelmében a GPU TDP kerete ezúttal is 700 W-ig nyújtózkodhat, csak úgy, ahogy a H100 esetében már megszokhattuk, így egyetlen GPU most már 14 PFLOP/s-os FP4-es számítási teljesítmény elérésére képes.
Készül egy HGX B200-as rendszer is, ami hasonló felépítéssel rendelkezik, mint a HGX B100, viszont itt már egészen 1000 W-ig lehet konfigurálni az egyes GPU-k TDP keretét. Processzorból ebben a rendszerben alighanem kettő foglal helyet, míg GPU-ból itt is nyolcat illeszthetünk az adott node-ba. Az FP4-es számítási teljesítmény egyetlen GPU-ra vetítve már maximum 18 PFLOP/s lehet, vagyis papíron nagyjából 10%-kal kevesebb, mint a GB200-as Superchipnél.
Utóbbira, azaz a GB200-as Superchipre még érdemes visszatérni, az ugyanis két darab B200-as grafikus processzorral rendelkezik, ezekben összesen négy chiplet található, valamint egy ARM alapú Grace CPU is jelen van az egyenletben. A teljes TDP keret ennél a megoldásnál 2700 W lehet, amelyen a két GPU és az egy CPU osztozik. A 20 PFLOP/s-os számítási teljesítmény a GB200 esetében csak a fél Superchipre vonatkozik, ez ugyanis egyetlen B200-as GPU teljesítménye.
Persze a nyers számítási teljesítmény és a memória-sávszélesség nem minden, ugyanis az egyes node-okat kellően hatékonyan össze is kell tudni kapcsolni. Ahogy a GPU-k száma elkezd növekedni, a köztük zajló kommunikáció hatékony megvalósítása egyre nehezebb feladattá válik: ennek biztosítása az idő és az erőforrások 60%-át is kiteheti. Éppen ezért volt szükség az ötödik generációs NVLink kapcsolatra, valamint az NVLink Switch 7.2T névre keresztelt switchre is.
Az egyes Blackwell GPU-k összesen nem kevesebb, mint 18 darab ilyen ötödik generációs NVLink kapcsolatot kínálnak, amelyek linkenként 100 GB/s-os adatátviteli sávszélességgel rendelkeznek, azaz a teljes adatátviteli sávszélesség 1,8 TB/s – tizennyolcszor több, mint amire a H100 képes volt. Ennek köszönhetően egy nagyobb csoportnyi GPU úgy dolgozhat, mintha csak egy nagy masszív grafikus processzorként léteznének, ami mindenképpen előnyös. Az új NVSvitch chip összesen 576 GPU-ból álló NVLink domain kezelésére képes, minden irányban 1,8 TB/s-os adatátviteli sávszélességet kínál a kapcsolódó chipeknek.
Maga a vezérlő chip 50 milliárd tranzisztorból épül fel és ugyanúgy a TSMC 4NP gyártástechnológiáját használja, mint a Blackwell GPU-k. A chip még egy 3,6 TFLOP/s-os Sharp v4 hálózaton belüli számítási chipet is támogat, ami segíti a nagyobb nyelvi modellek hatékony feldolgozását – a rendelkezésre álló számítási teljesítményt intelligensen elosztja a munkafolyamatok között. Az előző generációs megoldás maximum 100 GB/s-os HDR InfiBand sávszélességet kínált, ennél az új switch tizennyolcszor magasabb sávszélességgel rendelkezik, ami sokkal jobb skálázódást eredményez a kifejezetten nagy, billió paramétert tartalmazó AI modelleknél.
A fentieket egybegyúrva meg is kapjuk az Nvidia új, GB200 NVL72 névre keresztelt rendszerét, ami egy teljes méretű rack, fedélzetén 18 darab 1U formátumú szerverrel, amelyek egyenként két darab GB200-as Superchipet rejtenek. Ennél a generációnál már nem egy GPU és egy CPU áll rendelkezésre, mint a GH100-nál, ahol a Grace CPU mellé egy GH100-as GPU csatlakozott, hanem két darab Grace CPU és összesen négy darab B200-as GPU. A folyadékhűtéses fiókok 80 PFLOP/s-os FP4-es és 40 PFLOP/s-os FP8-as számítási teljesítményt kínálnak. A rendszer tartalmaz NVLink Switch fiókokat is, amelyek ugyancsak folyadékhűtéssel rendelkeznek és fiókonként két NVLink Switchet tartalmaznak. Ilyen fiókokból egy teljes rack kilencet tartalmazhat. Minden egyes tálca 14,4 TB/s-os teljes adatátviteli sávszélességgel bír és a Sharp v4 compute modul is jelen van a fedélzetén.
A teljes GB200 NVL72 rack összesen 36 Grace CPU-t, valamint 72 Blackwell GPU-t rejt, így a teljes FP8-as számítási teljesítmény 720 PFLOP/s, míg az FP4-es számítási teljesítmény ennek pont duplája, 1440 PFLOP/s. Az Nvidia szerint a multi-node adatátviteli sávszélesség 130 TB/s, a rendszer pedig akár 27 billió paraméterből álló modelleket is kezelni képes, ami a nagy nyelvi modelleknél igencsak szélesre tárja a lehetőségek kapuját. A teljes rack 42 fiókjának fennmaradó részében a hálózati kapcsolatokat kezelő összetevők, illetve egyéb, az adatközpontok szegmensében használatos hardverek lapulnak.
Ezeken kívül jön még a DGX SuperPOD legújabb verziója, ami egy Blackwell alapú szuperszámítógép-fürt. A folyadékhűtéses rendszer abenne lévő DGX GB200-as egységeknek köszönhetően szédítően magas, 11,5 EXAFLOP/s-os maximális számítási teljesítmény elérésére képes FP4-es műveletek esetén, valamint összesen 240 TB-nyi szupergyors fedélzeti memóriát is tartalmaz. Minden egyes DGX GB200-as rendszerben 36 darab Nvidia Grace CPU és 72 darab Nvidia Blackwell GPU foglal helyet. A DGX GB200-as rendszerek egyenként 144 PFLOP/s-os számítási teljesítményre képesek FP4-es műveletek esetén, valamint 1,4 TB-nyi GPU memóriával büszkélkednek, ami 64 TB/s-os memória-sávszélességet kínál.
A 14,4 TFLOP/s-os In-Network Computing teljesítménynek köszönhetően, amit fentebb már említettünk, négyszeres gyorsulás mutatkozik az előző generációs DGX SuperPOD architektúrához képest. Az Nvidia szerint a vásárlók akár 576 Blackwell GPU-ból álló rendszert is építhetnek nyolc darab DGX GB200-as rendszer felhasználásával, amelyek között az ötödik generációs NVLink teremt kapcsolatot.
A fentebb említett konfigurációk még idén elérhetővé válnak, árakról és a megjelenés pontos időpontjáról azonban egyelőre nem esett szó.