Az Nvidia Blackwell architektúra köré épülő AI és HPC piaci gyorsítói körül már felmerült egy súlyosnak nevezhető probléma az elmúlt hónapok folyamán, amire a TSMC szakemberei mutattak rá, és ami miatt a szóban forgó gyorsítók grafikus processzorainak sorozatgyártását még csak nemrégiben, október végén sikerült elindítani. Ez már önmagában is okozott némi csúszást az eredeti tervekhez képest, aminek sem az Nvidia csapata, sem a vásárlók nem örültek. A The Information legfrissebb beszámolója szerint a nehézségek ezzel még nem értek véget, ugyanis az iparági pletykák alapján probléma mutatkozik a jelenlegi szerver rackek felépítése terén: ezek nem felelnek meg a Blackwell sorozatú AI és HPC piaci gyorsítók igényeinek, ami túlmelegedést eredményez, illetve extrém esetben a hardver károsodását is okozhatja.
A problémával főként a nagy teljesítménysűrűségű, 72 egységet tartalmazó NVL72 rackeknél találkoztak eddig, amelyeknél túlmelegedést tapasztaltak, ez pedig természetesen rontotta a GPU-k teljesítményét, illetve hosszabb távon hardveres meghibásodást is okozhat, így mindenképpen megnyugtató megoldást kell találni rá. Ez a megoldás a rackek újratervezése és hozzáigazítása a Blackwell alapú termékek igényeihez, ami a hírek szerint zajlik már egy ideje, ugyanis a vállalat több módosítást is eszközölt, de még mindig nincs megnyugtató megoldás a problémára. Ezek a szerverek akár 120 kWh-s fogyasztást is produkálhatnak, terheltségtől függően, valamint óriási mennyiségű hő is keletkezik bennük, amit nehéz hatékonyan eltávolítani. A partnerek jelenleg aggódnak, hogy a nehézségek miatt borulnak korábbi terveik, ami igazából érthető.
Az Nvidia csapata a hírek szerint arra utasította a beszállítókat, hogy végezzenek el különböző módosításokat a rackek esetében, ezzel elejét véve a túlmelegedésnek. A gyártó természetesen részt vesz a tervezésben és a tesztelésben is, ám a folyamat a jelek szerint hosszadalmasabb a vártnál, ami hatással lehet arra is, mikor kaphatják meg a vásárlók az általuk megrendelt termékeket. Az Nvidia szóvivője szerint az Nvidia és a felhőszolgáltatások között együttműködés húzódik, a rackek dizájnjának finomhangolása pedig a normál fejlesztési folyamat részének tekinthető – vagyis látszólag nem történik semmi rendkívüli. Az együttműködés azért is szükséges, hogy a végső termékek mind teljesítmény, mind pedig megbízhatóság terén megfeleljenek az elvárásoknak. A vállalat továbbra is azon dolgozik, hogy a műszaki kihívásokat megoldja, ám ezek pontos mibenlétét már nem részletezte a szóvivő.
A korábbi hiba, ami a Blackwell alapú szerverpiaci GPU-k dizájnját érintette, szintén okozott némi csúszást. A TSMC CoWoS-L tokozási technológiáját használó termékeknél, amelyek két chipletből állnak, a két egység között helyi szilícium összekötő hidak (LSI Bridges) teremtenek kapcsolatot,a melyek egy RDL Interposeren foglalnak helyet a chipletekkel együtt. Az első dizájn esetében hibás volt a formula, ugyanis a dizájn esetében probléma volt a hőtágulási együtthatókkal, ezekre a jelek szerint nem fordítottak kellő figyelmet, ami azt eredményezte, hogy a lapka végül vetemedni kezdett terhelés alatt, ami rendszerhibákat okozott, illetve a GPU működésképtelenségét is eredményezhette. Ezt a hibát az Nvidia elismerte, néhány maszk módosításával sikerült is megoldani, ám hivatalosan nem részletezték, pontosan mi miatt volt szükség a módosításra, a fenti információ csak szóbeszéd, aminek bőven lehet alapja.
Akárhogy is, az újabb nehézségek aggodalommal töltik el a nagy partnereket, így a Google, a Meta, illetve a Microsoft csapata is izgatottan várja, mikorra sikerült elhárítani az újabb hibát, és mikor sikerül leszállítani a megrendelt termékeket. Ezekre a gyorsítókra óriási szükség van, hiszen csak úgy tarthatják a partnerek az általuk megszabott ütemterveket, ha az ehhez szükséges hardver időben rendelkezésre áll. Most úgy tűnik, a Blackwell alapú AI és HPC piaci gyorsítók szállítása valamikor január vége felé kezdődhet meg.