Az Nvidia Blackwell sorozatú AI gyorsítói túlmelegszenek, hozzájuk kell igazítani a rackek hűtését

AZ NVIDIA BLACKWELL SOROZATÚ AI GYORSÍTÓI TÚLMELEGSZENEK, HOZZÁJUK KELL IGAZÍTANI A RACKEK HŰTÉSÉT

Ez a vásárlók számára késéseket okoz, így érthető, ha aggódnak.

Víg Ferenc (J.o.k.e.r)

Az Nvidia Blackwell architektúra köré épülő AI és HPC piaci gyorsítói körül már felmerült egy súlyosnak nevezhető probléma az elmúlt hónapok folyamán, amire a TSMC szakemberei mutattak rá, és ami miatt a szóban forgó gyorsítók grafikus processzorainak sorozatgyártását még csak nemrégiben, október végén sikerült elindítani. Ez már önmagában is okozott némi csúszást az eredeti tervekhez képest, aminek sem az Nvidia csapata, sem a vásárlók nem örültek. A The Information legfrissebb beszámolója szerint a nehézségek ezzel még nem értek véget, ugyanis az iparági pletykák alapján probléma mutatkozik a jelenlegi szerver rackek felépítése terén: ezek nem felelnek meg a Blackwell sorozatú AI és HPC piaci gyorsítók igényeinek, ami túlmelegedést eredményez, illetve extrém esetben a hardver károsodását is okozhatja.

A problémával főként a nagy teljesítménysűrűségű, 72 egységet tartalmazó NVL72 rackeknél találkoztak eddig, amelyeknél túlmelegedést tapasztaltak, ez pedig természetesen rontotta a GPU-k teljesítményét, illetve hosszabb távon hardveres meghibásodást is okozhat, így mindenképpen megnyugtató megoldást kell találni rá. Ez a megoldás a rackek újratervezése és hozzáigazítása a Blackwell alapú termékek igényeihez, ami a hírek szerint zajlik már egy ideje, ugyanis a vállalat több módosítást is eszközölt, de még mindig nincs megnyugtató megoldás a problémára. Ezek a szerverek akár 120 kWh-s fogyasztást is produkálhatnak, terheltségtől függően, valamint óriási mennyiségű hő is keletkezik bennük, amit nehéz hatékonyan eltávolítani. A partnerek jelenleg aggódnak, hogy a nehézségek miatt borulnak korábbi terveik, ami igazából érthető.

Az Nvidia csapata a hírek szerint arra utasította a beszállítókat, hogy végezzenek el különböző módosításokat a rackek esetében, ezzel elejét véve a túlmelegedésnek. A gyártó természetesen részt vesz a tervezésben és a tesztelésben is, ám a folyamat a jelek szerint hosszadalmasabb a vártnál, ami hatással lehet arra is, mikor kaphatják meg a vásárlók az általuk megrendelt termékeket. Az Nvidia szóvivője szerint az Nvidia és a felhőszolgáltatások között együttműködés húzódik, a rackek dizájnjának finomhangolása pedig a normál fejlesztési folyamat részének tekinthető – vagyis látszólag nem történik semmi rendkívüli. Az együttműködés azért is szükséges, hogy a végső termékek mind teljesítmény, mind pedig megbízhatóság terén megfeleljenek az elvárásoknak. A vállalat továbbra is azon dolgozik, hogy a műszaki kihívásokat megoldja, ám ezek pontos mibenlétét már nem részletezte a szóvivő.

A korábbi hiba, ami a Blackwell alapú szerverpiaci GPU-k dizájnját érintette, szintén okozott némi csúszást. A TSMC CoWoS-L tokozási technológiáját használó termékeknél, amelyek két chipletből állnak, a két egység között helyi szilícium összekötő hidak (LSI Bridges) teremtenek kapcsolatot,a melyek egy RDL Interposeren foglalnak helyet a chipletekkel együtt. Az első dizájn esetében hibás volt a formula, ugyanis a dizájn esetében probléma volt a hőtágulási együtthatókkal, ezekre a jelek szerint nem fordítottak kellő figyelmet, ami azt eredményezte, hogy a lapka végül vetemedni kezdett terhelés alatt, ami rendszerhibákat okozott, illetve a GPU működésképtelenségét is eredményezhette. Ezt a hibát az Nvidia elismerte, néhány maszk módosításával sikerült is megoldani, ám hivatalosan nem részletezték, pontosan mi miatt volt szükség a módosításra, a fenti információ csak szóbeszéd, aminek bőven lehet alapja.

Akárhogy is, az újabb nehézségek aggodalommal töltik el a nagy partnereket, így a Google, a Meta, illetve a Microsoft csapata is izgatottan várja, mikorra sikerült elhárítani az újabb hibát, és mikor sikerül leszállítani a megrendelt termékeket. Ezekre a gyorsítókra óriási szükség van, hiszen csak úgy tarthatják a partnerek az általuk megszabott ütemterveket, ha az ehhez szükséges hardver időben rendelkezésre áll. Most úgy tűnik, a Blackwell alapú AI és HPC piaci gyorsítók szállítása valamikor január vége felé kezdődhet meg.

nem elérhető

Üres a kosarad!

Termék

nem elérhető

AZ NVIDIA BLACKWELL SOROZATÚ AI GYORSÍTÓI TÚLMELEGSZENEK, HOZZÁJUK KELL IGAZÍTANI A RACKEK HŰTÉSÉT

TOP 5 AZ IPON-ON