Shop menü

FOLYAMATOS HARDVERHIBÁK NEHEZÍTIK A VILÁG LEGGYORSABB SZUPERSZÁMÍTÓGÉP-FÜRTJÉNEK HASZNÁLATÁT

Az egyes hibajelenségek között eltelő idő ebben az esetben nem is napokban, hanem pusztán néhány órában mérhető.
Víg Ferenc
Víg Ferenc
Folyamatos hardverhibák nehezítik a világ leggyorsabb szuperszámítógép-fürtjének használatát

A szuperszámítógép-fürtök szegmensében folyamatosan zajlanak a fejlesztések annak érdekében, hogy a jelenlegieknél még gyorsabb konfigurációk készülhessenek, ám a munka sokszor komoly kihívásokkal jár, illetve a rendszerek üzemeltetése során is előfordulhatnak kisebb-nagyobb problémák. Az amerikai Oak Ridge National Laboratory területén található Frontier szuperszámítógép-fürt, amely elsőként törte át az ExaFLOP/s-os határt, a jelek szerint folyamatos hardverhibáktól szenved, amelyek elhárításával sokat küzdenek az üzemeltető csapat tagjai.

Ez a szuperszámítógép-fürt azért különleges, mert összesen 1,685 ExeFLOP/s-os dupla pontosságú számítási teljesítményt kínál, hála a 64-magos AM EPYC szerverprocesszoroknak, az AMD Instinct MI250X gyorsítókártyáknak, valamint a HPE Slingshot összekötő technológiájának. A 21 MW-os fogyasztás mellett üzemelő Frontier papíron egy igen ütőképes és komoly szuperszámítógép-fürtnek minősül, ám az üzemeltetése során azért felmerülnek problémák.

Galéria megnyitása

A hardverhibák eredetét még tanulmányozzák az üzemeltetők, erről az Oak Ridge Leadership Computing Facility programigazgatója, Justin Whitt számolt be az InsideHPC munkatársainak. Ekkora léptéknél a szakember szerint várhatóak hibák, ezek a jelek szerint gyakran elő is fordulnak, ugyanis a rendszer MTBF ideje, vagyis a hibák között átlagosan eltelő idő mennyisége sajnos nem tesz ki napokat, néhány óránként jelentkeznek rendellenességek.

Arról már korábban is pletykáltak, hogy a Frontier körül nincs minden rendben, ám hivatalos forrásból még csak most erősítették meg, hogy valóban előfordulnak hardverhibák. A korábbi pletykák alapján a HPE Slingshot összekötője rendetlenkedett olykor-olykor, míg egyéb beszámolók szerint az AMD MI250X típusú gyorsítókártyájának megbízhatóságával kapcsolatban is vannak problémák, ugyanis a termék nem annyira megbízható, mint azt várták. Utóbbi termék egyébként csak bizonyos ügyfelek számára érhető el. Justin Whitt ezeket nem erősítette meg külön-külön, és részükről jelenleg az AMD termékekkel kapcsolatban sem állnak fenn aggodalmak. Annyi biztos, hogy a GPU-k körül sok a kihívás, de egyéb területeken is felmerülnek meghibásodások.

A Frontier a kutatók számára eredetileg még idén elérhetővé válhatott volna, ám erre már nem valószínű, hogy sor kerül, majd csak valamikor 2023 folyamán nyílhat ilyesmire mód, már amennyiben sikerül feltárni a meghibásodások okait, és sikerül is őket javítani.

Neked ajánljuk

    Tesztek

      Kapcsolódó cikkek

      Vissza az oldal tetejére