Meglehetősen érdekes kijelentés hangzott el az adatközpontokba szánt GPU-kkal kapcsolatban, ami állítólag a Google anyavállalatánál, az Alphabetnél dolgozó egyik magas beosztású specialistáról származik. A név nélkül nyilatkozó szakember azt állítja, az AI és HPC piaci gyorsítók az adatközpontokra jellemző tipikus körülmények között mindössze 1-3 éves életciklussal rendelkeznek.
Amennyiben ez igaz, akkor az említett időtartam letelte után mindenképpen új termékekkel kell pótolni a meghibásodó eszközöket, ami extra költséget jelenthet, cserébe viszont jó eséllyel már rendelkezésre áll egy új-generációs gyorsító, ami még nagyobb számítási teljesítményt kínál, így még hamarabb megtérülhet a megvásárlása. Már amennyiben az adott platform, az adott hardverkörnyezet, illetve a hűtéssel kapcsolatos lehetőségek megfelelnek a gyorsítókártya által támasztott igényeknek – a TDP keret növekedése miatt a tápellátás és a hűtés is szűk keresztmetszet lehet.
A szakember szerint – aki név nélkül nyilatkozott, így egyelőre érdemes távolságtartóan kezelni állításait – az adatközpontokban, azon belül is a felhőszolgáltatásokat nyújtó rendszereknél jellemzően 60% és 70% közé esik a GPU-k terhelése, ha AI jellegű munkafolyamatokról van szó. Ilyen körülmények között nagyrészt 1 vagy 2 évet üzemelnek hiba nélkül a gyorsítókártyák, de legjobb esetben is 3 év után cserélni kell őket, ugyanis meghibásodnak. A Tech Fund által megszólaltatott szakember pont az AI-hoz kapcsolódó területen dolgozik, mérnökként, az Alphabet kötelékében, ám állításait sajnos nem lehet ellenőrizni, legalábbis egyelőre. A Tech Fund egyébként meglehetősen jó és megbízható iparági forrásokkal rendelkezik, ráadásul régóta, így „lehet adni a szavára”.
Az élettartam növelésének egyik lehetséges módja a szakember szerint egyszerűen az, hogy csökkenteni kell a gyorsítókártyák terhelését. Ez igazából egyszerűen és kézenfekvően hangzik, viszont egyrészt elnyújtja a megtérülési időt, másrészt pedig csökkenti a rendelkezésre álló számítási teljesítményt, ami miatt ugyanakkora számítási teljesítményhez több kártyára van szükség, ez pedig nem mindig járható út. A több kártya több racket igényel, illetve több helyet foglal, így még jobban kitolódik a megtérülési idő, hiszen ez mind-mind többletköltséget jelent.
A kártyák meghibásodását nem feltétlenül a GPU meghibásodása okozza, ahogy arra a Meta korábbi tanulmánya is rámutatott. Akkoriban egy Llama 3 405B modellt tréningeztek egy speciális GPU fürtön, ami 16 384 darab Nvidia H100-as gyorsítóból állt, amelyek egyenként 80 GB-nyi HBM3-as fedélzeti memóriával rendelkeztek. Az MFU ráta (Model Flop Utilization) ebben az esetben mindössze 38% volt és BF16 számításokat végeztek a gyorsítók, ennek ellenére 419 nem várt meghibásodás történt 54 napnyi üzemidő leforgása alatt. Ebből 148 darab, azaz 30,1% volt a GPU alapú meghibásodások száma, amelyek között NVLink jellegű meghibásodások is voltak, míg 72 esetben, azaz 17,2%-ban a HBM3-as fedélzeti memóriához kapcsolódó hibák hátráltatták a munkát.