Kína legnagyobb GPU fejlesztője, a Moore Threads a minap egy elég érdekes bejelentéssel került a hírek középpontjába: a vállalat az ITHome beszámolója szerint sikeresen működésre bírta a manapság kifejezetten nagy népszerűségnek örvendő kínai nagy nyelvi modellt, a DeepSeek-et. A vállalat állítólag a DeepSeek V3-as és a DeepSeek R1-es modellt egyaránt sikeresen tudja futtatni saját fejlesztésű videokártyáin, ami azért is kifejezetten jó hír, mert ezáltal csökkenhet az Nvidia hardverekkel szembeni függőség mind a DeepSeek, mind pedig Kína esetében. Az ország hivatalosan egyébként sem férhet hozzá a legmodernebb AI és HPC piaci gyorsítókhoz, hála az amerikai exportkorlátozásoknak, de innen-onnan azért be-bekerül néhány olyan gyorsító az országba, amelyeknek elvileg nem lenne szabad bejutniuk, de ez már egy másik történet.
A Moore Threads a hírek szerint tehát sikeresen működésre bírta a DeepSeek-R1-Distill-Qwen-7B típusú nagy nyelvi modellt, ami 7 milliárd paraméterből áll, és ami nemcsak a cég klienspiacra szánt MTT-S80-as gamer videokártyáján lépett működésbe, hanem az adatközpontokba szánt MTT S4000-es gyorsítókártyán is. A vállalat a siker érdekében az Ollama névre keresztelt keretrendszert használta, ami segít abban, hogy nagy nyelvi modelleket futtassanak a felhasználók a macOS, a Linux, vagy éppen a Windows operációs rendszerrel ellátott konfigurációkon, de ezzel együtt egy optimalizált dedukciós motort is bevetettek, amellyel magas teljesítményt sikerült elérniük.
Noha a beszámoló „kiváló” és „magas” teljesítményről szól, azt sajnos nem árulta el a vállalat, ezek a jelzők pontosan mit jelentenek a számok nyelvén, vagyis nem derült ki, hogy az MTT S80 és az MTT S4000 hogyan teljesít a DeepSeek-R1-Distill-Qwen-7B modell alatt, sőt, az sem világos, a számai hogyan viszonyulhatnak a konkurensek gyorsítóinak teljesítményéhez. Konkrét adatok hiányában egyelőre nem állhat össze a teljes kép, és mivel a Moore Threads termékei jellemzően csak Kínán belül kaphatóak, letesztelni is nehéz a vállalat állításait, legalábbis egyelőre.
Maga az Ollama egyébként számos nagy nyelvi modellt támogat, ezek között jelen van például a Mistra, a Gemma 2, a Llama 3.3, illetve a DeepSeek-R1 és a Phi-4 is. A keretrendszert elsősorban a macOS-hez fejlesztették ki, éppen ezért rendelkezik Metal támogatással az Apple GPU-i mellé, ugyanakkor Nvidia CUDA és AMD ROCm támogatást is kapott, így az Nvidia és az AMD kártyáival is használható. A keretrendszer hivatalosan nem kompatibilis a Moore Threads termékeivel, de a vállalat azt állítja, ez nem is probléma, ugyanis termékei képesek a CUDA támogatással rendelkező GPU-k számára lefordított kódok futtatására. Az eredmény alapján úgy tűnik, a Moore Threads grafikus processzorai valóban képesek a CUDA kód futtatására, amihez valószínűleg az Nvidiának is lesz egy-két szava a későbbiekben.
Annak érdekében, hogy a Moore Threads GPU-in még jobb teljesítménnyel futhassanak a különböző LLM-ek, a vállalat fejlesztőcsapata egy szabadalmaztatott dedukciós motort is készített hozzájuk, ami számítással kapcsolatos optimalizációkat éppúgy kapott, mint memóriamenedzsmenttel kapcsolatos fejlesztéseket. A szoftver és a hardver integrációja segít a számítási teljesítmény és az erőforrás-használat hatásfokának jelentős mértékű javításában, valamint azt is biztosítja, hogy az egyes LLM-ek alkalmazása zökkenőmentes legyen, illetve a később megjelenő AI modellek kezelésére is képes lesz.
Egyes kínai kutatók jóvoltából egyébként egy másik területen is próbálják csökkenteni a csúcskategóriás Nvidia hardvertől való függőséget: nemrégiben egy olyan új algoritmust sikerült kifejleszteniük, ami akár 800-szor gyorsabb futást eredményez a különböző szimulációk esetében, ahogy arról korábbi hírünkben már írtunk.