Az AI PC kategória idén rajtol el úgy igazán, hiszen tömegesen jelennek majd meg azok a konfigurációk, amelyek már teljes mértékben megfelelnek a Microsoft által megszabott követelményeknek. Jelenleg ahhoz, hogy egy adott konfiguráció megfeleljen ennek az új kategóriának, rendelkeznie kell NPU-val, vagyis dedikált célhardverrel, ami az AI-hoz kapcsolódó munkafolyamatokat energiahatékonyan elvégzi. További követelmény a legalább 16 GB-nyi rendszermemória megléte, valamint az is hogy az NPU-nak 45 TOPS-os számítási teljesítménnyel kell rendelkeznie.
A felsorolt feltételeknek most még csak és kizárólag a Qualcomm Snapdragon X SoC egységekkel felvértezett konfigurációk felelhetnek meg, hiszen az NPU csak ezeknél a termékeknél éri el a 45 TOP/s-os teljesítményszintet, az Intel és az AMD kínálatában található termékek lassabbak, de e helyzet a következő generációs asztali- és mobil processzorok érkezésével változni fog. A felsorolt követelmények teljesítésével az adott PC képes az AI-hoz kapcsolódó feladatok helyi gyorsítására, így nem kell a felhőben rejlő lehetőségekhez fordulni, ami mind adatbiztonság, mind pedig késleltetés szempontjából jó választás lehet. A nagyobb teljesítményt igénylő AI feladatok esetén persze az NPU már kevésnek bizonyulhat, így vagy a felhőre, vagy a GPU-ra kell támaszkodnia a rendszernek.
Az Nvidia csapata egy nemrégiben megrendezett sajtóeseményen pont arról tett említést, hogy a Microsoft által meghatározott teljesítményszint, vagyis a 45 TOPS csak arra elegendő, hogy alap AI gyorsítási feladatokat ellásson a rendszer, ha nagyobb teljesítményre van szükség, akkor már a GPU-ra kell támaszkodni, és ezen a téren a GeForce RTX 40-es sorozat tagjai igencsak ütőképesek. Lényegében erre, vagyis a GeForce RTX 40-es sorozatú videokártyák teljesítményének taglalására helyezték a fő hangsúlyt az esemény alkalmával, több érdekes összehasonlítást is mutattak azzal kapcsolatban, mekkora előnyt kínálnak az Nvidia videokártyái az NPU-val felvértezett SoC egységekhez és a rivális AMD aktuális csúcskártyájához képest.
Az Nvidia szerint az RTX sorozatú grafikus processzorok sokkal-sokkal nagyobb számítási teljesítmény elérésére képesek az AI jellegű terhelésformák alkalmával, a teljesítményszint 100 TOPS és 1300 TOPS között helyezkedik el, modelltől függően. Az Nvidia szakemberei szerint éppen ezért a GeForce RTX sorozatú videokártyák prémiumkategóriás AI felszerelésnek minősülnek, míg az NPU-k csak az alapszintet ütik meg.
A felhő alapú szolgáltatások, ami AI gyorsítást kínálnak, a nehéztüzérség kategóriába tartoznak, hiszen több ezer TOPS-os számítási teljesítményt bocsátanak a felhasználók rendelkezésére. Ezek nagyrészt a vállalat saját gyorsítókártyái köré épülnek, hiszen az Nvidia egyeduralkodónak tekinthető az AI gyorsítók szegmensében.
A fenti állítások alátámasztására saját belsős teszteket is mutattak, méghozzá többfélét. Az első a tartalomkészítést vette célba, ahol a GeForce RTX 4090 Laptop GPU és a GeForce RTX 4050 laptop GPU teljesítményét mérték össze az Apple MacBook Pro noteszgépének fedélzetén dolgozó M3 Max teljesítményével. A tesztek alkalmával az Arnold, a Stable Diffusion, a Blender, a Chaos V-Ray, az Octane, az Adobe Premiere Pro Enhance Speech, a DaVinci Resolve és az ON1 Resize AI is előkerült.
A mérések alapján a GeForce RTX 4090 Laptop GPU-val szerelt rendszer az Apple MacBook Pro noteszgépéhez képest akár hétszer gyorsabb volt, de még a GeForce RTX 4050 Laptop GPU-val szerelt rendszer is kétszer gyorsabbnak bizonyult az Apple termékénél. A GeForce RTX 4090 Laptop GPU átlagban 5x, míg a GeForce RTX 4050 Laptop GPU átlagban 50-100%-kal jobb AI teljesítményt nyújtott, mint az Apple jelenlegi leggyorsabb „M” sorozatú SoC egysége, az M3 Max.
A következő nagy teszt a nagy nyelvi modelleket, azaz az LLM-eket célozta, azon belül is az Llama 2 7B int4 LLM került a középpontba. Itt a GeForce RTX 4090 Laptop GPU ellenfele az Apple M3 Max volt, míg a GeForce RTX 4050 Laptop GPU-nak az Apple M3 ellen kellett állnia a sarat. Alap esetben a GeForce RTX 4090 Laptop GPU előnye 42% volt, de ahogy a batch size értékét 8-ra módosították, a különbség 90%-ra nőtt.
A GeForce RTX 4050 Laptop GPU ezzel egy időben 48%-os előnyt mutatott fel az Apple M3-as SoC egységével szemben, míg a batch size értékének 8-ra történő módosítását követően itt is 90%-ra módosult a különbség. Ez jól mutatja, mennyire fontos a batch size optimalizációja, hiszen annak optimális beállításával még jobban teljesíthet az adott architektúra az alapértelmezett módhoz képest.
A harmadik tesztben az UL Procyon Stable Diffusion 1.5-ös tesztjét vették elő, amelyben a teljes asztali GeForce RTX 40-es sorozat képviseltette magát, míg a másik oldalon az AMD aktuális csúcskártyája, a Radeon RX 7900 XTX vonult fel. A mérések alapján a GeForce RTX 4070 Ti és a nála gyorsabb GeForce RTX 40-es sorozatú videokártyák mind felülmúlták a Radeon RX 7900 XTX teljesítményét, a GeForce RTX 4090 előnye például 2,8x-os volt. A GeForce RTX 4060 Ti és a GeForce RTX 4060 teljesítménye viszont már jóval szerényeb volt, mint a Radeon RX 7900 XTX-é, de nincs ebben semmi csoda. Az Nvidia csapata ezzel azt akarta sugallni, hogy az adott GeForce RTX 40-es sorozatú videokártya jelentősen gyorsabb, mint a vele egy szinten elhelyezkedő AMD modell, legalábbis ebben a konkrét tesztben.
Az Nvidia ezzel azt szerette volna leszögezni, hogy egyrészt a GeForce RTX 40-es sorozatú videokártyával szerelt termékek jelentősen gyorsabbak, mint a különböző processzorokba épített NPU-k, plusz sokkal széleseb körben is elérhetőek, hiszen több noteszgép és PC fedélzetén találkozhatunk velük, mint a neurális feldolgozó egységekkel. Ez igazából tény, viszont a Microsoft korábban kerek perec kijelentette, azok a konfigurációk felelnek meg az AI PC kategória követelményeinek, amelyek rendelkeznek NPU-val a CPU és a GPU mellett, vagyis a GeForce RTX sorozatú videokártyával felszerelt rendszerek többsége nem felel meg ennek az elvárásnak, hiszen nem kaptak NPU-t.
Noha a teljesítmény kiemelten fontos, de azt is érdemes kiemelni, hogy a Microsoftnál nemcsak az AI-hoz kapcsolódó terhelésformák alatt felmutatott teljesítményt tartják fontosnak, hanem azt is, hogy a gyorsítás energiahatékonyan történjen. Egy GeForce RTX 4090 Laptop GPU alapú rendszer jelentősen nagyobb teljesítményt kínál, mint egy NPU-val felszerelt SoC, cserébe viszont akár 2x-5x is többet fogyaszt, mint amennyit a szóban forgó SoC egységek elkérnek. Egy noteszgép esetében nagyon nem mindegy, hogy az akkumulátoros üzemidő hogyan alakul, éppen ezért az energiahatékonyság kritikusan fontos szempont.
Az NPU-k persze egészen biztosan fejlődni fognak a későbbiekben, és az sincs kizárva, hogy a Microsoft csapata végül módosít az AI PC kategória követelményein. Az is logikus lenne, ha több teljesítményszintet hoznának létre és ennek megfelelően alakítanák ki az alkategóriákat az AI PC kategórián belül, és ezeket külön-külön részletesen is definiálnák.