Az AMD ígéretének megfelelően ma bemutatkoztak az első RDNA 3 alapú asztali gamer videokártyák, amelyek első körben ketten lesznek: az egyik a Radeon RX 7900 XTX, a másik pedig a Radeon RX 7900 XT, ahogy azt a pletykák is jósolták. Az újdonságok mind sebesség, mind funkcionalitás, mind pedig energiahatékonyság terén nagy fejlődést képviselnek az előző generációhoz, vagyis az RDNA 2 alapú videokártyákhoz képest, és a jelek szerint árazás terén is barátiak lesznek: a csúcskártyáért 999 dollárt, a második leggyorsabb modellért pedig 899 dollár kérnek majd. Hogy mi mindent érdemes tudni az újdonságokról? Az alábbiakban összefoglaljuk, az éppen rendelkezésre álló információk alapján.
Dr. Lisa Su megmutatta az első RDNA 3 alapú asztali GPU-t
A Radeon RX 7900-a sorozat alapjául szolgáló NAVI 31-es GPU egy igazi különlegesség, ugyanis a pletykáknak megfelelően valóban chipletes felépítést alkalmazó megoldásról van szó, ahogy az várható volt. Az AMD vezetőjének kezében látható GPU (borítókép), amiről lentebb egy sokkal jobb, részletesebb kép is látható, a lehető legmodernebb gyártástechnológiákkal készült.
A Graphics Compute Die (GCD) esetében az 5 nm-es csíkszélességre esett a választás, ugyanis az általa kínált előnyökből remekül profitálnak a lapkán található komponensek, ezért megéri a költségesebb eljárást választani. Ezzel szemben az MCD chipletek, amelyek a GDDR6-os memóriavezérlőket és az Infinity Cache egy-egy szeletét tartalmazzák, szám szerint összesen hatan vannak és egyenként 2 x 32-bites memória-adatsínt kínálnak, már a kiforrottabb és olcsóbb 6 nm-es csíkszélesség köré épülnek.
A teljes chip rendkívül sok, összesen 58 milliárd darab tranzisztorból épül fel, a tranzisztorsűrűség lényegében 165%-kal magasabb, mint amit az RDNA 2 alapú grafikus processzoroknál megszokhattunk – ennyivel több transzitor foglal helyet egyetlen négyzetmilliméteren. A tranzisztorok száma az RDNA 2-es csúcskártyáéhoz képest 2,16x-os mértékben nőtt, ami szintén impresszív adat, a lenti táblázat pedig azt is megmutatja, hogyan áll ez a mennyiség a GeForcre RTX 40-es sorozat Ada Lovelace GPU-ihoz képest. A maximum 61 TFLOP/s-os egyszeres pontosságú számítási teljesítmény elérésére képes GPU fedélzetén igencsak gyors, 5,3 TB/s-os adatátviteli sávszélességgel dolgozó összekötő dolgozik, ami a chipletek közötti kommunikációt biztosítja. Ez utóbbi igen komoly előrelépés, ugyanis az RDNA 2 alapú videokártyákhoz képest 2,7x-esére nőtt a maximális adatátviteli sávszélesség, ami a sebességre is jótékony hatást gyakorol.
A GPU tekintetében érdekes változás, hogy a SIMD egységek innentől kezdve egyszerre akár két párhuzamos feladatot is végrehajthatnak, ami ismerős lehet a VLIW érából – ennek vannak előnyei és hátrányai is. Egy-egy ALU innentől kezdve úgy viselkedik bizonyos esetekben, mintha 64 helyett 128 stream egységet tartalmazna, viszont ez nem tényleges, fizikai duplázás, azaz nincs ténylegesen kétszer annyi stream egység az egyes CU tömbökben, sokkal inkább arról van szó, hogy egy-egy SIMD sávon keresztül ciklusonként két műveletet lehet végrehajtani, már amennyiben az adott terhelésforma ezt lehetővé teszi. Ez nagyon jó lehet, amennyiben a hardver és a szoftver együttműködésének köszönhetően az éppen feldolgozott műveletcsoportból (wavefront) ki lehet úgy szedegetni az utasításokat, hogy azok egymással párhuzamosan végrehajthatóak legyenek, ekkor ugyanis egyszerre két feladat futhat egymással párhuzamosan.
Ez az Instruction Level Parallelism, ami a VLIW érából már ismerős lehet, és ez az a funkció, ami egy kétélű fegyver: sokat hozhat a konyhára, de ha nincs mód a párhuzamosításra, sokat is elvesz, hiszen az egyik SIMD feladatvégzés helyett egy vagy több cikluson keresztül csak pihen. Az AMD ezzel a koncepcióval korábban már szakított, most azonban a jelek szerint ismét visszatértek hozzá, igaz, a pontos technológiai megoldást nem részletezték, illetve a tényleges teljesítményt sem láttuk, így korai még pálcát törni a fejlesztők felett. A teljesítmény kérdésére később még részletesebben is kitérünk, abból kiderül, mekkora a különbség az elméleti és az átlagos valós értékek között.
Változás még egyébként az is, hogy az RDNA 2-es megoldásokhoz képest növelték a Vector General Purpose Register kapacitását, méghozzá 50%-kal, valamint végre dedikált AI gyorsító részleget is építettek a GPU-ba, ami mindenképpen üdvözlendő, hiszen ilyesmi a riválisok háza táján már van.
Az AI gyorsítókkal kapcsolatban túl sok részletet nem osztottak meg, de annyi azért kiderült, hogy a Radeon RX 6950 XT-hez képest 2,7x magasabb AI teljesítményt tud felmutatni a Radeon RX 7900 XTX, ami igen komoly előrelépés – ezt egyébként a bfloat16 teljesítmények összehasonlításával mérték ki. Az AI gyorsítók megléte előrevetíti azt is, hogy a jövőben például az AMD FSR is elkezdi kiaknázni a bennük rejlő lehetőségeket, valamint azok a felhasználók is kamatoztathatják őket a mindennapokban, akik AI jellegű terhelésformákat futtatnak.
A GPU esetében a Ray-Tracing részleget sem hagyták érintetlenül, itt bemutatkoztak a második generációs RT egységek, amelyek 1,5x több fénysugár kezelésére képesek egyidejűleg, mint az első generációs megoldások. Funkcionalitás terén belépett a képbe a Ray Box Sorting és a Traversal, amelyek az RDNA 2 esetében még hiánycikknek minősülnek.
Noha a mélyebb részletekbe RT fronton sem mentek bele az illetékesek, az tisztán látszik, hogy az RT teljesítmény növelése is rendkívül fontos szempont volt: az újítások segítenek a teljesítmény növelésében, a látványvilág is szebb lesz, valamint a CU tömbökre sem jut akkora terhelés. Maga az RT teljesítmény egyébként az első generációhoz képest 47% és 84% közötti mértékben emelkedik, ám a számok picit megtévesztőek, ugyanis a gyorsulást az FSR engedélyezése mellett mérték, így nem tisztán az RT teljesítmény növekedését mutatják.
GPU fronton egy további érdekesség, hogy szétválasztották a Front-End és a Shader részleg órajelét, méghozzá annak érdekében, hogy a rendszer hatékonyabban működhessen, ezzel egy időben pedig akár 25%-nyi energiamegtakarítást is el lehet érni. Itt a teljesítményt erősen befolyásolja, hogy a Front-End milyen hatékonyan és gyorsan tudja ellátni feladattal a Shader részleget, éppen ezért az órajel kiemelten fontos lehet. A mérnökök úgy ítélték meg, a Front-End órajelének növelésével a teljesítmény is növekedni fog, és a tesztek is ezt mutatták: a Radeon RX 7900 XTX esetében a Front-End részleg 2,5 GHz-en, a Shaderek viszont csak 2,3 GHz-en ketyegnek. Az alacsonyabb shader órajel segítségével sokat lehet faragni a fogyasztáson, hiszen akkor egy viszonylag nagy lapkaterület dolgozik, meglehetősen sok erőforrással, míg a Front-End ehhez képest relatíve kicsi, ezáltal a fogyasztása is kisebb, ha pedig gyorsabban dolgozik, az segít a CU tömbök jobb kihasználtság mellett történő futtatásában.
A fentiek miatt a Radeon RX 7000-es és a Radeon RX 6000-es sorozat esetében nem is igazán összehasonlíthatóak a számítási teljesítmények, mert ami papíron szépnek tűnik, az a valóságban csak optimális esetben érhető el, a tényleges teljesítmény alacsonyabb lesz. a Radeon RX 7900 XTX például 2,6x magasabb FP32-es számítási teljesítményt tud felmutatni, mint a Radeon RX 6950 XT, viszont a valós teljesítmény esetében az AMD „csak” 1,7x-es gyorsulásról tesz említést, pont a fentiek miatt.
Maga a GCD lapka, ami a CU tömbökön felül a videó kódoló motorokat és a kijelző-vezérlőt egyaránt tartalmazza, 300 mm2 –es kiterjedéssel bír és a TSMC N5 gyártástechnológiáját használja, míg a maximum hat darab MCD (Memory Cache Die) esetében egyenként 37 mm2 –es kiterjedéssel számolhatunk és a TSMC N6 gyártástechnológiája áll a háttérben. Az MCD lapkák az Infinity Cache második generációs kiadását tartalmazzák, ami maximum 96 MB-nyi kapacitással áll a GPU rendelkezésére. Ez visszalépésnek tűnhet az RDNA 2 esetében elérhető 128 MB-os maximumhoz képest, és kapacitás terén papíron az is, viszont optimalizálták a működést, ennek megfelelően az adat-újrahasznosítás mértéke magasabb, ám az jelenleg nem világos, hogy itt csak hardveres, vagy hardveres és szoftveres módosítások is állnak-e a háttérben – a későbbiekben erre is fény derülhet.
A kijelző-vezérlő szintén frissült, méghozzá igen nagy mértékben, ugyanis immár DisplayPort 2.1-es támogatással rendelkezik, és az UHBR1a mellett az UHBR13,5 adatrátát is támogatja, vagyis a DisplayPort 1.4 alapú elődökhöz képest kétszer nagyobb sávszélességet biztosít, valamint a HDMI 2.1 sávszélességét is felülmúlja. A Display Link sávszélessége immár 54 Gbps, és a csatornánkénti 12-bites színkezelés is támogatott, ami 68 milliárd színárnyalat megjelenítését teszi lehetővé. Az új kijelző-motor segítségével a 8K-s 165 Hz-es és 4K-s 480 Hz-es támogatás is elérhető, valamint a FreeSync támogatás is biztosított.
Az AMD természetesen a partnerekkel is együttműködik annak érdekében, hogy az új kijelző-vezérlőben rejlő lehetőségeket kamatoztatni lehessen. Az egyik ilyen partnere a Samsung lesz, aki 2023 januárjában bemutatja az első olyan ívelt kijelzős extra-szélesvásznú monitort, amely 8K-s vízszintes felbontással büszkélkedik. A friss monitor az Odyssey Neo G9 lesz, ami DisplayPort 2.1-es videó bemenettel érkezhet és AMD FreeSync Premium támogatást kap, a hátoldalán pedig egy látványos aRGB LED gyűrűt láthatunk majd.
A kijelző-vezérlő mellett a médiatartalmak kódolásával és dekódolásával foglalkozó részleg is megújult, immár dupla médiamotort találunk a fedélzeten. A támogatott kodekek között az AV1 is jelen van, és itt nemcsak az AV1-es tartalmak dekódolásának hardveres gyorsítására kell gondolni, hanem a kódolás hardveres gyorsítására is – mindkét esetben 8k60p-s felbontásig terjed a támogatás. A motorok órajele a korábbihoz képest 1,8x-os mértékben növekedett, azaz e tekintetben 80%-kal gyorsabbak, mint RDNA 2 alapú társaik, extraként pedig akár két darab H.264/H.265 tartalom egyidejű kódolására és dekódolására is lehetőséget adnak, az viszont rejtély, hogy ez az opció az AV1 tartalmak esetében is elérhető-e – majd fény derül rá.
A videó kódoláshoz és dekódoláshoz kapcsolódik az AMD Smart Access Video funkció is, ami lehetővé teszi, hogy az adott konfigurációban található Radeon videokártya és RYZEN processzor között megossza a rendszer a tartalmak kódolásával és dekódolásával kapcsolatos feladatokat, ennek hatására akár 30% gyorsulás is elérhető, ha több 4K-s videót próbálunk egyszerre átkódolni, ami nagyon jól hangzik. Az első független tesztek majd rámutatnak, mire is képes a technológia a gyakorlatban.
Ejtsünk még néhány szót a videó kimenetekről és a PCI Express csatolófelületről is. Videó kimenetek terén a háromventilátoros hűtéssel ellátott videokártyák ugyanazt kínálják: két DisplayPort 2.1-es, egy HDMI 2.1-es, valamint egy USB-C csatlakozót. Az USB-C ebben az esetben nem a VR Headsetek kiszolgálását segíti, mint anno az Nvidia háza táján, hanem a DisplayPort Alternate Mode-ban rejlő lehetőségek kiaknázásáért került a kártyákra, azaz USB-C videó bemenettel ellátott monitorokhoz passzol. PCI Express fronton ez a generáció is maradt a 4.0-s szabványnál, csak úgy, ahogy az Intel Arc A, illetve az Nvidia GeForce RTX 40-es családja. Egyelőre tehát egyetlen gyártó sem gondolta még úgy, hogy a PCI Express 5.0-s szabvány által biztosított kétszer nagyobb adatátviteli sávszélesség hozhat annyit a konyhára, mint amennyivel drágább és bonyolultabb a bevetése a 4.0-s x16-os linkhez képest.
Új technológiák is érkeznek az új videokártyákkal karöltve
Az AMD az előadás alkalmával megvillantotta a következő generációs FSR technológiát is, ami az Unreal Engine 5 demó keretén belül bontakozhatott ki. Első körben a Radeon RX 7000-es sorozatú videokártya az FSR 2 használatával 60 FPS teljesítményt ért el, majd átkapcsoltak FSR 3-ra, a teljesítmény pedig közel a duplájára katapultált, azaz 112 FPS-re ugrott. Az AMD szerint az FSR 3 segítségével akár 2x-es teljesítménynövekedés elérésére is van lehetőség, ezt lényegében be is mutatták a fenti demón keresztül.
Az FSR 3 része lesz a Fluid Motion Frames Technológia is, ám azt egyelőre nem részletezték, ez pontosan mit is jelent, hogyan működik, és mekkora része van a teljesítmény növelésében. Maga a koncepció nagyon emlékeztet a DLSS 3 újítására. Az viszont kiderült, hogy az FSR 3 jövőre egészen biztosan debütálni fog, viszont konkrét megjelenési dátumot egyelőre nem árultak el.
Technológiák terén fontos újítás lesz a Hypr-RX is, ami lényegében segít abban, hogy a GPU driver által kínált egyes funkciókat egyetlen kattintással, optimalizált formában érhessük el – itt egyebek mellett a Radeon Boost és a Radeon Anti-Lag technológiákra kell gondolni. Az új funkció az AMD szerint nemcsak a teljesítményt növeli, hanem a késleltetést is segít visszafogni: a Dying Light 2 alatt például akár 85%-kal jobb teljesítményre lehet számítani, közben a késleltetés a normál egyharmada is lehet. A Hypr-RX lényegében az Nvidia Reflex és DLSS technológiák ellen száll harcba az AMD térfelén, érkezésére azonban egy kicsit várni kell, ugyanis majd csak valamikor a következő év első felében debütálhat, alighanem egy nagy Adrenalin driver funkcióbővítő frissítés keretén belül.
Hogyan alakul a teljesítmény?
A belsős méréseknek köszönhetően képet kaphatunk azzal kapcsolatban is, hogyan teljesít a Radeon RX 7900 XTX az aktuális AMD csúcskártyával, a Radeon RX 6950 XT modellel szemben. A gyorsulás mértéke az AMD szerint 50% és 70 % közötti mértékű, ha natív 4K-s felbontásban történik a renderelés, természetesen játéktól függően, ami nem hangzik rosszul, a teljesen részletes képért azonban meg kell várnunk az első független tesztek megjelenését.
További érdekes adat, hogyan teljesít az újdonság az eSport címek alatt. Itt elég impresszív FPS értékeket láthatunk, amelyek alapján úgy tűnik, nem lesz gond a kifejezetten magas képfrissítési rátával és akár magas felbontással is büszkélkedő monitorok meghajtása, természetesen akár AMD FreeSync támogatás mellett sem, legalábbis 1440p-s felbontás esetén biztosan nem.
Nézzük a lényeget: itt a Radeon RX 7900 XTX és a Radeon RX 7900 XT
Az AMD a tervek szerint 2022. december 13-án dobja piacra az RDNA 3 architektúra köré épülő első két videokártyát, amelyek sorrendben 999 és 899 dolláros listaáron érkeznek. Az ígéret szerint már az első napon elérhetővé válnak a partnerek által készített egyedi modellek is, azaz teljes gőzzel letámadják a piacot.
A Radeon RX 7900 XTX esetében egy teljes funkcionalitású NAVI 31-es GPU adja az alapot, ami ebben a kiépítésben összesen 96 CU tömbbel rendelkezik, ezek pedig papíron 12288 stream egységgel ajándékozzák meg a rendszert, valójában azonban 6144 stream egység alkotja a felhozatalt. A Game Clock ebben az esetben 2,3 GHz lesz, amihez 2,5 GHz körüli Boost Clock társul. A GPU összesen 96 MB-nyi Infinity Cache társaságában dolgozhat, mint a hat darab 2x 32-bites GDDR6-os memóriavezérlő aktív lesz, így a memória-adatsín 384-bites sávszélességgel büszkélkedik. Erre összesen 24 GB-nyi GDDR6-os fedélzeti memória kapcsolódik, ami várhatóan 20 GHz-es effektív órajelet alkalmaz, így a memória-sávszélesség 960 GB/s lesz – jelentősen több, mint a Radeon RX 6900-as sorozat tagjainál, a Radeon RX 6950 XT esetében például csak 576 GB/s volt ez az érték. A Radeon RX 7900 XTX természetesen magasabb TDP kerettel rendelkezik majd, mint a Radeon RX 6950 XT, viszont az energiahatékonyság a tervezett 50%-ot felülmúlja: végül 54%-ot sikerült elérni. Ezúttal tehát 355 W-os TDP keretre számíthatunk (95 W-tal kevesebbre, mint a GeForce RTX 4090 esetében), ennek kiszolgálásához két darab nyolctűs PCI Express tápcsatlakozót használnak a referencia dizájn esetében, az AIB partnerek egyedi felépítésű videokártyáin azonban három ilyen tápcsatlakozó is lehet.
Az előadás alkalmával megjegyezték, hogy az AMD videokártyák egyszerűen illeszkednek majd a meglévő rendszerekbe, sem új tápegység, sem új ház, sem új tápátalakító nem kell hozzájuk – utóbbival a GeForce RTX 4090-re, illetve az új 12VHPWR tápcsatlakozóra utaltak, ami most elég sok fejtörést okoz az Nvidiának és partnereinek. Ezt a döntést, vagyis a 12VHPWR tápcsatlakozó mellőzését elég korán meghozták, ugyanis a komplexitás és a költség túl nagy lett volna, és ráadásul nincs is szükség a tápcsatlakozó alkalmazására, hiszen a TDP keretet a jó öreg nyolctűs PCI Express tápcsatlakozók is ki tudják szolgálni.. A Radeon RX 7900 XT 999 dolláros áron érkezik. Ez a modell várhatóan akár 70%-kal is gyorsabb lesz a Radeon RX 6950 XT-nél 4K-s felbontás tekintetében, míg az RT teljesítmény akár 60%-kal is jobb lehet. Ez várhatóan elég lehet a GeForce RTX 4080 teljesítményszintjének elérésére, ám a GeForce RTX 4090 ellen kevés lesz, de azzal a modellel eleve nem is akartak birokra kelni – más ligát képvisel mind árban, mind teljesítményben. A Radeon RX 7900 XTX méret terén ugyanolyan magas és széles lesz, mint a Radeon RX 6950 XT, a hosszát viszont 10 milliméterrel növelték (277-ről 287 milliméterre), a 2,5 slotos általános dizájn azonban marad.
Vele együtt egy Radeon RX 7900 XT jelölésű modellre is számíthatunk, ami ugyancsak NAVI 31 alapokon nyugszik, ám itt már egy kicsit megvágják a lapkát, kevesebb erőforrás áll rendelkezésre. A 96 CU tömbből mindössze 84 lesz aktív, ami azt jelenti, hogy 12288 stream egység helyett csak 10752 lesz aktív – vagyis 6144 helyett fizikailag 5376 stream egységet rejt a GPU a dolgok jelenlegi állása szerint. Ezzel együtt a GPU órajele is csökken, ugyanis a Game Clock 2 GHz lesz, míg a Boost Clock 2,4 GHz-en tetőzik. A kevesebb CU mellé kevesebb MCD is társul, azaz hat helyett már csak öt darab 2 x 32-bites GDDR6-os memóriavezérlőt kapunk, ami 320-bites memória-adatsín és 80 MB-nyi második generációs Infinity Cache meglétét eredményezi.
A GDDR6-os fedélzeti memória kapacitása 20 GB lesz, de az effektív órajel marad 20 GHz, ez pedig összességében 800 GB/s-os memória-sávszélességet eredményez, ami még mindig komoly előrelépés. Mivel ennél a GPU-nál csak 5 darab MCD van használatban a 6 helyett, így a hatodik egy úgynevezett dummy lapka, azaz egy funkció nélküli megoldás, ami segít abban, hogy a hűtés stabilan érintkezhessen a szükséges felületekkel – gyakorlatilag egy hézagoló lapkának is tekinthetjük. A Radeon RX 7900 XT TDP kerete kereken 300 W lesz, amit szintén két darab nyolctűs PCI Express tápcsatlakozón keresztül szolgálhatunk ki.
Az AMD friss videokártyái 2022. december 13-án kerülnek az üzletek polcaira, azaz már nem kell sokat várni rájuk. Az első független tesztek is rövidesen megjelenhetnek, így kiderülhet, pontosan mire képesek a termékek az Nvidia GeForce RTX 40-es sorozatának tagjaival szemben, különös tekintettel az 1199 dolláros 16 GB-os GeForce RTX 4080-as modellre.
A teljes előadás visszanézhető
Az AMD tegnapi előadását az alábbi YouTube videó segítségével lehet megtekinteni. A show alkalmával több demót is futtattak, amelyeket érdemes lehet megtekinteni.