Az Apple, a vállalattól nem megszokott módon, elárulta, milyen hardvert használtak a WWDC 2024 alkalmával bejelentett Apple Intelligence szolgáltatáshoz, ezzel kapcsolatban egy részletes kutatási dokumentumot is elérhetővé tettek, amiből rengeteg részletre derül fény. A vállalat annak ellenére, hogy a HPC és AI szegmensben manapság lényegében az Nvidia termékei az egyeduralkodók, mégsem az A100-as vagy H100-as AI gyorsítókat választották a nagy nyelvi modell tréningezésére, helyettük a Google saját megoldásainak, vagyis a negyedik és ötödik generációs TPU chipeknek szavaztak bizalmat, lényegében ezek hozták létre az AFM-et (Apple Foundation Models), az Apple Intelligence alapját.
Az AI modellek tréningezéséhez a Google TPU v4 és a Google TPU v5 chipeket használták, a dedukció során pedig magas minőségű licencelt adatkészleteket, az Applebot web crawler adatait, kiválasztott kódokat, matematikai információkat, illetve publikus adatkészleteket is bevetettek, hogy a modellek képességeit minél inkább kibővíthessék.
Az AFM-server modell, ami az Apple legnagyobbnak tekinthető nagy nyelvi modellje (LLM), összesen 8192 darab TPU v4 chipből álló fürt segítségével jöhetett létre, amelynél a chipeket nyolc szeletre osztották, ezek egyenként 1024 darab TPUv4-es chipből álltak, közöttük pedig adatközpontokban használatos hálózat (DCN) teremtett kapcsolatot. Az AFM-server, ami csak és kizárólag online formában válik elérhetővé, összesen 6,4 milliárd paraméterből áll, tréningezéséhez összesen 7,4 billió tokent használtak – ennyi tokent dolgozott fel a rendszer. A tréningezés három lépcsőben zajlott, első körben 6,3 billió, majd 1 billió, majd még 100 milliárd token került feldolgozásra.
Az Apple eszközeire kerülő AFM-on-device modell ehhez képest más hardveren készült, ugyanis a Google TPU v5-ös chipjét használták hozzá, méghozzá 2048 darabot, ami egyetlen szelet formájában állt rendelkezésre. Az AFM-on-device LLM már nem 6,4 milliárd, hanem csak 3 milliárd paraméterből épül fel, ezt lényegében a szerver modellből „desztillálták”, de így is kellően ütőképes lesz.
A nagy nyelvi modelleket természetesen némi tesztelésnek is alávetették, amiből kiderül, hogy mind az AFM-server, mind pedig az AFM-on-device LLM jól teljesít utasításkövetés (Instruction Following), eszközhasználat (Tool Use), illetve írás (Writing) területén, ami alapján az Apple nagy nyelvi modelljei erős versenyzők lehetnek az AI szegmensben, ahova egy kissé késve érkeznek majd meg.
Mivel a gyártó óriási eszközbázissal rendelkezik, amelyek többsége kompatibilis lesz az Apple Intelligence szolgáltatással, az újítás bevezetése átalakíthatja majd a felhasználók és az eszközök között zajló interakciót, különösen a mindennapi feladatok alkalmával jöhet jól a szolgáltatás. Az Apple Intelligence csiszolása még tart, ez kiemelten fontos folyamat, ugyanis a végeredménynek kellően ütőképesnek és megbízhatónak kell lennie ahhoz, hogy az eszközök millióiból álló ökoszisztéma életébe pozitív változást hozhasson és megbízhatóan működjön.
A kutatással kapcsolatos további részletek ebből a dokumentumból derül ki. A leírás megjelenése igazi meglepetés, hiszen az Apple háza táján nem szoktunk hozzá az efféle áttekinthetőséghez, de a jelek szerint az AI láz miatt jelen esetben változtattak a gyakorlaton. Ez jó, mindig örömteli dolog betekinteni a színfalak mögé. Reméljük, az Apple Intelligence működése is hasonlóan pozitív lesz, ha végre készen áll a bevetésre.