A Meta 2023 elején mutatta be a Llama nagy nyelvi modellt, most pedig már ennek a harmadik generációja került a terítékre, ami egy hatalmas előrelépést hoz. Minden eddiginél nagyobb pontosság és jobb hatékonyság jellemzi a Llama 3-at, miközben a vállalat továbbra is arról beszél, hogy egy nyílt modellről van szó.
Az utóbbi időben minden nagyobb techcég olyan LLM rendszerekkel állt elő, amiknek „több mérete” készült. Nem kivétel ez alól a Llama 3 sem, persze ez abból a szempontból sem meglepő, hogy már a Llama 2 is többféle változatban készült. Az újdonság 8 és 70 milliárd paraméteres változatban került bevetésre. Az elődnek tekinthető Llama 2 7 és 70 milliárd paraméteres változatokban volt elérhető, de az új modell azonos méretben is sokkal jobban teljesíthet majd.
A Meta azon is dolgozik, hogy létrehozzon egy minden korábbinál lényegesen jobb opciót a Llama 3 modellből, és az már 400 milliárd paramáteres lehet. Ez jelenleg még a tréningezés stádiumában van.
Több érdekességet is elárult a Meta a Llama 3 kapcsán. Megtudhattunk például azt, hogy 15 billió tokennyi információt használtak a betanítást alatt, miközben a Llama 2 esetén még „csak” 3 billió tokenről beszélhettünk. Saját tréningezésre szolgáló környezetet is felállított a Meta a munkához, melyek két klaszterben 24 ezer egyedi GPU-t alkalmaznak. Miközben a Llama 3-at a Meta számos felhős környezeten keresztül elérhetővé teszi az érdeklődők számára.
Az új modell létrehozása során kifejezetten nagy hangsúlyt kapott az, hogy kevesebb esetben utasítsa vissza a válaszadást. A Llama 2 esetén megszokott volt az, hogy teljesen indokolatlannak tűnő kéréseket, kérdéseket is hajlamos volt elutasítani, az első verzió pedig ebből a szempontból még rosszabb volt. A Llama modell még szakítási tanácsokat sem akart megfogalmazni. A Llama 3 már sokkal jobban tudja majd értelmezni a kéréseket, hogy kevesebb legyen a fals elutasítás. Miközben természetesen a biztonságra sokat adtak a fejlesztők.
A Meta nagy hangsúlyt fektetett arra, hogy kiemelje a Llama 3 eredményeit a különböző független tesztekben. 70 milliárd paraméteres Llama 3 a cég mérései szerint sokszor jobban teljesít a Gemini legújabb publikus verziójánál, az éppen elérhető Gemini Pro 1.5-nél, valamint a Claude 3-nál is. Az MMLU tesztsoron a Geminit egy hajszállal, de lenyomja a Meta fejlesztése, míg a HumanEval mérésben bőven jobbnak bizonyul és a GSM-8K keretében is diadalmaskodik. A GPQA mérésben és a MATH teszten viszont már a Gemini a befutó.
A kisebb méretű Llama 3 8B modell viszont az említett tesztek mindegyikében jobbnak bizonyult, mint az ellenfelei, de ott már a Gemma 7B és a Mistral 7B volt a Meta fejlesztésével szembe állítva. Többan is megjegyezték a Meta beszámolója kapcsán, hogy a GPT-4-ről például egyáltalán nem esett szó, nem lehet azt tudni, hogy ahhoz képest mire lenne képes az új Llama nagy nyelvi modell.
Összeállította a Meta egy saját tesztcsomagot is a különböző felhasználási célokat összeválogatva. Szerepelnek ebben programozási fealadatok, kreatív írási kihívások, érvelés, összegzés. Nem meglepő módon ebben a tesztben minden ellenfelét legyűrte a Llama 3 70B, még a korosodó GPT-3.5 is előkerült ezen a ponton.
A Llama 3 olyan fejlesztésekkel is szolgál majd, amik a multimodalitás működést segítik, jobb lesz a rendszer a képek és más adatformátumok feldolgozásában. Hosszabb kontextusablakra is számítani lehet már az új fejlesztések révén. Képgenerálásra is használható lesz az új LLM rendszer, arról azonban nem esett szó, hogy mi a helyzet a videókkal. Valószínűleg ott még nem tart a Meta.
Mark Zuckerberg arról beszélt a bemutató során, hogy attól nem lesznek biztonságosabbak ezek a modellek, hogy teljesen bezárják őket. Miközben a nyitottság mellett igyekezett érvelni, kijelentette, hogy indokolatlan a biztonságra hivatkozva beszélni arról, hogy miért kell zárt modellt használni. Éppen ezért a Meta a következő időszakban is igyekszik majd a nyílt működést megtartani.
A Meta elmondta azt is, hogy miközben sokkal több adatot használt fel a tréning alatt, arra figyelt, hogy kizárólag az intenreten elérhető publikus adatokra támaszkodjon. Persze a többi technológiai céghez hasonlóan a részleteket már nem osztották meg. Ami érdekes, hogy elvileg már MI által generált szintetikus információkat is bevetettek a tréningezéshez, ami mindenképpen izgalmasan hangzik, de nem teljesen új dologról van szó. Kitért a cég arra is, hogy a tréningezés során nem használtak fel Meta szolgáltatásokon keresztül elérhető személyes adatokat.
Előre tekintenek a Metánál, és most éppen még azon vannak, hogy a Llama 3 400B is elnyerje a végleges formáját, erről néhány előzetes teszteredmény is kikerült; de a tervek között szerepelnek már a következő generációs modellek is. Zuckerberg megerősítette, hogy már gondokodnak a Llama 4 és a Llama 5 megalkotásán. De hozzátette, hogy ez egy maraton, nem pedig a sprintverseny.
A Llama 3 először a Meta szolgáltatásain keresztül lett elérhető, melyekről már korábban beszámoltunk részletesen. Idővel ezt más szolgáltatások is igénybe fogják venni, ahogy azt láthattuk korábban például a Llama 2 esetében is.