Shop menü

ELKÉSZÜLT AZ AMD ELSŐ KIS NYELVI MODELLJE, AZ AMD-LLAMA-135M

Az alapmodell további finomhangolásával egy másik modell is létrejött, ami az AMD-Llama-135M-code nevet kapta, és kifejezetten a programozásra összpontosít.
Víg Ferenc (J.o.k.e.r)
Víg Ferenc (J.o.k.e.r)
Elkészült az AMD első kis nyelvi modellje, az AMD-Llama-135M

Az AMD csapata egy speciális újdonsággal rukkolt elő a minap, ami nem más, mint egy kis nyelvi modell, kifejezetten üzleti célokra készítve. Ez a kis nyelvi modell, vagyis SLM (Small Language Model) egy olyan terület, amelyen az Nvidia egyelőre nem igazán képviselteti magát, legalábbis előre, így az AMD csapata úgy gondolja, érdemes fejlesztéseket végezni és piaci részesedést szerezni.

Az új fejlesztés az AMD-135M nevet viseli, ami a Llama családba tartozik és kifejezetten arra készült, hogy privát üzleti környezetben fusson, az aktuális üzleti igényeket maximálisan kiszolgálva. A vállalat ezzel egyértelműen abba az irányba indult el, amely segíthet az egyes megrendelők terület-specifikus igényeinek hatékony kielégítésében, előre tréningezett AI modellek keretén belül, amelyek természetesen AMD hardver segítségével készülhettek.

Ezek az új AI modellek meglehetősen gyorsak, ami annak köszönhető, hogy spekulatív dekódolással dolgoznak, vagyis egy kisebb modellből indulnak ki, ami egyfajta vázlatmodellnek tekinthető, majd  ez több „jelölt-tokent" generál egyetlen lépésben. Az így létrejött tokenek egy nagyobb, pontosabb modellhez, a „célmodellhez” kerülnek, ami aztán ellenőrzi és szükség esetén korrigálja őket. Ezzel a módszerrel egyszerre több tokent lehet generálni, ami sebesség terén mindenképpen előnyös, ám a nagy adatmozgás miatt nagyobb lesz a fogyasztás is.

Galéria megnyitása

A speciális módszer keretén belül két SLM készült, amelyek közül az egyik az AMD-Llama-135M, míg a másik az AMD-Llama-135M-code nevet viseli. A két SLM mindegyike meghatározott feladatok gyorsítására szolgál, a dedukciós feladatok teljesítményének gyorsításával, méghozzá a fentebb említett spekulatív dekódoló technológiára támaszkodva, ami egy logikus lépés a kis nyelvi modellek köré épülő AI szolgáltatások esetében.

Maga az alapmodell, vagyis az AMD-Llama-135M egy 670 milliárd tokenből álló adathalmaz segítségével készülhetett el. A tréningezéssel járó feladatokat 8-utas AMD Instinct MI250 alapú rendszereken végezték el, ez 6 napot vett igénybe. Ezzel egy időben az AMD-Llama-135M-code modell is elkészült, amihez további 20 milliárd tokent használtak finomhangolás céljából, ahol a programozásra fókuszáltak, a folyamat pedig további négy napot vett igénybe ugyanazzal a hardverrel. Az AMD csapata szerint a további optimalizációk hatására még jobb teljesítményt lehet majd elérni.

Szoftveres fronton egyébként rövidesen alaposan erősödni fog az AMD repertoárja, hála a nemrégiben bejelentett felvásárlásnak, amelynek keretén belül a Silo AI a vállalat tulajdonába kerülhet, igaz, a tranzakciót még nem véglegesítették, valamint a hatóságok ehhez szükséges jóváhagyásait sem sikerült megszerezni, így az aktuális fejlesztésben a Silo AI jó eséllyel még nem működött közre.

Neked ajánljuk

    Tesztek

      Kapcsolódó cikkek

      Vissza az oldal tetejére