Bár már látszólag dübörög az MI forradalom, valójában még nagyon az út elején járunk, és sok olyan dolog van, amit maguk a fejlesztők sem feltétlenül értenek, gondolnak jól az LLM rendszerek és a mesterséges intelligencia kapcsán. Erre világított rá kiválóan a Microsoft egy friss kutatási projektje is, melynek keretében LASER eljárást vetettek be az LLM mellett, és egyáltalán nem a várt eredményt kapták.
A Microsoft Research Forum keretében a számolt be Dipendra Misra, a Microsoft Research Lab NYC egyik kiemelt kutatója arról, hogy milyen hatása van a nagy nyelvi modellek működésére a LASER, vagyis a Layer-Selective Rank Reduction eljárás alkalmazása.
A LASER révén a kutatószakemberek képesek beavatkozni, és helyettesíteni egy súlymátixot egy valamelyes kisebb egységgel. Ezek a súlyok a modellek kontextuális összefüggései. Ha nagyobb a súlymátrix, az azt jelenti a gyakorlatban, hogy több a kapcsolat, nagyobb a „bizalom” a modellen belül. Szóval amikor ezt felcserélik egy kisebbre, akkor lényegében csökkennie kellene a pontosságnak. A csavar azonban itt jön a történetben, ugyanis a gyakorlati tapasztalatok ennek ellentmondanak.
Misra beszámolója szerint a kísérletek során több meglepő eredményt kaptak, és beigazolódott az, hogy a LASER megfelelő alkalmazása mellett eddig még minden esetben képesek voltak javulást elérni. Tesztelték a kísérleti eljárásukat három egymástól teljesen eltérő, nyíltan elérhető modellen is, és háromból három beavatkozásnál tudtak javítani a pontosságon az általuk végrehajtott mérések alapján.
A RoBERTa, a Llama 2 és GPT-J is a tesztpadra került, az általános tapasztalatok pedig azt mutatták, hogy 20-30%-os pontosság növekedést tudtak elérni.
A GPT-J esetén – ami nem összekeverendő az OpenAI megoldásával, ez ugyanis az Eleuther fejlesztése – például nagyon látványos volt a fejlődés. Biológiai adatok alapján történő nemmeghatározásban 70,9 százalékos eredményt tudott magától elérni az LLM, ez átlagosnak tekinthető. Viszont a LASER beavatkozást követően sikerült a pontosságot felvinni egészen 97,5 százalékra, ami egészen lenyűgöző.
„Mikor LASER segítségével végzünk beavatkozást az LLM-en, azt várnánk, hogy a modell veszteségének növekednie kell, mivel több lesz a következtetés, ami azt jelenti, hogy a modell rosszul fog teljesíteni. Elvileg így lenne, mert lényegében kidobjuk az információt egy LLM-ből, amit nagy adattömbökön tréningeztünk” – mondta Misra. „De meglepetésünkre azt tapasztaltuk, hogy ha a megfelelő típusú LASER beavatkozást végezzük, a modell pontossága nem csökken, hanem valójában emelkedik.”
Jelenleg a különböző generatív mesterséges intelligencia szolgáltatások gyakran hibáznak, hajlamosak úgynevezett hallucinációra, és ilyenkor teljes magabiztossággal biztosítanak hamis információkat. Éppen ezért még nem szabad ezekben megbízni, minden állításukat érdemes ellenőrizni. A Bard például éppen most terjesztette ki a saját „tényellenőrző” funkcióját egyebek mellett magyar nyelvre is. Éppen ezért fontos az, hogy megtalálják a módját a pontosság javításának.
Ezért nagy jelentőséggel bír a Microsoft kutatóinak új eredménye a LASER révén elért javulásról. Ezáltal a jelek szerint a fejlesztők képesek lehetnek úgy optimalizálni az LLM rendszereket, hogy azok sokkal megbízhatóbban tegyék a dolgukat a jövőben.