Az OpenAI 12 napon keresztül jelentett be különböző fejlesztéseket, és az utolsó napon az o3 modell bejelentésével, illetve előzetesével zárták a programot. A Sam Altman az elmúlt hetekben rendre arról beszélt, hogy nem tudnak olyan gyorsan haladni a fejlesztéseikkel, ahogy azt az emberek elképzelik, és nem fognak már idén nagyhatású MI modellt villantani, aztán mégis.
Az o3 egy nagy horderejű újítás, ami csak jövőre fog bevetésre kerülni, de néhány mérési eredményt már kapunk. Az OpenAI-nak alaposan sikerült felcsigáznia az emberek érdeklődését, persze ez nem csoda, hiszen már az AGI-szint elréséről kezdtek beszélni – miközben azt egyébként senki nem tudja pontos meghatározni, mi is az AGI pontosan.
Szeptemberben fedte fel az OpenAI az o1 modellt, amit teljesen új alapokra helyezve kezdett betanítani, ennek köszönhetően érvelésben, problémamegoldásban remek modell született. Képes az o1 lépésről lépésre haladva, egészen komplex feladatokat is megoldani. Kicsit úgy működik, mint az emberi agy a feladatok átgondolása során. Az o1 után most a cég előállt az o3-mal, két verzió készül ebből, jön az o3-mini is a natúr o3 mellett.
Az o3 továbbra is egy kicsit lassabban működő modell azáltal, hogy komplexebb módon oldja meg a feladatokat, de éppen ezért megbízhatóbb is, pontosabban képes dolgozni, ez pedig a tesztekben elért pontszámaiból is látszik. Szinte minden fronton új rekordokat ért el az előzetes mérések során az OpenAI. Az egyik legnehezebb programozási tesztben legyőzte az OpenAI vezető szakemberét, ami eddig egy modellnek sem sikerült. Ez a teszt a SWE-bench Verified, és az o1-nél 22,8%-kal jobb eredményt hozott össze az o3 a megmérettetésben.
Az egyik legnehezebb matematikai tesztsort, az AIME 2024-et úgy oldotta meg, hogy egyetlen kérdésre adott helytelen választ. A GPQA Diamond keretében 87,7 százalékos eredményt hozott össze, ez egy tudományos feladatsor kifejezetten magasszintű feladatokkal. A legnagyobb diadalt pedig az EpochAI által összeállított Frontier Math tesztben hozta össze, annak ellenére, hogy itt csak 25,2%-ot villantott. Hogy ez miért olyan jó? Nos, mert a vélekedések szerint ez jelenleg a legnehezebb matematikai mérés, és eddig még egyetlen modell sem volt képed 2% fölé menni. Ennyit tesz az eltérő „gondolkodásmód”.
Ezen a ponton érdemes azt kiemelni, hogy az o3 újítása az is, hogy lehetősége lesz a felhasználóknak szabályozni az érvelési időt. Ahogy azt már fentebb említettük, ez a modell lassabb a jelenlegieknél, mivel más módon üzemel, máshogy „gondolkodik”, és azt lehet majd az érvelési idővel megszabni, hogy mennyire kell magát csipkednie. Low, medium és high opciók lesznek erre, és minél több időt kap, annál jobb pontosságra lesz képes, miközben cserébe annál több időt és számítási kapacitást emészt fel.
Meg kell azt jegyezni, hogy az OpenAI új irányzata egyelőre még több veszélyt hordoz magában, mint a hagyományosabb elven üzemelő megoldások eddig. Az MI-től divat tartani, de az o1 kapcsán számos szakember beszélt arról, hogy nagyobb rizikót jelent, mint a „nem-érvelési” modellek. Ugyanis ez az eddigi felmérések szerint még magabiztosabb, és hajlamosabb az embereket a saját igazáról meggyőzni, még akkor is, ha téved. Emiatt is még több munkára van szükség a fejlesztés során.
Zárásként egy érdekesség a hír kapcsán, hogy az o2 nevet jogi megfontolásból lépte át az OpenAI. Szeptemberben a cég arról is beszélt, hogy új, minden eddiginél jobb nevezéktant szeretne használni, ami rögtön a második körben egy kicsit el is vérzett. Tudniillik az o1 után azért lett az új modell már rögtön o3, mert nem akartak jogi összetűzésbe keveredni az O2 szolgáltatóval. Szó nincs arról, hogy a fejlődés mértékére utalna a nagyobb lépés a verziószámban.