A nagy nyelvi modellek körében a Gemini, a ChatGPT és a Claude komoly versenyt folytat a felhasználók kegyeiért az élen. Most az Anthropic rukkolt elő egy részben új Claude variánssal, amely az első tesztekben rendre übereli a riválisokat – alkalomadtán toronymagasan diadalmaskodva.
A Claude Mythos alapjára építve előrukkolt az Anthropic a Claude Fable modellel, és ezt már rögtön az 5-ös verziószámmal illette. Ezzel arra utal a vállalat, hogy az eddigi Claude Opus 4.8 felett áll, és ezt a tesztek is szépen igazolják.
Korábban az Anthropic azt hangsúlyozta, hogy a Mythos egy olyan modell, ami jelentős veszélyeket rejt magában, és éppen ezért csak egy szűk elit férhet hozzá. A vállalat arról is külön beszámolt, mikor az Európai Unió számára hozzáférhetővé tette. Ennek ellenére most arról számolhatunk be, hogy megérkezett a Mythos 5, és ennek a fogyasztói párja, a Claude Fable 5. Hogy minek köszönhető ez a fordulat? Nos, a fejlesztők létrehozták azokat a biztonsági mechanizmusokat, amelyekkel gátat lehet szabni az esetleges visszaéléseknek.
A Claude Fable 5 kapcsán külön kiemelte a vállalat, hogy nem egy visszafogott, tehát szerényebb teljesítményű modellről van szó. Pontosan ugyanarra képes a Fable 5, mint a Mythos 5, csak kapott egy “szájkosarat”. Enélkül nagyon komoly kiberbiztonsági kockázatot jelentene, ha visszaélnek vele, és hatalmas károkat tudna okozni. Azt nem tudjuk, hogy mennyire bölcs dolog az Anthropic részéről ezt ennyire sulykolni, csak reménykedünk abban, hogy az összes biztonsági mechanizmus tökéletesen teszi majd a dolgát, mert afelől nincs kétségünk, hogy sokan fogják ezt tesztelni.
“Szinte az összes mesterséges intelligencia-tesztben a Claude Fable 5 bizonyul a legkorszerűbbnek, és kiemelkedő teljesítményt nyújt a szoftverfejlesztés, a tudásalapú munka, a képfeldolgozás, a tudományos kutatás és számos más területen” – emelte ki a vállalat. “Minél hosszabb és összetettebb a feladat, annál nagyobb a Fable 5 előnye a többi modellünkkel szemben.”
Sok tesztnek vetette alá az Anthropic a Fable 5-öt, és egyáltalán nem talált legyőzőre a GPT-5.5-tel és a Claude 3.1 Próval összevetve – bár a Google-nél már a Gemini 3.5 Flash alkalmazása aktuálisabb lett volna. A szinte minden alkalommal előkerülő Humanity’s Last Examet 59 százalékos produkcióval teljesítette a friss modell, miközben a riválisok nem tudtak 50% fölé menni eszközök segítsége nélkül. Az OSWorld tesztben a számítógép használati képességeit megvillantva 88%-os sikert hozott össze a GPT-5.5 által elért 83,4% és a Gemini 3.1 Pro neve mellett szereplő 78,7% ellenében.
A Claude Fable 5 az első nagy nyelvi modell, ami az SWE-Bench Pro keretében 80 százalék feletti eredményt képes elérni, a korábban etalonnak számító Opus 4.8 még egy hajszállal 70% alatt maradt. A legnagyobb kihívók eközben 50-60% között versengenek egymással.
A Fable 5 a FrontierCode keretében már a legszerényebb módban is közel olyan pontossággal dolgozik, mint a csúcsra járatott Claude Opus 4.8. Amennyiben a legnagyobb teljesítménnyel üzemelhet az új modell, már akár kétszer jobb lehet a pontosság szempontjából. Persze ennek meg is lesz az ára, ilyenkor már kb. kétszer drágább is ezzel dolgozni.
A cég megtartja a Mythos 5 modellt is, ami már a korábbi Mythos Preview újabb, késznek ítélt verziója. Ezt továbbra is kiberbiztonsági feladatokra fogja biztosítani az Anthropic a Project Glasswing kezdeményezés keretében a kiemelt ügyfelek számára. Ezt a modellt nem fékezik biztonsági eljárások.
Az Anthropic az elmúlt időszakban sikeresen tudta a Mythos modell hatékonyságát is fejleszteni, ezzel pedig elérte azt, hogy olcsóbban lehet vele dolgozni. A Mythos és a Fable azonos árazással fog üzemelni, ezekkel 10 dollárba kerül majd 1 millió token feldolgozása, és 50 dollárért cserébe állít elő ugyanekkora mennyiségű tartalmat. A Mythos Preview még kétszer drágább volt.