Alig több mint egy hónappal az Opus 4.7 után, megérkezett az Anthropic új “csúcsmodellje”, ami hatékonyságban, pontosságban, az érvelési képességeiben, és az ágens működésében is előrelépést jelent. Az alapok viszont nem változtak, a meglévő Opusból igyekezett a legtöbbet kihozni a vállalat a szoros piaci versenyben.
“A Claude Opus 4.8 az Anthropic eddigi leghatékonyabb, széles körben elérhető modellje. A Claude Opus 4.7-re építve.” – hangsúlyozta a vállalat. “Az újdonság az Anthropic leghatékonyabb modellje a komplex érvelés, a hosszan tartó programozó ágens, valamint a kiemelt autonómia terén.”
Olyan feladatokban lesz igazán kiemelkedő a Claude Opus 4.8 teljesítménye a riválisokhoz képest, amikor igazán összetett, több lépésből álló munkafolyamatot kell menedzselni a megfelelő eredmény eléréséhez. Ilyen a kódolás, a kutatás és a rendszerszintű munka. Ezeken a területeken szinte minden korábbinál jobb pontszámokat hoz az új modell az elterjedt tesztek keretében.
Az SWE-Bench Pro tesztben a Google Gemini 3.1 Pro 54,2%-os és a GPT-5.5 58,6 százalékos eredményére, a Claude 4.8 69,2 százalékos rekorddal válaszolt – ez még az Opus 4.7-hez képest is egy nagy ugrást jelent. A pénzügyi kihívásokra kihegyezett Finance Agent v2 keretében 53,9 százalékos performanszt tud felmutatni az újdonság, miközben az eddigi legjobb modellek 51 százalék körüli teljesítményt tudtak felmutatni. A Humanity’s Last Exam esetében pedig már eszközök nélkül is 49,8%-os rekordot hozott össze, miközben a GPT-5.5-nek így csak 41,4% jött össze, és a Gemini 3.1 Pro is csak 44,4%-ot tudott elérni.
Elmondta az Anthropic, hogy a Claude 4.7-hez képest az új modell negyedannyi kódolási hibát hagy hátra az ellenőrzések során, éppen ezért programozási asszisztensként sokkal hasznosabb munkatársnak bizonyulhat majd. Stabilabb lesz olyan helyzetekben, amikor nagy mennyiségű kontextust kell követni és több lépésben kell “gondolkodni”. Amikor bizonytalan egy válaszban, akkor pedig nagyobb transzparenciára fog törekedni, ami a hallucinációk kezelésénél lesz fontos.
Csökkentette az Anthropic a gyorsítótárazható promptok hosszára vonatkozó korlátozását. A mesterséges intelligencia chatbot használatát költséghatékonyabbá lehet tenni a cache funkció használatával, de a Claude 4.7 esetén még legalább 4096 tokennek kellett lennie egy gyorsítótárazásra szánt utasításnak, mostantól viszont elég 1024 token is. Ennek köszönhetően több kisebb információt lesz képes eltárolni a Claude.
A programozási szolgáltatás keretében bevezetésre került a Dynamic Workflows funkció, ami már az átfogó mérnöki kihívások kezelésére szolgál. Fejlődik a frissítéssel a skálázhatóság is, melynek köszönhetően költséghatékonyabb lehet a használata, jön új gyors mód is, ami 2,5-szer gyorsabb lesz, miközben akár harmadannyiba fog kerülni.
1 milliós tokenes kontextusablakkal jelent meg a Claude Opus 4.8. A normál módban ekkora mennyiségű információ bevitele 5 dolláros költséget jelent, a kimeneti oldalon pedig 25 dollárral kell számolni. A költségek különböző beállításoktól függően széles skálán változhatnak majd.
Az Anthropic nem várt a Claude Opus 4.8 bevezetésével, a webes felületen, a Claude Code keretében, a Cowork mögött és az API elérés esetén is biztosítja már ezt a felhasználók számára. Miközben ezt a fejlesztést bevezeti a cég, azt is elárulta, hogy a háttérben már készül egy az eddigieknél sokkal fejlettebb MI rendszer is, ami jelentősebb ugrást fog hozni.