Az elmúlt napokban az OpenAI több érdekes újítást is bejelentett a ChatGPT-vel kapcsolatosan, ezt pedig a Google nem szerette volna teljesen tétlenül nézni. A keresőóriás előrukkolt a Gemini 2.5 Computer Use modelllel, ami már a mesterséges intelligencia ügynökök, ágensek frontjén hoz előrelépést.
Az újdonság a Gemini 2.5 Pro nagy nyelvi modellre épül, ami a Google jelenleg elérhető legjobb ilyen megoldása. Kiemelten kezeli ezen belül a vizuális értelmezésre szolgáló képességeket, valamint az érvelési lehetőségeket. Ezzel a fejlesztéssel az MI ágens interakcióba léphet a grafikus felhasználói felületekkel, alkalmazásokat foghatnak munkára ezáltal. Jelenleg elsősorban a böngésző kezeléséről beszél a Google, de egyértelművé tette, hogy nem áll meg itt.
A Gemini 2.5 Computer Use modell a vállalat mérései, tesztjei alapján alacsonyabb késleltetéssel képes végrehajtani a különböző feladatokat, mint más MI ágensek. Több erre vonatkozó tesztben is kiemelkedő eredményt ért el webes és mobilos környezet kezelésében egyaránt. Technikailag ez azt jelenti, hogy gyorsabban tudja végig kattintgatni a weboldalakat, applikációkat, előbb tölti ki a szövegmezőket, és így tovább. Sokat dolgozott a cég azon, hogy ebben jó legyen a modell.
A Google kiemelte, hogy a megfelelő API-k révén a mesterséges intelligencia ágensek nagyon gyorsan tudnak megoldani feladatokat, azonban a cég azt is pontosan tudja, hogy nem lesz minden szolgáltatáshoz teljes értékű API. Ezért a hagyományos grafikus felhasználói felület kezelésének képessége nagyon fontos a Gemini 2.5 Computer Use esetén. Az interface szintű programkezeléssel az MI-alapú feladatautomatizálás előtt gyorsan nyílhatnak meg új lehetőségek.
Még fejlesztés alatt áll a programok kezelésére felkészített modell, és azt külön megjegyezte a Google, hogy az „operációs rendszer szintű kontrollra még nincs optimalizálva”. De egyértelműen szerepel a cég tervei között, hogy átadja a gyeplőt akár az egész Windows 11 felett a Gemininek.
Jelenleg 13 műveletet képes végrehajtani a mesterséges intelligencia. Meg tudja nyitni a böngészőt, tud az oldalakon előre és vissza navigálni, keresni, URL-eket megnyitni, görgetni, legördülő menüket kezelni, fájlokat, szövegeket megfogni és áthúzni, valamint 5 mp-es várakozási művelete is van, ha animációk lefolyása miatt kell egy kicsit „pihennie”. A Gemini 2.5 Computer Use modell képek és szövegek kezelését 128 ezer tokenes limit mellett tudja megoldani, de a kimeneti eredmény csak 64 ezer token lehet.
Noha a ChatGPT Agent és az Anthropic által létrehozott Computer Use eszköz is gyengébb képességű a Gemini 2.5 Computer Use modellnél, azért azt is látni kell, hogy ezek korábban láttak napvilágot. Hátrányból szeretne előnybe kerülni a Google, de azért ehhez talán a versenytársaknak is lesz hozzáfűzni valója. Érdeklődve várjuk, hogy melyik cégnek lesz előbb széles körben elérhető MI ügynöke, amire tényleg kész termékként lehet tekinteni.