Shop menü

ÚJ GEMINI MODELLT JELENTETT BE A GOOGLE, AMI MÁR KEZELI A BÖNGÉSZŐT ÉS MÁS ALKALMAZÁSOKAT

A Gemini 2.5 Computer Use arra szolgál, hogy az MI ügynökök működése terén nyisson új kapukat a felhasználók számára, ezzel növelve a mesterséges intelligencia használati élményt.
Szécsi Dániel (DemonDani)
Szécsi Dániel (DemonDani)
Új Gemini modellt jelentett be a Google, ami már kezeli a böngészőt és más alkalmazásokat

Az elmúlt napokban az OpenAI több érdekes újítást is bejelentett a ChatGPT-vel kapcsolatosan, ezt pedig a Google nem szerette volna teljesen tétlenül nézni. A keresőóriás előrukkolt a Gemini 2.5 Computer Use modelllel, ami már a mesterséges intelligencia ügynökök, ágensek frontjén hoz előrelépést.

Az újdonság a Gemini 2.5 Pro nagy nyelvi modellre épül, ami a Google jelenleg elérhető legjobb ilyen megoldása. Kiemelten kezeli ezen belül a vizuális értelmezésre szolgáló képességeket, valamint az érvelési lehetőségeket. Ezzel a fejlesztéssel az MI ágens interakcióba léphet a grafikus felhasználói felületekkel, alkalmazásokat foghatnak munkára ezáltal. Jelenleg elsősorban a böngésző kezeléséről beszél a Google, de egyértelművé tette, hogy nem áll meg itt.

A Gemini 2.5 Computer Use modell a vállalat mérései, tesztjei alapján alacsonyabb késleltetéssel képes végrehajtani a különböző feladatokat, mint más MI ágensek. Több erre vonatkozó tesztben is kiemelkedő eredményt ért el webes és mobilos környezet kezelésében egyaránt. Technikailag ez azt jelenti, hogy gyorsabban tudja végig kattintgatni a weboldalakat, applikációkat, előbb tölti ki a szövegmezőket, és így tovább. Sokat dolgozott a cég azon, hogy ebben jó legyen a modell.

Galéria megnyitása

A Google kiemelte, hogy a megfelelő API-k révén a mesterséges intelligencia ágensek nagyon gyorsan tudnak megoldani feladatokat, azonban a cég azt is pontosan tudja, hogy nem lesz minden szolgáltatáshoz teljes értékű API. Ezért a hagyományos grafikus felhasználói felület kezelésének képessége nagyon fontos a Gemini 2.5 Computer Use esetén. Az interface szintű programkezeléssel az MI-alapú feladatautomatizálás előtt gyorsan nyílhatnak meg új lehetőségek.

Galéria megnyitása

Még fejlesztés alatt áll a programok kezelésére felkészített modell, és azt külön megjegyezte a Google, hogy az „operációs rendszer szintű kontrollra még nincs optimalizálva”. De egyértelműen szerepel a cég tervei között, hogy átadja a gyeplőt akár az egész Windows 11 felett a Gemininek.

Jelenleg 13 műveletet képes végrehajtani a mesterséges intelligencia. Meg tudja nyitni a böngészőt, tud az oldalakon előre és vissza navigálni, keresni, URL-eket megnyitni, görgetni, legördülő menüket kezelni, fájlokat, szövegeket megfogni és áthúzni, valamint 5 mp-es várakozási művelete is van, ha animációk lefolyása miatt kell egy kicsit „pihennie”. A Gemini 2.5 Computer Use modell képek és szövegek kezelését 128 ezer tokenes limit mellett tudja megoldani, de a kimeneti eredmény csak 64 ezer token lehet.

Noha a ChatGPT Agent és az Anthropic által létrehozott Computer Use eszköz is gyengébb képességű a Gemini 2.5 Computer Use modellnél, azért azt is látni kell, hogy ezek korábban láttak napvilágot. Hátrányból szeretne előnybe kerülni a Google, de azért ehhez talán a versenytársaknak is lesz hozzáfűzni valója. Érdeklődve várjuk, hogy melyik cégnek lesz előbb széles körben elérhető MI ügynöke, amire tényleg kész termékként lehet tekinteni.

Neked ajánljuk

    Tesztek

      Kapcsolódó cikkek

      Vissza az oldal tetejére