Egy évvel ezelőtt jelentette be a Google a Gemini nyelvi modellt, amit már úgy tervezett, hogy multimodális működésre alkalmas legyen. Akkor a vállalat úgy beszélt arról, hogy „a legnagyobb és a legjobb képességű MI modell”. Azóta már több jelentős frissítésen átesett a Gemini, legutóbb tavasszal jött a Gemini 1.5, most pedig itt a Gemini 2.0.
Az OpenAI, a Microsoft, a Google, a Meta, az Anthropic, az Amazon és az xAI folyamatosan küzdelmet folytat a nagy nyelvi modellek és a generatív MI szolgáltatások területén. Meglehetősen nehéz azt követni, hogy hol melyik gyártó éppen milyen fejlesztésekkel rukkol elő. Most a Google például úgy jelentette be a Gemini legújabb főverzióját, hogy ennek csak egy kisebb verziója lesz elérhető mostantól. A Gemini 2.0 Flash az első a sorban, ami széles körben kipróbálhatóvá vált.
A DeepMind vezérigazgatója, Demis Hassabis arról számolt be, hogy a fejlesztéseik révén sikerült azt elérni, hogy a Gemini 2.0 Flash annyira jól működjön, hogy képes beelőzni a Gemini 1.5 Pro variánsát is. Ez a két modell a méretét tekintve összevethetetlen, a Gemini 2.0 egy kicsi, csak szöveges működésre koncentráló megoldás, ami chatbotok mögött alkalmazható. Ennek ellenére magabiztosan száll ringbe a Gemini 1.5 Pro ellen, a közvetlen felmenőjét Gemini 1.5 Flash-t pedig körökkel veri.
A vállalat sokszínű megmérettetéseknek tette ki az új Gemini 2.0 Flash modellt, és szinte minden esetben sikerült még a Gemini 1.5 Prónál is jobb eredményeket elérnie. Legyen szó érvelésről, programozásról, matematikai feladatok megoldásáról, a friss fejlesztés a kise mérete ellenére nagyon jól teljesített. Képek és videók értelmezésében is lenyomta az elődjeit, csak két dologban mutatkozott gyengébbnek, mint a Gemini 1.5 Pro. Az egyik a hanganyagok automatikus fordítása, a másik pedig az 1 millió feletti kontextus kezelése, novellák értelmezése. Ez utóbbiban némi meglepetésre még a Gemini 1.5 Flash-t sem tudta überelni.
Egyelőre még kísérleti verzióban van a Gemini 2.0 Flash, és a Google nagy reményeket fűz hozzá, úgy hivatkozik erre, hogy egy valódi igáslóról van szó, ami kiválóan skálázható, a legfejlettebb technológiákat alkalmazza, és még a késleltetése is nagyon alacsony, gyorsan produkál eredményt a legtöbb helyzetben.
A Gemini 2.0 egy nagyobb modelljét is elérhetővé teszi a Google kísérleti verzióban, ezt azonban csak fejlesztők érhetik el egyelőre. A következő hónapokban igyekszik majd a vállalat minél több visszajelzést gyűjteni, hogy a két termék minél jobb lehessen. A Gemini 2.0 prototípusa már multimodális működésre alkalmas, elérhető lesz ehhez egy új Multimodel Live API eszköz, amivel alkalmazásokba lehet majd integrálni a valós idejű hang és videofeldolgozási képességeit.
A vállalat előrevetítette, hogy a Gemini 2.0 folyamatosan egyre több területen fog bevezetésre kerülni, ahogy halad a fejlesztése. Először a Gemini chatbot mögött engednek neki teret, majd a Gemini alapú digitális asszisztens szolgáltatásban, és fokozatosan a Google egyéb termékeiben is átveszi majd a korábbi Gemini LLM fejlesztések helyét. Jövőre a Gemini 2.0 több méretben is bevezetésre fog kerülni, akár a Flash-nél még kisebb is jöhet belőle a korábbi Nano modellek nyomán.
A Google több kísérleti projektet visz a mesterséges intelligencia alkalmazása terén, az egyik ilyen a Project Astra, amiről a cég először a Google I/O alkalmával beszélt. Az Astra a cég valós idejű működésre képes, multimodális működésre képes mesterséges intelligencia segítője, ami ugyancsak megkapja a Gemini 2.0-t.
Elárulta a vállalat, hogy a Project Astra és az új nyelvi modell ötvözése révén már képesek azt megvalósítani, hogy az MI követni tudja a körülötte zajló beszélgetéseket akkor is, ha egyszerre több különböző nyelven megszólaló embereket hall maga körül. Képes felismerni és megfelelően kezelni az akcentusokat és a ritkán használt szavakat például egy választékosabb szókincs mellett. A szóban forgó eszköz képes lesz munkára fogni a Google Kereső szolgáltatást, a Térképet, valamint a Lenst is. Ezeknek köszönhetően lehet belőle egy hasznosabb segítő a mindennapok során.
Lehet beszélgetni a digitális asszisztenssel, és a Gemini 2.0 modellt használó Project Astra már jobb memóriával rendelkezik. Továbbra is teljesen kontroll alatt lehet majd tartani, de egy folyamatos beszélgetésben a 10 perccel korábban elhangzott információkat is gond nélkül vissza tudja majd idézni. Személyreszabott válaszokat lesz képes adni a szolgáltatás a beszélgetések alkalmával, de nem kell adatvédelmi gondoktól tartani. Fontos változás az is, hogy már jobb tempóban fog válaszolni a felhasználók kérdéseire az Astra, ezáltal emberibb élmény lesz a használata.
A Google a Project Astra fejlesztés során gyűjtött tapasztalatokat felhasználja a minőség javítására, és a cél az, hogy idővel ez a technológia beépülhessen a mobiltelefonokra elérhető Gemini alkalmazásba, valamint akár okosszemüvegben is bevethető legyen. A szemüveges formátumot már teszteli is a Google, és a cégnek sok tapasztalata van ezen a területen, aminek jó hasznát veheti.
Végül a Google arra is kitért, hogy a Project Mariner is megkapja majd a Gemini 2.0 nyelvi modellt, és képes lesz ezzel új szintre lépni. A Mariner esetén egy Google Chrome kiterjesztésről beszélhetünk, ami a böngésző használatának lehetőségét adja a mesterséges intelligencia kezébe. Korábban erről már beszélt a cég, csak akkor még Project Jarvis kódnéven futott ez a fejlesztés. Az új LLM alapon jobb eredményeket tud majd elérni a parancsok végrehajtásában a generatív MI, pontosabban lesz képes kezelni a böngészőt a felhasználó kívánságainak megfelelően, a jövőben pedig kiléphet a böngésző keretei közül, és az egész PC-t kezelheti.