Kiemelte a Google a fejlesztői konferencia alkalmával, hogy a saját MI törekvései annak köszönhetően tudnak igazán sikeresek lenni, hogy a teljes ökoszisztémát egy kézben, házon belül tudják fejleszteni. Több új Gemini modellel és egyéb eszközökkel is előállt a cég.
A vállalat rendelkezik egyedi feldolgozó egységekkel, melyek köré építheti az adatközpontjait. Házon belül fejleszti a biztonsági rétegeket, és rendelkezik egy élvonalbeli kutatócsapattal. Minden célra képes volt létrehozni egyedi modelleket, és azokhoz eszközöket. Az MI technológiákat pedig saját termékeiben, valamint a globálisan használt platformjaiban tálalja a több milliárd felhasználó által alkotott közönségének.
A Gemini keretében ma már hétszer annyi tokent égetnek el az emberek, mint egy évvel korábban. Mostanra havi szinten 3,2 billiárd (!) token a Google forgalma. A cég számításai szerint az AI-alapú áttekintést már több mint 2,5 milliárd ember veszi igénybe. Magában a Gemininek több mint 900 milliós havi aktív felhasználói köre van. A Google szolgáltatásokat pedig összesen már több mint 3 milliárd ember veszi igénybe rendszeresen.
Bejelentette a vállalat a Google I/O alkalmával, hogy soha nem látott mennyiségű beruházást kíván az idei évben megvalósítani. 2022-ben elvileg 31 milliárd dollárnyi tőkeberuházást hajtott végre a Google, 2026-ban pedig ennek a hatszorosával lehet számolni. 180-190 milliárd dollárt kíván a cég elsősorban mesterséges intelligenciával kapcsolatos kiadásokra fordítani.
Elmondta a vállalat, hogy a befektetések részben a TPU egységek fejlesztésére megy el. Beszélt a Google a legújabb architektúráiról, ami főleg a tréningezésre és az igazán nagy számítási kapacitást igénylő feladatokra szolgál. A TPU 8t esetén az előző generációhoz képest már háromszor nagyobb teljesítmény érhető el. A TPU 8i chip pedig brutálisan gyors kódgenerálásban, másodpercenként akár 15 milliárd tokent képes létrehozni, miközben egy játékot alkot. Az újdonságok az energiahatékonyságukat tekintve is kétszer jobbak lettek.
Bejelentette a Google a Gemini 3.5-öt, illetve annak első tagját, a Gemini 3.5 Flash modellt, ami jelentős előrelépést hoz a képességeit tekintve a Gemini 3.1-hez képest.
A cég több grafikonon is kiemelte, hogy mekkora előrelépést tesz ez az újdonság az előző generációhoz képest. A mérésekben a fejlődés elsőre nem tűnik olyan drámainak, de van egy csavar a történetben. A kisebb méretű és fürge Gemini 3.5 Flash-t a korábbi csúcsmodellhez, a Gemini 3.1 Próhoz mérte a cég, és még ezt is legyűri a friss fejlesztés. A Terminal-Bench 2.1 keretében például 70,3%-ról 76,2%-ra javult a kisebb és gyorsabb nyelvi modell.
A Gemini 3.5 Flash több mint kétszer nagyobb mennyiségű tokent képes létrehozni egységnyi idő alatt a Gemini 3.1 Próhoz képest. A konkurens GPT-5.5 és Claude Opus 4.7-hez képest pedig már négyszeres tempóról beszélhetünk. Azt is megtudtuk, hogy a Gemini 3.5 Pro is készül, ez júniusban léphet színre.
A cég szerint teljesen megváltoztatja majd a Gemini 3.5 az Antigravity ágenssel történő szoftverfejlesztés folyamatát, sokkal gördülékenyebb és hatékonyabb lehet majd a munka az új modellt használva. Az Antigravity egy fél nap alatt képes volt az újdonsággal létrehozni egy friss operációs rendszert. A munka során a modell teljesen önállóan elindított 93 alágenst, amik mind a rendszer különböző részegységein dolgoztak teljesen párhuzamosan. A 12 órás folyamat alatt az Antigravity összesen 2,6 milliárd tokent használt fel, de a végén tényleg működött alapfunkciókkal az operációs rendszer.
A Google átszabja a Gemini grafikus felhasználói felületét, rövidesen látványosabb lesz a mobilos applikáció és a webes felület is. A Neural Expressive dizájnnyelvet fogja használni a keresőóriás, ami korábban a Gemini Live keretében már megjelent, de mostantól a teljes szolgáltatást “beteríti”.
Előrukkolt a Google az Omni modellcsaláddal is, ami egy valódi mindenes a mesterséges intelligencia fronton. Bármilyen adatot fel tud dolgozni, és a kimeneti oldalon is bármit lehet tőle kérni.
A Gemini Omni képes videókat létrehozni képek és egyszerű szöveges utasítások alapján, de háttérzene is hozzáadható, amihez tud igazodni a vágásokkal, és hosszan lehetne még sorolni a lehetőségeket. Az Omni első körben az Omni Flash variánssal vehető igénybe, és elvileg nagyon egyszerű promptokból is rendkívül komplex tartalmakat lesz képes létrehozni, ami azt jelenti, hogy nem feltétlenül kell profi utasításokat írni a magas minőség eléréséhez.
“A Gemini Omniban a Gemini érvelési képessége találkozik az alkotói lehetőségekkel. Ugrásszerű fejlődést hoz a világ megértésében, a multimodalitásban és a szerkesztésben.” – emelte ki a vállalat.
Elsősorban a videógenerálásban mutatott jó teljesítményét emelte ki a Google az új Omni modellnek. A látottak alapján minden korábbinál élethűbb anyagokat tud alkotni ez az eszköz. Részletesebb, természetesebb képsorok születhetnek majd ennek az igénybevétele mellett, jobb lesz a videók fizikája is. Minden Omnival előállított tartalmat védeni fog a SynthID és a C2PA is.
A Gemini Omni Flash modell nem várat magára, máris elérhető a Gemini alkalmazásban, a Google Flow keretében és a YouTube Shorts mögött is. A cég elsősorban a videós képességét igyekszik megcsillogtatni, úgy látja, hogy ezzel képes igazán lenyűgözni az embereket.