A világ legnagyobb mobilplatformjának fejlesztőjeként a Google is jelen volt a Mobil Világkongresszuson, azonban az idei évben itt sok újdonságot nem mutatott. A vállalat már arra készül, hogy májusban megrendezze a saját nagy eseményét, a Google I/O-t. A háttérben az Android 16 gőzerővel készül, de a cég a Gemini és az okostelefonok viszonyáról beszélt Barcelonában.
Hamarosan elindítja a Google a Project Astra kezdeményezés által megalapozott élő videós és képmegosztással működő mesterséges intelligencia funkciókat.
A vállalat egy ideje már fejleszti a Gemini chatbot Live részét, ami az élő tartalommegosztásra fókuszál. A Project Astra pedig már a tavalyi Google I/O fejlesztői konferencia alkalmával előkerült, és azóta sokan várják, hogy végre leleplezze a vállalat. A keresőóriás ezúttal arról beszélt, hogy már csak karnyújtásnyira van az új funkciók megjelenése. Akik ellátogattak az MWC helyszínére, maguk is kipróbálhatták, hogy teljesít élesben a technológia.
A videó alapú Gemini Live szolgáltatással a chatbot pillanatok alatt képes lesz megválaszolni a felhasználóknak bármilyen kérdést az őket körülvevő valódi világgal kapcsolatosan. Nem kell már a mesterséges intelligenciának legépelni vagy hangalapon körülírni a mesterséges intelligenciának, hanem azonnal megmutatható neki a lényeg élőben. Ennek köszönhetően még természetesebb, még gördülékenyebb lesz a kapcsolatteremtés a generatív MI-vel.
A videó alapú Gemini Live az eddigi legkomplexeb multimodálsi működést igénylő fejlesztés lesz a Google-től.
Az androidos okostelefonokon a Gemini alkalmazásban a frissítést követően elérhető lesz a „Share screen with Live” funkció is. Itt nem a kamera képét, hanem az adott készülék megjelenítőjének az aktuális tartalmát lehet megmutatni a mesterséges intelligencia számára. A képernyőmegosztást kihasználva a Gemini besegíthet majd akár az mobiltelefonok kezelésébe is, de lehetőséget nyújt arra, hogy appokkal, dokumentumokkal, korábbi fotókkal kapcsolatosan lehessen tőle élőben bármit kérdezni.
A képernyőmegosztás során a Gemini kezelőszervei egy lebegő ablakban jelennek majd meg a kijelző tartalma felett, hasonlóan ahhoz, mint amilyen értesítési mező látható a kihangosított telefonhívások alatt. Emiatt egy kicsit még inkább olyan érzés lesz kapcsolatot teremteni a mesterséges intelligenciával, mintha csak egy emberrel beszélgetne a készülék tulajdonosa. Az élő kamerakép megosztásánál a Gemini Live kezelőszervek a kijelző aljáról bármikor elérhetők majd.
Mindkét esetben van arra lehetőség, hogy a képfolyam megosztása rövid időre szüneteltethető legyen. Ez jól jöhet akkor, ha a felhasználó egy fontos új üzenetet kap, amire mindenképpen szeretne válaszolni, de nem akarja, hogy az üzenetet a Gemini „lássa”, feldolgozza, vagy egyszerűen csak nem zavarná meg az MI alapú munkafolyamatot felesleges információkkal.
A Project Astra keretében megvalósuló fejlesztés a legutóbbi információk szerint valamelyik Gemini 2.0 nyelvi modellt használja, de az nem derült ki, hogy melyiket. A hang- és képmegosztással járó funkciókat általában a kisebb, kompaktabb LLM rendszerekre szokták bízni a cégek, mert ezek képesek kellően reszponzívan viselkedni ahhoz, hogy megfelelő felhasználói élményt lehessen elérni. A demókból is látszik, hogy azért a Gemini Live képmegosztása mellett feltett kérdésekre a válasz nem azonnal, hanem némi várakozást követően érkezik meg.
A friss fejlesztést azok használhatják majd ki elsőként, akik Gemini Advanced előfizetéssel rendelkeznek. Később talán majd ad korlátozottan ingyenes betekintést is a Google, de egyelőre még nem kerül erre sor.