Google I/O: Mesterséges intelligencia mindenek felett

GOOGLE I/O: MESTERSÉGES INTELLIGENCIA MINDENEK FELETT

A Google szinte teljes egészében az MI-nek szentelte a fejlesztői konferenciájának nyitóeseményét, izgalmas fejlesztések jönnek a következő hónapokban.

Szécsi Dániel (DemonDani)

Már nap közben elkezdett a Google információmorzsákat elhinteni az MI fejlesztésekkel kapcsolatosan, miután előző nap az OpenAI tartott bemutatót, és lehengerlő újításokkal állt elő. Nem lenne meglepő, ha a Google az utolsó pillanatban még módosított volna az I/O nyitóeseményének programján, hogy még több legyen a mesterséges intelligencia a színpadon.

Sundar Pichai bejelentette, hogy a Google teljesen a Gemini érába lépett, és a cél a teljes multimodális működés elérése, mikor bármilyen jellegű lehet a bemeneti és a kimeneti információ is. A platform már képes 2 millió tokenes kontextusablakkal dolgozni, amivel szinte egyedülálló a piacon. Globálisan már 1,5 millió fejlesztő dolgozik a Gemini modellekkel valamilyen formában, és a Google szolgáltatásokba integrálva 2 milliárd embert ér el.

Érkezik a Google Keresőben az AI Overviews, ami lényegében a Search Generative Experiences új elnevezése. Az SGE egy olyan felület volt a Keresőben tesztelés jelleggel, amit a mesterséges intelligencia állított össze a találatokkal kapcsolatos adatokból. Képek, rövid összefoglalók, és így tovább. Ezt a jövőben már AI Overviews néven fogja emlegetni, és elsőnek az Egyesült Államokban kerül bevezetésre, de más országokban is számítani kell erre. Ezzel a Microsoft Bing keresőben megjelent fejlesztésekre igyekszik válaszolni a cég.

Jön az Ask Photos funkció, innentől már a fotóalbumban keresést is a Geminire lehet majd bízni.

A Google Fotókban is menni fog már a generatív MI, és egy fejlettebb keresőt kapnak majd ezáltal a felhasználók. Szeretné az ember megtudni, hogy mi is a rendszáma, mert nem jut eszébe, és éppen meg kellene adni valamilyen dokumentum miatt? Semmi gond, elég megkérdezni az MI-től. Keresni fog egy olyan képet a Fotók keretében tárolt felvételek között, ahol ezt jól kivehetően lehet látni, és kiemeli, miközben le is olvassa a képről a rendszámot, és másolható módon leírja a válaszában.

A Google Workspace keretében is még több MI által meghajtott funkció lesz elérhető. A Workspace Labon belül lehet a továbbiakban a Gemini 1.5 Próval is dolgozni. Akár arra is képes lesz az MI, hogy szülői értekezleteket rögzítsen, és a végén kiemelje a lényeget.

A Gmailben egy oldalsávon fog megjeleni a Gemini, és egyszerűen össze tudja majd foglalni a levelek tartalmát. Sőt mi több, meg lehet kérni akár arra is, hogy például az utóbbi időben munkahelyről kapott levelet nézze át, és emelje ki a következő konferenciák időpontjait ezekből. A Gmail mellett a Naptár, a Keep és a Tasks is megkapja már a Geminit.

Nagyon sok energiát fektet a Google abba, hogy a generatív MI-t minél előbb alakítsa át egy olyan megoldássá, amit úgy lehet használni, mint egy igazi asszisztenst. A Google I/O során többször kiemelte a cég a multimodális működést. Bemutatta a vállalat azt is, hogy képes valós idejű kommunikációra a Gemini úgy, hogy képet és hangot is párhuzamosan használnak bementként. Lényegében ez pont az, amit az OpenAI is villantott egy nappal korábban.

Személyes információkat képes lesz megjegyezni a Google mesterséges intelligenciája, és akár el is intézhet különböző feladatokat a felhasználók helyett a jövőben. Például, ha vásárol az ember egy cipőt, ami nem lesz jó, akkor intézheti a visszaküldéssel járó feladatokat az MI segítő. Többféle adminisztrációs feladat bonyolítását is a Geminire lehet majd bízni.

A Google egyik nagy célja, hogy az MI szolgáltatásokat mindenki számára hasznossá tegye.

A Project Astra kezdeményezés keretében szeretné a vállalat megalkotni az „univerzális MI asszisztenst, ami valóban segítőkész és hasznos társa lenne az embereknek a mindennapok során”. Ennek a megalkotása miatt is fontos az, hogy a multimodális működés minél gördülékenyebb legyen. Az interakció a mesterséges intelligenciával minden korábbinál természetesebben zajlik majd a fejlesztések révén.

Ezen a ponton a Google szinte teljesen ugyanolyan demót mutatott be, mint az OpenAI a GPT-4o közreműködésével. A Gemini alkalmazást a Google szeretné az eddigi legfejlettebb digitális asszisztensé formálni. Érkezik a Gemini Live a nyár folyamán, ezen keresztül lehet majd beszélgetni a generatív MI-vel. Képes lesz érzékelni az emberek érzéseit, és igazodni is fog a beszélgetésben az emberek hangulatához.

A Geminit használva a felhasználók a mesterséges intelligenciával egy komplett nyaralást is pillanatok alatt megszervezhetnek, ütemezett programokkal. A reptéri és szállással kapcsolatos jegyeket, foglalásokat már rég kezeli, és mindent össze tud majd fésülni programajánlatokkal együtt. Elég lesz neki néhány támpontot megadni, de a felhasználóval kapcsolatos ismereteit is képes lesz előhúzni a javaslatok kidolgozása során. A nyaralástervezés a Gemini Advanced részét képezi majd, és nyáron fog elindulni.

Gems címszó alatt jönnek az egyedi Gemini asszisztensek is. Lehetőség lesz témaspecifikus chatbotokat létrehozni, és ezen a ponton a Google az Open AI egyedi GPT platformjától meríthetett ihletet. Ha például az ember szeretne egy saját jógainstruktort, amit mindig el akar érni, és más témában nem akar vele csevegni, akkor létre hozhat egy Gemst erre a célra.

A fizetős Gemini Advanced eddig a Gemini 1.0 Ultrát használta, de ezen a fronton változás jön, a Gemini 1.5 Pro modell lép a színre. Hála a jelentős méretű kontextusablaknak, 30 ezer soros programkódot és egy órás videót is képes lesz feldolgozni egy beszélgetésben a chatbot.

A DeepMind vezetője, Demis Hassabis a Google I/O-n bejelentette a Gemini 1.5 Flash modell érkezését. Ez a nevének megfelelően egy olyan alternatíva lesz, ami a sebességével próbál előtérbe kerülni. A Flash kisebb modell, mint a Pro, de lényegesen költséghatékonyabb is annál, miközben még ez is támogatni fog 1 millió tokenes kontextusablakot, ami korábban a Gemini 1.5 Pro maximumát jelentette.

A költségekben tényleg hatalmas a különbség az új modell javára a Google elmondása alapján. A Gemini 1.5 Pro esetében 3,5 dollárba kerül 1 millió token feldolgozása, miközben a Gemini 1.5 Flash-nél ugyanilyen adatmennyiség kezelése mindössze 35 centből megoldható. (A GPT-4o esetében az OpenAI bevallása szerint 5 dollárba kerül 1 millió token bevitele.) Az AI Studio használatával lehet majd igénybe venni az új Gemini 1.5 Flash-t.

Több mint 120 alkalommal hangzott el a nyitóeseményen az „AI”, ami még akkor is extrém, ha számítani lehetett arra, hogy ez lesz a központi téma. Reméljük, hogy senki nem játszott ivós játékot úgy, hogy minden alkalommal letolt egy rövidet, mikor elhangzott az „AI”, mert akkor mostanra alkoholmérgezéssel fekszik valahol.

nem elérhető

Üres a kosarad!

Termék

nem elérhető

GOOGLE I/O: MESTERSÉGES INTELLIGENCIA MINDENEK FELETT

TOP 5 AZ IPON-ON