MI fejlesztések kavalkádját hozta az idei Google I/O

MI FEJLESZTÉSEK KAVALKÁDJÁT HOZTA AZ IDEI GOOGLE I/O

A Google bejelentett egy új, 250 dolláros előfizetési csomagot, új modellekkel állt elő szinte minden fronton, és már egy MI videoszerkesztőt is felvonultat.

Szécsi Dániel (DemonDani)

Az idei évre a mesteréges intelligencia a Google I/O-t is átalakította. A vállalat korábban ezen az eseményen mindig az Androidot állította a középpontba, de idén az Android kapott egy előeseményt, és a fejlesztői konferencia keretében már az MI lépett a reflektorfénybe. Rengeteg kisebb-nagyobb nyelvi modellekkel és MI-vel kapcsolatos bejelentés történt.

A vállalat az eseményt már egy olyan szürreális videóval nyitotta meg, amit a Veo modell legújabb, harmadik generációja alkotott. A cég szeretné azt elérni, hogy a jövőben könnyebb legyen videókat és képeket létrehozni, ezért megalkotta a Flow-t. A Flow együtt érkezik a Veo 3 videogeneráló modellel és az ugyancsak friss Imagen 4 képgeneráló modellel.

A felhasználóknak a Flow és az új modellek minden eddiginél több lehetőséget fognak nyújtani arra, hogy kontrollálják az MI által létrehozott tartalmakat. Az egyszerű szövegből videót készítő funkció mellé már bejön az „összetevőkből videókészítés”, ahol a szöveg mellett fotókat, vagy akár generált képeket is be lehet majd vinni, amik segíteni fogják azt, hogy a generált videó olyan legyen, mint amire a felhasználó vágyik.

Továbbra is csak 8 másodperces klipeket lehet létrehozni az új Veo 3 modellel, de a Flow segít majd több jelenetet összefésülni egy hosszabb videóvá. Egy-egy Flow projekt akár több tucat rövid jelenetből épülhet fel, így egészen hosszú, teljesen MI-vel alkotott videók hozhatók vele létre. A generált jeleneteket lehet vágni és kiterjeszteni is szöveges instrukciók alapján. Ha a felhasználónak a videó egy része nem tetszik, megvághatja és kérhet új infók alapján kiterjesztést.

A Google Labs közreműködésével fejlesztett Flow lényegében olyan, mint egy videoszerkesztő szoftver, de nem a klasszikus tartalmakhoz, hanem már a generatív MI által létrehozott anyagok számára. A Flow egyszerűen kezelhető bárki számára, nem kell különösebb szakértelem az alkalmazásához, ami fontos szempont volt a megalkotása során. A Google olyan eszközt igyekszik nyújtani az embereknek, aminek a használatát bárki könnyen elsajátítja.

Az Imagen 4 és a Veo 3 is minden eddiginél magasabb minőségű anyagokkal lesz képes előállni, élethűbbek lesznek a generált videók, képek. Mindkét eszköz fejlődést mutat majd az instrukciókövetés tekintetében, és jobban fogják értelmezni a hosszabb, részletesebb leírásokat is – főleg a Veo 3 esetén lesz ez észlelhető. Kevésbé fog az MI fantáziája annyira elkalandozni, mint korábban, és pontosabb lesz az egész képalkotás. Az Imagen 4 már feliratokat is szépen tud kivitelezni, amivel eddig bajban volt az MI.

Flow az Egyesült Államokban kerül először bevetésre, és azok vehetik használatba első körben, akik Google AI Pro vagy Google AI Ultra csomagokra előfizetnek. A Google AI Pro havi 100 videó létrehozására nyújt majd lehetőséget, a Google AI Ultra pedig „a legtöbb használati lehetőséget” garantálja a Veo 3 használatára. Az Imagen 4 a Geminiben mostantól elérhető, és egyéb Google szolgáltatásokban is ezzel lehet már dolgozni képgenerálásnál. Jön ennek egy gyorsabb verziója is, de erre még várni kell.

A fent említett előfizetési lehetőségek is újak, korábban nem léteztek ilyen opciók. A Google AI Pro és az AI Ultra is a Google I/O termése, ez utóbbi ráadásul eléggé drága opció lett.

Az új előfizetési lehetőségeknek egyelőre csak az amerikai áraikat ismerjük. A Google AI Pro előfizetés havi szinten nettó 20 dollárba fog kerülni, ez már biztosítja a Flow elérést, valamint a Google Chrome-ba integrált Gemini használatának lehetőségét is egyebek mellett.

A Google AI Ultra pedig már az eddigi legmagasabb használati lehetőségek mellett nyújtja a Gemini összes modelljét, a NotebookLM és a Whisk szolgáltatás a friss Flow mellett. Ebben már benne van 30 TB tárhely is, hogy gond nélkül legyen hova menteni a videókat, de még a YouTube Premium is része ennek a csomagnak, de bele is fér, mivel ez havi 250 dollárt (nettó) fog kóstálni.

A Gemininek már több mint 400 millió aktív felhasználója van havi szinten, de az nem derült ki, hogy mennyi előfizetővel rendelkezik a Google mesterséges intelligenciája. A vállalat bízik abban, hogy egyre többen fognak fizetni a szolgáltatásért cserébe, és a Google AI Pro és AI Ultra csomagokban is folyamatosan gyarapítani fogja a cég az extrákat, hogy megérje ezekre befizetni.

A fejlesztői konferencián bejelentette a Google azt is, hogy a Gemini Live funkció a mobiltelefonos alkalmazásban immáron mindenki számára elérhetővé válik. Innentől az Android és iOS rendszerű eszközökön egyaránt lehet úgy beszélgetni hangalapon a mesterséges intelligenciával, hogy a kamera képe vagy a kijelző tartalma is megosztható vele. Ezt már korábban elindította a cég, de mostanáig nem mindenkinek volt adott ez a lehetőség.

Kitért a Google a Project Mariner kezdeményezésre is, melynek keretében az MI-t már a számítógépek használatára igyekeznek „megtanítani”. Ehhez a keresőóriás bővíti a Gemini API-t. Sundar Pichai a konferencián elmondta, hogy a „számítógép használat egy rendkívül fontos ügynöki képesség” a mesterséges intelligencia számára. Elsősorban a böngésző használatát emlegette a cég, de a tervek között szerepel, hogy minél több szoftverrel tudjon majd operálni az MI. A Project Mariner már akár 10 párhuzamos projektet tud felügyelni, és ebben is csak egyre jobb lesz.

Beszélt a Google arról is, hogy a Gemini személyreszabott működése egyre hatékonyabb lesz, de ennek kapcsán azt is leszögezte a cég, hogy a felhasználók szabadon dönthetnek majd arról, hogy milyen adatokat osztanak meg az MI chatbottal. A Gmailben, jegyzetelésnél a Google Drive-on és más szolgáltatásokban is felbukkan majd a személyre szabott működésben jól teljesítő – mégis biztonságos – Gemini.

A Gemini 2.5 modellcsaládot a Google már korábban bejelentette, de erről is nagyon sok szó esett a fejlesztői konferencián. Kiemelte a vállalat, hogy számos elismert tesztben vezető szerepet tölt be a továbbfejlesztett Gemini 2.5 Pro nyelvi modell, az élen jár például a LMArena toplistáján és a WebDev Arena rangsorán is. Már a Gemini 2.5 modellek dolgoznak a Project Mariner mögött is, és immáron natív audió kimenettel is szolgálnak a természetesebb beszélgetési élmény elérése érdekében.

Ha minden a tervek szerint alakul, akkor a Gemini 2.5 Pro valamikor júniusban fog befutni a kész állapotában. Most még csak az előzetes tesztelés fut, melynek keretében a Google a felhasználói visszajelzéseket is szorgosan gyűjti. Ezen felül pedig a későbbiekben érkezik a Gemini 2.5 Pro Deep Think, ami már egy érvelő modell a Google legújabb technológiai hátterével, a nagyon komplex kérdések megválaszolására, összetett problémák megoldására. Ez azonban még kezdeti stádiumban van, és csak egy szűk csapat teheti próbára.

nem elérhető

Üres a kosarad!

Termék

nem elérhető

MI FEJLESZTÉSEK KAVALKÁDJÁT HOZTA AZ IDEI GOOGLE I/O

TOP 5 AZ IPON-ON