Google I/O: Már videógeneráló MI, és új Gemma modellek is érkeznek

GOOGLE I/O: MÁR VIDEÓGENERÁLÓ MI, ÉS ÚJ GEMMA MODELLEK IS ÉRKEZNEK

LearnLM, Veo, Gemma és más mesterséges intelligenciával kapcsolatos újítások is jönnek a Google-től az elkövetkezendő időszakban.

Szécsi Dániel (DemonDani)

Az idei Google I/O tényleg csak a mesterséges intelligenciát helyezi a középpontba. A nyitóesemény 2 óra volt, de a vállalat valószínűleg még órákon keresztül tudott volna arról mesélni, hogy milyen LLM és MI fejlesztésekkel készül. A következő napokban ezt meg is teszi majd több, kisebb előadás keretében, hiszen a Google I/O napokig várja a fejlesztőket.

Arról már beszámoltunk, hogy a Gemini kapcsán több fontos bejelentést is tett a cég. A Gemini 1.5 Pro egy megnövelt kontextusablakkal dolgozhat majd a jövőben, a korábbi 1 millió helyett mér 2 millió tokennel is boldogulni fog. Ennek köszönhetően egészen hosszú videókat is képes lesz feldolgozni. Bemutatkozott a Gemini 1.5 Flash modell is, ami egy kicsi, könnyű és olcsó opció lesz a kínálatban, de a sokszor előforduló helyzetekben kiválóan fog teljesíteni.

A Gemini generatív MI és LLM eszköz számos különböző formában fog megjelenni az Android keretei között is, amivel egy külön hírben foglalkoztunk. De a Google I/O keretében más nyelvi modellek is terítékre kerültek. A vállalat beszélt arról, hogy a Gemma milyen irányba indul el. Erről először februárban hallottunk, akkor jelentette be a keresőóriás, nem sokkal a Gemini 1.5 leleplezését követően.

A Gemma egy nyílt forráskódúnak nevezett, de azét annyira nagyon mégsem nyitott nyelvi modell. Ezt szabadon használhatják a Google partnerei, azonban arról nincs szó, hogy teljesen publikus és transzparens lenne ezzel kapcsolatban minden, így például az, hogy milyen adatokkal tréningezték. Februárban ennek egy 2 milliárd és egy 7 milliárd paraméteres verziója jelent meg, majd később elkészült a CodeGemma és a RecurrentGemma opciók párosa, most pedig ezek mellé érkezett még kettő újabb modell.

Lesz már egy vizuális beállítottságú Gemma modell is a kínálatban, ez a PaliGemma néven érkezik. Ez a Google első nyílt vizuális nyelvi modellje, és arra lett optimalizálva, hogy a képeken megjelenő feliratokat kiemelkedő hatékonysággal legyen képes felismerni. Termékcímkék, dokumentumok és egyebek kezelésében fog remekelni ez az újdonság. A PaliGemma egy előre betanított modell, melynél képek, videók jelentették a „tananyagot” a mesterséges intelligencia számára.

A PaliGemma teljesen más szinten mozog majd, mint az egyszerű képfelismerő megoldások, ez a fotók támogatásán túl alkalmas lesz egészen speciális felvételek elemzésére, így például bevethető majd az orvostudományok területén, de alkalmazható lesz akár műholdképek, légifelvételek elemzésére is. Bármilyen vizuális téren jól boldogulhat, miközben a szövegfelismerésben jeleskedni fog.

A másik újdonság a Gemma 2 modell, ami a nevének megfelelően már a Gemma második generációját képviseli, hiába nagyon fiatal még az első kiadás is. Az eddigi Gemma LLM eszközök még 10 milliárd alatti paraméterrel rendelkeztek, itt azonban már egészen más a helyzet, a Gemma 2 esetében 27 milliárd paraméterről beszélhetünk.

A Google ilyen formában is szerette volna megőrizni a könnyedségét, éppen ezért nagyon magas szinten lett optimalizálva a működése. Konkrétan az Nvidiával együtt dolgoztak a hangolásán, hogy a következő generációs GPU-kon jól teljesítsen. Emellett pedig a Google saját TPU feldolgozóin is kiváló hatékonyságot lesz képes elérni. Az ígéret pedig az, hogy a munka során akár kétszer nagyobb modellekkel is képes lesz felvenni a kesztyűt.

Ha minden a Google tervei szerint alakul, akkor a Gemma 2 júniusban válhat elérhetővé. Nagy népszerűségre számít a cég, elmondta a fejlesztői konferencia alatt, hogy a kezdeti kettő Gemma nyelvi modellt több millió alkalommal töltötték le a megjelenésüket követően. A kínálat újabb tagjai iránt pedig ugyancsak sokan érdeklődtek már.

Izgalmas fejlesztés a Google-től a mesterséges intelligencia terén a Veo is, ez a vállalat teljesen új videogeneráló MI eszköze. Ezt a VideoFX keretében lehet majd elérni, és parancsok alapján lesz képes előállítani mozgóképet.

Sokféle videós generatív MI megoldás van már, de a Google azt ígéri, hogy a Veo kiemelkedő minőséget nyújt majd, és erre utal az is, hogy 1080p felbontású anyagokat lesz képes előállítani a felhasználók utasításainak megfelelően. A Google I/O-n meg is mutatott több nyers demót a cég, hogy prezentálja, mennyire jól teljesít a Veo.

Beszélt a vállalat a LearnLM nyelvi modellről is, ami az oktatással kapcsolatos feladatok megoldásában jeleskedik majd. Ennek az lesz a feladata, hogy nem szimplán megoldja például a házi feladatot, hanem le is vezeti olyan formában, hogy azt a diákok képesek legyenek megérteni. Erről a fejlesztésről már szó esett az Android újításainál is, mivel ez az Androidba fog beszivárogni elsőként, és a mobilokon próbál majd a diákoknak segíteni a tanulásban. Elérhető lesz majd a LearnLM a Google Classroom keretében is, és segíthet a tanárokban az órák tervezésében.

Arról is szó esett a Google I/O-n, hogy a vállalat folyamatosan dolgozik azon, hogy a mesterséges intelligencia működése felelőségteljes és etikus legyen minden körülmények között. A sebezhetőségek, visszaélési lehetőségek kutatásában élen jár a Google a saját meglátása szerint, és már ezen a területen is használja az MI-t. MI segítők és a hús-vér emberek együtt dolgoznak azon, hogy kisebb legyen az esély a jövőben arra, hogy rossz célra használják az eszközeit.

Korábban a Google bevezette a SynthID-t, ami egy olyan vízjel, mely könnyen felismerhetővé, azonosíthatóvá teszi a generatív MI-vel létrehozott tartalmakat. Ez első körben a fényképeknél teljesített szolgálatot, de most új vizekre evez. Már a szövegekbe és a generált videókba is képes lesz azonosítót rejteni a SynthID. Ebben az az igazán érdekes, hogy a szövegben milyen módon jelenhet majd meg a vízjel, de a Google elvileg már ezt is megoldja. Az is kiderült, hogy együtt dolgoztak a fejlesztés során a C2PA szervezettel.

A Google I/O során bejelentett újításokat a vállalat fokozatosan fogja elérhetővé tenni.

nem elérhető

Üres a kosarad!

Termék

nem elérhető

GOOGLE I/O: MÁR VIDEÓGENERÁLÓ MI, ÉS ÚJ GEMMA MODELLEK IS ÉRKEZNEK

TOP 5 AZ IPON-ON