A Meta Connect 2024 eseményen elsősorban a virtuális és a kiterjesztett valóság volt a terítéken, de a vállalat nem mulaszthatta el ezt az alkalmat a mesterséges intelligencia kiemelésére. A Microsoft és a Google mellett a Meta a harmadik nagy techcég, aki folyamatosan igyekszik az MI-t napirenden tartani. Ezúttal az aktuális fejlesztések mellett a kísérleti újításokba is betekintést engedett.
Befutott a multimodális Llama 3.2
Két hónappal ezelőtt jelentette be a Meta a Llama 3.1 modellt, ami jelentős fejlődést mutatott, és a cég beszámolója szerint már számos területen a riválisok előtt járt. A Meta Connecten pedig egy újabb nagy frissítésre került sor, lehullott a lepel a Llama 3.2-ről. Ezúttal nem az érvelési és egyéb képességben lesz nagy javulás, hanem sokkal látványosabb újítás történ, hiszen ez már a képek létrehozására és értelmezésére is képes a szövegek kezelése mellett. A multimodális működést két különböző méretű modellnél fogja biztosítani a vállalat.
A Llama 3.2 már képes arra, hogy kiterjesztett valóságban értelmezze a látottakat, és a kontextusban kezelje a felhasználó által adott utasításokat, kéréseket. A vizuális és szövegalapú multimodális működésnek hála hatékonyan lehet majd alkalmazni az AR eszközökkel. A felhasználó által látott dokumentumokat is képes lesz összefoglalni, kiemelni azok lényegét.
A Metánál nagyon fontos az, hogy a kiterjesztett valósághoz jobb fejlesztéseket tudjon felvonultatni, miután a cég szép sikereket ért el a Ray-Ban Meta okosszemüveggel, aminek az egyik varázsát az adja, hogy folyamatosan kapja a szoftveres fejlesztéseket. Az MI már a szemüveget is elérte, hogy a fejlettebb nyelvi modellekkel ez egyre jobb élményt lesz képes biztosítani.
A Llama 3.2 alapmodellje 405 milliárd paraméteres, és négy verzióban lesz elérhető a fejlesztők számára. A multimodális működést kettő biztosítja, az egyik 90 milliárd, a másik pedig már csak 11 milliárd paraméteres, ez utóbbi már akár lokálisan is futtatható lesz. Ezek mellett jön két olyan modell, amiket már szerényebb hardverek, mobileszközök is képesek lesznek helyben kezelni, az egyik 3, a másik pedig mindössze 1 milliárd paraméteres. Ezek a kisebb Llama 3.2 modellek már csak szöveget kezelnek.
Új szintre lép a Meta AI
A Meta AI is folyamatosan fejlődik, ez a vállalat elsőszámú MI terméke, amit már a nagyközönségnek biztosít, már ahol elérhető, mert Európát például egyelőre elkerüli. (A szigorúbb szabályok miatt az öreg kontinensen sok mesterséges intelligencia és nyelvi modell fejlesztésről kell lemondanunk, az Apple Intelligence bevezetése is ezért tolódik 2025 a régiónkban.) A chatbot a továbbiakban már arra is képes lesz, hogy ismert személyiségek hangján szólaljon meg. A Meta AI ilyen celebek hangját kapta meg, mint Awkwafina, John Cena, Keegan-Michael Key, Kristen Bell, és Judi Dench.
Az ismert emberek hangján megszólaló mesterséges intelligencia egyelőre csak az Egyesült Államokban lesz elérhető, de idővel fokozatosan kiterjesztik a támogatott régiókat. Az általános hangminták sora is folyamatosan bővül, nemcsak a „celebek” révén lesz több opciója a felhasználóknak. A megállapodások hátteréről a Meta semmit nem árult el természetesen, de a The Wall Street Journal információi szerint több millió dollárt fizettek ki az érintetteknek a hangjukért cserébe.
A Meta AI újítása az is, hogy már fotókkal kapcsolatos kérdéseket is lehet neki feltenni, ezeket is feldolgozza a multimodális működés révén. Például egy tortáról készült képnél meg lehet kérdezni, hogy azt miként lehet elkészíteni. Képszerkesztésben is segítségül lehet hívni a Meta AI-t a továbbiakban, egy feltöltött kép módosításához bármilyen szöveges instrukció adható lesz.
További újítása a Meta AI-nak, hogy Történetek megosztásokhoz már képes lesz egyedi hátteret készíteni. Ha az ember nem egy álló képarányú fotót akar megosztani, ami kitölti a teljes képet, akkor innentől látványos, a képből vett minták alapján létrehozott háttereket is be lehet majd tenni az üres területek kitöltésére. Az Instagramon és Facebookon megjelenő tartalmak így még látványosabbak lehetnek.
Meta AI részét képező Imagine képgeneráló már azt is meg tudja oldani, hogy a felhasználó arcát használva hozzon létre érdekes és izgalmas anyagokat. A szöveges instrukciókat és az arcképet egyszerre felhasználva az emberek jól szórakozhatnak a Meta rendszere által létrehozott „felvételeken”, amit a Facebookon és az Instagramon egyaránt pillanatok alatt meg lehet osztani a követőtáborral.
Ezeken felül a Meta már videók fordítását is teszteli. Kísérleti jelleggel már megoldható, hogy egy spanyol nyelvű videóban a hangsávot angolra cseréljék, mindezt az MI használatával. Az így szinkronizált videóknál megjelenik majd, hogy a Meta AI fordította le, de attól egyelőre nem igazán kell tartani, hogy mi, magyarok ilyennel fogunk találkozni bármelyik közösségi oldalon.
Izgalmas MI újításokban gondolkodik a Meta
A rendezvényen a Meta arra is kitért, hogy fejlesztés alatt állnak olyan mesterséges intelligencia eszközök is, amik teljesen megváltoztathatják a mostani influenszer világot. Nagyon ambiciózusan beszélt a cég a Meta Creator AI fejlesztésről, melynek keretében a tartalomgyártókat teljesen digitalizálnák. Létrehozzák az emberek virtuális mását, hozzá a hangját, és a rendelkezésre álló információk alapján pedig még a háttértudását is. Az MI személyi klónok úgy néznek ki, úgy viselkednek, úgy mozognak, mint a valódi készítők, és a nekik feltett kérdésekre úgy próbálnak válaszolni, mint ahogy a valódi emberek válaszolnának.
A fentebb már említett videó fordító eszközt is igyekszik a Meta továbbgondolni, miközben még csak fejlesztés alatt áll. Itt a cégnek az a terve, hogy a feltöltött anyagok már automatikusan több nyelven válnának elérhetővé a közösségi platformokon. Ezáltal az elérésüket jelentősen lehetne növelni. A cég még ennél is továbbmegy, a videókat is manipulálná, hogy az emberek szája pontosan úgy mozogjon, mintha tényleg az adott nyelven beszélne.
Sok évre előre tervez a Meta a generatív MI fronton, a Meta Connect 2024-en megvillantott újítások a következő hónapokban, években fognak bevezetésre kerülni. A fejlesztések java először az USA-ban fog bevezetésre kerülni, azt pedig itt is látni kell, hogy Európában, Magyarországon ebből a szempontból különösen hátrányos helyzetben vagyunk.