Shop menü

ESZMÉLETLEN TEMPÓVAL FEJLESZTI A GOOGLE A GEMINIT, MÁR JÖN AZ ÚJ VERZIÓJA

Drámai fejlődést jelez előre a Google a Gemini következő generációjánál, ami egyébként csak egy fél verzióval fog előre lépni.
Szécsi Dániel
Szécsi Dániel
Eszméletlen tempóval fejleszti a Google a Geminit, már jön az új verziója

Padlógázt nyomott a Google a mesterséges intelligencia terén, tényleg szeretné megelőzni a Microsoft és az OpenAI párost, és ennek érdekében mindent bevet. Csak decemberben mutatkozott be a Gemini nagy nyelvi modell, de már a Bard is a Gemini nevét viseli és szinte mindenhol ezt az alapot használja globálisan.

Most pedig már arról számolhatunk be, hogy a Google bejelentette a Gemini 1.5 modellt. „Drámai teljesítmény javulást” hoz majd a frissítés.

A nyelvi modelleknél az egyik viszonylag egyszerűen kivitelezhető fejlesztés a kontextushossz megnövelése. Ezt az utóbbi időben az OpenAI, is meglépte a ChatGPT Turbo variánsánál és az Anthropic is ilyen irányba indult el a Claude esetén. A Google a korábban használt 32 ezer tokenes kontextusablakot a négyszeresére, 128 tokenre bővítette.

Ez nagy fejlődésnek tűnik, azonban érdemes a konkurenciát megnézni. Hiszen a ChatGPT-4 Turbo is 128 ezres limitet alkalmaz már, a Claude 2.1 pedig 200 ezer tokenes kontextusablakkal büszkélkedhet. Szóval ezen a ponton inkább csak arról van szó, hogy ledolgozta a hátrányát. A gyakorlatban ez azt jelenti majd, hogy a generatív MI a különböző szolgáltatások keretei között lényegesen több információt lesz képes feldolgozni. Nagyjából 700 ezer szó, 30 ezer soros kód, 11 óra hanganyag és 1 óra videó videó fér ebbe bele.

A Gemini 1.5 is több méretben lesz elérhető, és egyelőre a Gemini 1.5 Próról beszélt elsődlegesen a Google. Ennek kapcsán elárulta, hogy jellemzően olyan teljesítményt tud majd nyújtani, mint a Gemini 1.0-ból az Ultra LLM modell.

A Gemini 1.5 Pro már képes lesz elemezni, osztályozni, összegezni olyan nagy mennyiségű adatokat, mint például az Apollo 11 küldetés átirata, ami 402 oldal. Ebből kérdezhet a felhasználó bármilyen információt, a chatbot pedig szorgalmasan válaszolni fog. A Gemini 1.5 Pro már videókból származó adatokat is képes lesz kezelni a képek, szövegek hangok mellett, és érvelhet, összegezhet hosszabb felvételeket. Noha egy új egész estét mozi azért már feladja neki a leckét, de egy 44 perces Buster Keaton némafilm jeleneteiből minden kérdésre válaszolhat.

Galéria megnyitása

Programozási feladatokban is jobb segítségnek bizonyulhat majd a Gemini 1.5-ös kiadása, mivel a kódoknak nagyobb részét tudja egyszerre kezelni, ezáltal pedig jobb válaszokkal, iránymutatásokkal tud szolgálni.

Elszánt a Google a kontextusablak folyamatos növelésében, elmondta a cég a mostani bejelentésében, hogy már folyamatban van az 1 millió token kezelésére bővítés. Sőt mi több, már többnyire sikeresen végrehajtottak egy 10 millió tokenes tesztet is. 3 órás videót dolgoztak fel egy fejlesztés alatt álló Gemini modellel, valamint 7 millió szót vittek be, amiben minimális hibákat produkált. De 7 millió szó már nagyjából 80 darab átlagos novellának felel meg.

Galéria megnyitása

Az 1 millió tokenes kontextusablakot fejlesztők egy szűk köre mostantól már élesben is tesztelheti az AI Studio és a Vertex AI keretében. A Gemini 1.5-nél a Google már a Mixture of Experts (MoE) architektúrát használja, ami azt jelenti, hogy a modell képes az adathalmazt felosztani kisebb részletekre, „Expertekre”, és azokkel tud dolgozni a neurális hálózatokban. Ebből a felhasználó semmit nem fog észlelni, a hatékonyság azonban más dimenzióba lép.

Galéria megnyitása

A Google a MoE architektúra korai felhasználója és még sok felfedezni való van ennek a lehető legjobb kihasználásában. Ha minden jól megy, a vállalat idén be fogja vezetni a Google az 1 millió tokenes kontextusablakot, ehhez jelenleg optimalizációs folyamatok zajlanak. Még csökkenteni kell a válaszidőt, valamint a számítási kapacitás igényt, hogy olcsóbban lehessen üzemeltetni. Ezek révén jobb élmény lesz használni a Gemini következő generációját. A vállalat a fejlesztésekkel kapcsolatosan több részletet is meg fog osztani a továbbiakban.

A Gemini 1.5 újításai hozzájárulnak majd ahhoz, hogy a komplex feladatok megoldásában hatékonyabb legyen a generatív MI, és magasabb minőséget tudjon fenntartani a használata során. Jobban teljesít majd a tréningezés során is, és összességében fenntarthatóbban fog működni. Ezeknek köszönhetően a Google csapata a jövőben még többet tud majd kihozni a Geminiből a szolgáltatásaiban.

Egy olyan tesztben, ahol egy hatalmas, 1 millió tokenes adattömbben kell megtalálni egy információmorzsát, már 99%-os teljesítményt tud elérni a Gemini 1.5. Az „in-context” tanulási képessége pedig páratlan, egy olyan könyvből, ami számára teljesen új információkat tartalmaz, képes megtanulni szinte mindent pillanatok alatt. A Google tesztelte a nyelvtanulási képességét a Gemininek egy Kalamang nyelvi könyvvel. Ezt a nyelvet már csak nagyjából 200 ember beszéli Új-Guineában, és a könyvből olyan szinten megtanult a Gemini fordítani, mint ahogy egy ember el tudta sajátítani a nyelvet ugyanabból az anyagból.

Arra is kitért a Google, hogy a Gemini minden verziója komplex biztonsági vizsgálatokon megy keresztül és szigorú szabályoknak kell megfelelnie. Számos olyan védelmi megoldás van beépítve, ami a visszaélések megakadályozását szolgálja, és ebből a szempontból is jobb lesz az újabb LLM rendszer.

Végül Sundar Pichai azt is megjegyezte, hogy igazából a felhasználóknak mindegy, hogy a Gemini milyen verziója, az 1.0 vagy 1.5, illetve Pro vagy Ultra dolgozik a színfalak mögött, csak azt akarják látni, hogy a generatív MI valóban fejlődik. Ugyanakkor egy olyan világban élünk, amikor mégis szeretik hallani ezeket a dolgokat a felhasználók, éppen ezért a cég igyekszik mindenről részletesen tájékoztatni az embereket.

Neked ajánljuk

    Tesztek

      Kapcsolódó cikkek

      Vissza az oldal tetejére