Folyamatosan azon van a Google, hogy a lehető legtöbbet hozza ki a mesterséges intelligenciából, és természetesen neki sem jött jól a DeepSeek megjelenése. Az OpenAI után így a Google is frissítéseket jelentett be, igyekszik a cég a Gemini legjobb arcát megmutatni, és a korábbi kísérleti modellt ezentúl bárki próbára teheti.
Miután a DeepSeek ingyenesen olyan chatbotot indított, ami már egy érvelő nyelvi modellre épült, és ezáltal sokkal átgondoltabb, pontosabb válaszokat tudott adni a számára feltett kérdésekre, a többiek is szükségét látták elindulni ebbe az irányba. Az OpenAI szabadon alkalmazhatóvá tette néhány napja az o3-mini modelljét, most pedig a Google tette meg ezt, megnyitotta a nagyközönség számára a Gemini 2.0 Flash Thinking modellt.
Ez a fejlesztés most még kísérleti verzióban fut, amit igyekszik a Google kiemelni, de azért már elérhetővé tette, hogy ne maradjon le a többiek mögött ebben a versenyben. Tavaly év végén jelentette be a Google a Gemini 2.0 Flash Thinking érvelő modellt, azóta egy szűkebb felhasználói kör már próbálgathatta, most pedig a nagyközönség előtt is bizonyíthat. Ez a modell a promptokat részletes elemzésnek veti alá, hogy így igyekezzen azokat megérteni, és pontosabb, jobb minőségű válaszokkal szolgálni.
A legtöbb érdeklődőt minden bizonnyal a Gemini 2.0 Flash Thinking modell vonzza majd, de egyéb újítások is történtek. Eddig a Gemini 1.5 Flash volt elsődleges használatban a chatboton belül, innentől viszont már a Gemini 2.0 Flash modellt tolja előtérbe a vállalat – manuálisan még vissza lehet váltani az előző generációra. Ezt a vállalat először a 2024-es Google I/O-n mutatta be, egy multimodális megoldásról van szó, amu 1 millió tokenes kontextusablakkal dolgozik, és kiemelkedő hatékonyság mellett teszi a dolgát – ezért biztosítja a cég ingyen.
A felhasználás során azt lehet majd látni, hogy a generatív MI chatbot válaszai szó szerint látványosabbak lesznek. Képekkel, beágyazott videókkal együtt fogja a válaszokat szállítani a felhasználók kérdéseire. Minden megjelenő multimédiás anyag az internetről származik, nem generálja ezeket, a forrást pedig kivétel nélkül az összes esetben megjelöli a rendszer. Erre már a válaszoknál is nagy figyelmet szentel a Google. A jövőben a cég bevezeti a text-to-speech funkciót is.
A cég beharangozta a Gemini 2.0 Pro modellt is, ami egyelőre kísérleti verzióban bizonyíthat. A vállalat elmondása alapján ez lett az eddigi legjobb modellje programozási feladatok megoldásában és a komplex kérdések megválaszolásában egyaránt. Ennél már 2 millió tokenes kontextusablakot szabott meg a Google, tehát még nagyobb terjedelmű tartalmakkal lesz képes magabiztosan dolgozni. Ennek az eredményeiről a vállalat megosztott egy összefoglaló táblázatot.
Továbbá a vállalat bejelentette még a Gemini 2.0 Flash-Lite modellt is, ami pedig az eddigi leghatékonyabb fejlesztése lett. Ez nagyjából azon az árszinten és teljesítményszinten mozog majd, mint a Gemini 1.5 Flash, csak lényegesen jobb minőségű válaszokat lesz képes adni. A cég arra számít, hogy hatalmas sikere lesz a fejlesztők körében. Úgy lett olcsón üzemeltethető a Gemini 2.0 Flash-Lite, hogy az elődjét minden nagyobb tesztben übereli.
Még azt is hozzátette a cég, hogy multimodális működésre is fel van készítve ez a modell, valamint biztosítja a nagyobb méretű Gemini 2.0 Flash esetében elérhető 1 millió tokenes kontextusablakot. Ezt a modellt a Google AI Studio és a Vertex AI keretében lehet elérni publikus előzetes verzióban, tehát még fejlesztés alatt áll.
A Google kiadott egy frissített költségtáblázatot is a Gemini modelleket illetően. Ezzel igyekszik arra rámutatni, hogy milyen gazdaságos a használata. Nem meglepő ez a lépés a cég részéről, miután a DeepSeek azzal is felkavarta az állóvizet, hogy az árazásában bőven a konkurensei alá tudott menni. A friss táblázat szerint a Gemini 2.0 Flash már olcsóbb, mint a DeepSeek. Ezzel 0,1 dollárba kerül 1 millió token feldolgozása, ami 0,15 dollár a DeepSeeknél, a kimenetben pedig 0,4 dollár 1 millió token ára, ez 0,55 dollár a kínai MI esetén.