A partvonalon próbál előretörni a Microsoft, a MAI-Image modell első nagyobb frissítése a vállalat beszámolója szerint tisztességes előrelépést mutat, és a vezető eszközök nyomában jár. Ráadásul elég gyorsan jött ez a fejlesztés, ami jó kilátásokat vetít előre a jövőbeli újításokat illetően.
A Microsoft kicsit a háttérbe szorult a saját nyelvi modelljeit illetően, de a MAI-Image-2 jelen állás szerint elég erőteljes lett. A vállalat tavaly október 13-án jelentette be a MAI-Image-1 modellt, ami szöveges utasítások alapján tud képeket generálni, és kevesebb mint fél év elteltével már befutott a friss verzió.
A MAI-Image-2 egy általános célú text-to-image generatív MI modell, melyet a Microsoft AI csapata azzal a céllal alkotott, hogy a felhasználók kreativitását kiterjessze, és dizájn feladatokban segítsen. A modell a cég elmondása alapján “részben” képes fotorealisztikus képeket is generálni. A MAI-Image-2 beépül majd a vállalat különböző szolgáltatásaiba, első körben elérhető lesz a MAI Playgroundon keresztül.
A redmondiak beszámolója alapján a MAI-Image-2 minden fronton magasabb pontszámokat képes elérni a különböző tesztekben a MAI-Image-1 modellnél. A legnagyobb fejlődést a szövegek renderelésében sikerült elérni. Ez az a terület, amiben a legtöbb képgenerálónak még van hova fejlődnie, miután a szövegek előállítása igényeli a legnagyobb pontosságot az apró részletek szintjén. Emellett sokat javult a MAI-Image-2 a filmes hatású jelenetek és a fotorealisztikus képek létrehozásában, valamint a portré felvételek készítésében is.
Az LMArena ranglistáját jelenleg a Nano Banana 2 (Gemini 3.1 Flash) vezeti 1266 ponttal, és a második helyen áll a GPT-Image 1.5 modell. Ezekhez képest még hátrányban van a MAI-Image-2, 1189 pontot tud felmutatni, azonban a Grok, a Qwen és a Flux legújabb verziói már mögötte vannak a rangsorban. Csak az élmenők előzik meg a Microsoft újdonságát, erre pedig különösen büszke a szoftveróriás.
A technikai adatlap szerint a MAI-Image-2 egyelőre csak 1024 x 1024 képpontos felbontású anyagokat tud előállítani, és 32 ezer tokenes kontextusablakkal dolgozik. Ez utóbbi a gyakorlatban valószínűleg nem fogja limitálni az eszközt, a felbontásnak viszont még bőven van hova fejlődnie, hogy komolyabb munkára alkalmas lehessen a modell.
A MAI-Image-2 biztonságáról is gondoskodik a cég, a Microsoft AI Red Team több körben elemzte a működését. A vállalat igyekezett kiemelni, hogy különös tekintettel voltak a fejlesztés során arra, hogy a potenciális visszaéléseket megfelelően kezelje a rendszer. Magabiztosan, több szinten szűri majd a modell azokat az utasításokat, amik a leggyakoribb kockázati területeket érintik, még akkor is, ha azok árnyaltan vannak fogalmazva. Ilyenek például az erőszakos és a szexuális tartalmakra irányuló promptok.
A Microsoft eddig dollármilliárdokat fizetett az OpenAI-nak azért, hogy a Copilot és a Bing számára egyebek mellett képgeneráló mesterséges intelligencia eszközt is biztosítson. Meglehetősen rossz hír az évek során óriásira nőtt startup számára a MAI-Image-2 megjelenése, ugyanis innentől valószínűleg csak idő kérdése, hogy a cég inkább a saját eszközére álljon át. Az OpenAI így komoly bevételtől eshet el.