Egy ideje már nem titok, hogy az Apple is dolgozik a mesterséges intelligenciával kapcsolatos fejlesztéseken, azonban részleteket konkrétan ennek kapcsán nem árult el a vállalat. Viszont időközben mindenféle felvezetés nélkül megjelent a cég első generatív MI képszerkesztő eszköz.
Az MLLM-Guided Image Editing, röviden MGIE szolgáltatás nem egy képgenerátor, mint amivel például a DALL-E vagy a Midjourney szolgál, hanem egy képszerkesztő megoldás, aminek mindenképpen adni kell egy bementi képet, és azt tudja alakítani. A képekhez a felhasználóknak klasszikus módon egyáltalán nem kell hozzányúlnia, csak meg kell írni a mesterséges intelligenciának, hogy mi legyen rajra módosítva.
Az MGIE nem egyedül az Apple fejlesztése, mint azt megtudhattuk, a Kaliforniai Egyetem kutatóival együtt alkották ezt meg. A szolgáltatás képes a számára megadott felvételeket vágni, átméretezni, forgatni vagy tükrözni és így tovább. Ha a felhasználó azt kéri, akkor tudja világosítani vagy sötétíteni a kép egyes részeit, de akár még filterek hozzáadását is lehet kérni tőle.
A felhasználó által bevitt utasításokat a rendszer mindig kiegészíti majd olyan módon, hogy a kép elkészülését követően a generatív MI leírja, hogy pontosan mit csinált a feltöltött felvétellel. Ezzel irányt mutat az MGIE az embereknek, tanulhatnak a saját leírásából, hogy milyen jellegű parancsokat tudnak kiadni. Persze ez még csak a demo verziója, az nem tudni, hogy a végtermék miként fog kinézni.
A fejlesztők szabadon hozzáférhetővé tették az MGIE képmanipulátort a GitHubon, valamint a kezdetleges felületével kipróbálhatóvá tették a Hugging Face Spaces keretében. Részleteket azonban arról már nem tudhattunk meg, hogy mi a terve az Apple-nek ezzel a modellel. Egyelőre csak egy kutatási projektről van szó, de nem lenne meglepő, ha egészen más köntösben visszaköszönne valamikor a jövőben az iPhone-okon.
Az általunk tesztelt egyszerűbb képnél kiderült, hogy magától szépen felismerte és azonosította a mobiltelefont. Ami viszont furcsa, hogy kérés nélkül is belevágott a képbe, és erről a saját leírásában sem adott visszajelzést. Egy másik próbálkozásunk pedig teljesen zátonyra futott, pedig az részben az MGIE által felajánlott saját példára épült volna. Képes ugyanis példákat mutatni, ha valaki nem tudja, hogyan kezdjen bele a használatába.
A képeket az MGIE valójában nem szerkeszti, hanem újragenerálja. Tehát mi megadtuk neki az egyik esetben, hogy változtasson a háttér színén, ami egyszerű feladat volt. A kimenetben viszont nemcsak háttér lett cserélve, hanem a mobiltelefon is az MI által újragenerált módon jelent meg. Mivel azon nem kellett volna módosítania, egyszerűen csak „lemásolta”.
Sok olyan szolgáltatás van már, amik a semmiből tudnak képeket alkotni utasításra, és részben azért az MGIE is meg tud oldani ilyen feladatokat. Képes a rendszer például azt megtenni, hogy egy pizzára zöldségeket pakol, ha azt kérik tőle, hogy a képen szereplő dolgot tegye egészségesebbé. Idővel nem kizárt, hogy az Apple is eláll majd egy olyan szolgáltatással, ami közvetlen ellenfele lesz a legmodernebb képgenerátoroknak.
Egyebek mellett már a Google Gemini (Bard) is tud képeket létrehozni, de a Copilot is megold ilyen feladatokat, és hosszasan lehetne még sorolni a példákat. Az Apple-től a MGIE egy kezdő lépésnek tűnik, de abból a szempontból fontos, hogy egyértelműen jelzi, hogy dolgoznak ezen a mérnökei.