A Microsoft az OpenAI-ba elképesztő mennyiségű pénzt tolt bele az elmúlt években, és az OpenAI technológiáit igyekezett integrálni a saját termékeibe. Viszont időközben elkezdte a vállalat a saját nyelvi modelljeit, MI-alapú eszközeit is összerakni, és most elindította a képgenerálásra szolgáló megoldását.
MAI-Image-1 névre hallgat a modell (Microsoft AI), és kettő termékben vezette be a redmondi alakulat. Egyrészt helyet kapott a Bing Image Creator keretei között, ez adta magát, másrészt bevetésre került a Copilot Audio Expressions égisze alatt is, ami már egy kicsit furcsábban hangzik.
Már korábban beharangozta a Microsoft, hogy ráfordult a célegyenesre a képek létrehozására alkalmas „text-to-image” modellje, és innentől tényleg széles körben alkalmazható a MAI-Image-1. A Bing Image Creator eredetileg az OpenAI által felvonultatott DALL-E-t alkalmazta, majd bevezetésre került a GPT-4o is, a továbbiakban pedig ezeken felül már szerepelni fog a választható modellek között a Microsoft újdonsága is.
A vállalat elmondása alapján a MAI-Image-1 képes fotórealisztikus tartalmakat létrehozni, és élethűen képzi le a fényeket is a képeken. Természeti jelenségeket valós fizikával társítva képes ábrázolni, tájképeket tud létrehozni, állatokat is nagyon szépen képes alkotni, és így tovább. A Microsoft megoldása gyors is, a fejlesztőknek sikerült a nagy tempót és a kiemelkedő minőséget kombinálni, ami azért nem jellemző a mesterséges intelligencia eszközökre.
Ez alapján valószínűleg nem igényel túl nagy számítási kapacitást, ami pozitívum lehet abból a szempontból is, hogy bőséges használatot engedhet a Microsoft, de erre vonatkozó információt nem kaptunk.
A Copilot Audio Expressions szolgáltatás mögött arra lehet majd használni a MAI-Image-1 modellt, hogy a mesterséges intelligencia illusztrációkat, művészeti alkotásokat alkosson az ugyancsak generatív MI-vel létrehozott hanganyagok mellé. Rendelkezik a szolgáltatás sztori móddal, és azt igyekszik majd a cég kiegészíteni a képgenerálással, hogy még teljesebb élményben legyen része a felhasználóknak.
Üröm az örömben, hogy az Európai Unióban mi egyelőre még mindenképpen lemaradunk a MAI-Image-1 modellről. Az EU a világon az egyik legszigorúbb MI szabályozást alkalmazza jelenleg, és szinte minden fejlesztés kicsit lassabban érkezik meg emiatt az európai polgárokhoz, ami sok esetben nem is baj az általános tapasztalatok alapján.
A Microsoft komoly lemaradásban van a saját fejlesztéseivel a Google-höz és az OpenAI-hoz képest, de szép lassan azért halad mindennel. Korábban a cég megvillantotta már a hanggenerálásra alkalmas modelljét, ami a MAI-Voice-1 néven fut, illetve már akcióba lendült előzetes kiadásban a MAI-1-preview nyelvi modell is, ami generatív MI chatbot alapjául szolgál.
A tervek szerint a Copilot MI asszisztens mögött a MAI-1 modell fog munkába állni a jövőben, de hogy erre mikor kerülhet sor, arról még egyáltalán nem esett szó. Jelenleg a Copilot elsősorban a GPT-5-öt használja, de válaszható benne a legújabb Claude is. Egyelőre azt lesz érdekes látni, hogy a MAI-Image-1 miként fog teljesíteni a Bing Image Creatorben ugyancsak választható DALL-E 3 és GPT-4o modellekhez képest. Abban biztosak lehetünk, hogy rövidesen jönnek majd az összehasonlítások, ha mi első kézből nem is tudjuk ezt megnézni egyelőre az EU szigora miatt.