Képfeldolgozásra kihegyezett, kisméretű MI-modell jön a Microsofttól

KÉPFELDOLGOZÁSRA KIHEGYEZETT, KISMÉRETŰ MI-MODELL JÖN A MICROSOFTTÓL

A Microsoft kisebb nyelvi modellje már vizuális tartalmakkal is dolgozik, miközben akár helyben is futhat egy mobiltelefonon.

Szécsi Dániel (DemonDani)

Áprilisban jelentette be a Microsoft az OpenAI-tól függetlenül fejlesztett Phi-3 nyílt, „kis nyelvi modelljét”, melynek az a lényege, hogy kicsi méret mellett nyújt kiemelkedően jó teljesítményt. Most ezt az eszközt a Microsoft elindította a multimodális működés irányába azzal, hogy már képekkel is dolgozhat az új variánsa.

Érkezik a Phi-3-vision, és ez már új irányba viszi el a nyelvi modell képességeit.

A Microsoft mérnökei itt már egy multimodális működésre képes eszközt hoztak létre, ami továbbra is egészen apró, ezáltal felhasználható lesz akár okostelefonokon is helyben futó formában. A szöveges tartalmak mellett a képeket is „látja” majd a Phi-3-vision, ennek köszönhetően hatékonyabban lehet majd hasznosítani a hétköznapi munkában.

Az érdeklődők már próbálgathatják az új nyelvi modellt, előzetes verzióban már elérhetővé tette a Microsoft. A Phi-3-vision 4,2 milliárd paraméterrel dolgozik, ami azt jelenti, hogy igazából még a Phi-3 modellcsaládban is a kisebb megoldások felhozatalát gyarapítja tovább. De a vállalat ígérete szerint ennek ellenére egy kiváló munkatársnak bizonyulhat majd, rengeteg lehetőség lesz benne. Fényképekkel, beolvasott dokumentumokkal egyaránt tud majd dolgozni az egyszerű szövegek mellett az új SLM (Small Language Model) rendszer.

A Phi-3 kínálat ezzel már négytagúra bővül. Az áprilisban megismert Phi-3-mini mindössze 3,8 milliárd paraméterrel dolgozva tudott a különböző tesztek keretében versenyezni a 8 milliárd paraméteres Llama 3 modellel, a 7 milliárd paraméteres Mistrallal, és az ugyancsak 7 milliárd paraméteres Gemmával. Büszkén beszélt arról a cég, hogy a Phi-3 minden konfigurációja kiemelkedik a méretben azonos eszközök között.

A Phi-3-smll már 7 milliárd paraméteres, és miközben ezt még mindig nagyon jól lehet használni kisebb számítási kapacitás mellett, már remek munkát tud végezni, még a GPT-3.5-nek is erős ellenfele. A Phi-3-medium jelenleg a legkomolyabb konfiguráció, de még ez is csak 14B paraméteres. A Microsoft a Phi-3-mediumot még fejleszti, de az első tesztek alapján az 50B paraméternél nagyobb modellekkel is képes lesz ringbe szállni. Ezek a modellek kicsik, könnyedek és nagyon sokat lehet belőlük kihozni, a Phi-3-vision pedig már többféle adatformátumot is támogat.

Azt hozzá kell tenni, hogy a generatív MI ebben az esetben még marad a szövegek létrehozásánál, csak a bemeneti adat lehet kép, létrehozni nem tud képeket a Phi-3-vision. Annak köszönhetően, hogy a Phi-3 modellek nagyon hatékonyak, lényegesen kisebb költségek mellett lehet ezeket üzemeltetni, használni, mivel nem igényelnek olyan extrém számítási kapacitást, mint például a GPT-4 vagy a Gemini 1.5. Éppen emiatt akár egy okostelefonon, vagy már egy notebookon is helyben lehet futtatni azokat a funkciókat, amik ilyen formában használnak mesterséges intelligenciát.

A redmondiak által publikált teszteredmények alapján a Phi-3-vision magabiztosan néz szembe a Google Gemini 1.0 Pro V multimodális modellel, és helyzettől, kihívástól függően még a GPT-4V Turbónál is jobban teljesíti a feladatokat. A Meta által fejlesztett Llama 3 Llava Next 8B modellnél pedig jóformán minden téren megbízhatóbban teszi a dolgát az új Phi SLM rendszer.

A Microsoft természetesen felhős hátteret is biztosít a Phi-3 nyelvi modellek számára, az Azure-ra tudnak ezek támaszkodni. A kipróbálásra a Hugging Face is lehetőséget nyújt az érdeklődők számára.

nem elérhető

Üres a kosarad!

Termék

nem elérhető

KÉPFELDOLGOZÁSRA KIHEGYEZETT, KISMÉRETŰ MI-MODELL JÖN A MICROSOFTTÓL

TOP 5 AZ IPON-ON