Változatos célokra használható MI hanggenerátorral állt elő a Meta

VÁLTOZATOS CÉLOKRA HASZNÁLHATÓ MI HANGGENERÁTORRAL ÁLLT ELŐ A META

Mint eddig a legtöbb Metától származó fejlesztés a generatív MI térben, a mostani újítás is nyíltan és ingyenesen hozzáférhető.

Szécsi Dániel (DemonDani)

Az elmúlt hónapokban a generatív mesterséges intelligencia nagyot ment a különböző szövegek meg képek létrehozása révén. A Meta azonban most szeretné, ha egy újabb formátum is felpöröghetne, méghozzá egy olyan rendszert kihasználva, amit a saját mérnökei alkottak meg. Bejelentette a vállalat az AudioCraft nevű megoldást, ami egy nyílt MI eszköz zenék, hanghatások alkotására.

A generatív MI-vel alkotott hangok nem annyira kaptak nagy figyelmet egyelőre, és amikor még a figyelem középpontjába kerültek, akkor is jellemzően egy dolog miatt: leklónozták vele ismert személyek hangját. A Meta azonban most más irányból közelítette meg ezt a területet. Az AudioCraft egy olyan fejlesztés lett a közösségi média urától, mellyel zenei alapokat vagy egyéb hanghatásokat lehet létrehozni. A két különböző hangtípushoz pedig két különálló tesztrendszer tartozik.

A MusicGen alkalmat arra, hogy zenei alapokat hozzanak vele létre, az AudioGen pedig általánosan képes különböző hanghatásokat létrehozni a rendelkezésre álló információk feldolgozásából.

Mint azt a vállalat közleményéből megtudhattuk, a modellt 20 ezer órányi zenei anyaggal tréningezte a Meta. Ezek mind a saját tulajdonában állnak, és direkt ilyen felhasználási célra gyűjtötte, licencelte ezeket. A MusicGen a betanítási anyagokra támaszkodva képes lesz létrehozni olyan zenei anyagokat, amiket akár dalokban is fel lehet majd használni. Az AudioGen használatával pedig filmek, videók jeleneteihez alkalmazható zajok „alkothatók” egyszerűen.

A felhasználóknak az eddigi generatív MI rendszerekhez hasonlóan, ebben az esetben is elég lesz szöveges paramétereket, promptokat megadni, és ezt követően a nyelvi modelleket alkalmazó eszközök előállítják majd a hangokat. Legyen szó háttérben elhaladó autóról, kutyaugatásról, bicikli csengőről vagy bármi egyébről, az AudioGen elég meggyőzően fog teljesíteni. Csalódást pedig a MusicGen sem okoz, de azért egyértelműen ennek van a nehezebb feladata, hiszen a hangszerek hangjának előállítása nem egy olyan egyszerű dolog, mint egy kutyaugatás leutánozása.

Ezeken felül a Meta biztosítja az érdeklődők számára az új EnCodec dekódert is, ami arról hivatott gondoskodni, hogy a hanganyagokban kevésbé lehessen felfedezni a műviességet. Ne bukjon ki az, hogy mennyire manipulált hangról van szó. Az EnCodec tömörítési eljárás is nyíltan hozzáférhető.

Ahogy azt fentebb említettük, az AudioGen egyszerűbben tud jó eredménnyel szolgálni, és erre utal az is, hogy az igazából csak egy olyan nyelvi modellt használ, ami 1 milliárd paraméteres, míg a MusicGen esetében már 3,3 milliárd paraméterről beszélhetünk. Illetve ez utóbbiból van egy kisebb megoldás is 1,5 milliárd paraméterrel. A kisebb modellt alkalmazó MusicGen szerényebb számítási kapacitással rendelkező környezetben is használható lesz.

A Meta látszólag lemaradt a Google és a Microsoft mögött a generatív MI „viadalban”, de ez egy olyan terület, ahol még semmi nem dőlt el. Mark Zuckerberg csapata pedig rendre igyekszik olyan megoldásokat mutatni, ami a többieknek nincs, hogy ezzel jelezze az ágazati szereplők számára, hogy külön utakon jár, de folyamatosan halad a saját fejlesztéseivel.

De ezt is hozzá kell tenni, hogy nem a Meta az egyedüli a nagyok közül, aki már a hanggenerálás terén is igyekszik lehetőségeket biztosítani az érdeklődők számára. A Google-nek ott van a MusicLM, ami ugyancsak egy zenei részletek létrehozására alkalmas nyelvi modell. És a nagy IT óriások mellett pedig más próbálkozók is vannak ezen a fronton. A Stable Diffusion és kisebb csapatok is próbálkoznak már ilyenekkel.

nem elérhető

Üres a kosarad!

Termék

nem elérhető

VÁLTOZATOS CÉLOKRA HASZNÁLHATÓ MI HANGGENERÁTORRAL ÁLLT ELŐ A META

TOP 5 AZ IPON-ON