Hangklónozó MI-t jelentett be a ChatGPT fejlesztője

HANGKLÓNOZÓ MI-T JELENTETT BE A CHATGPT FEJLESZTŐJE

Az OpenAI új dobása a Voice Engine; elég neki 15 mp hanganyag, hogy új tartalmakat tudjon létrehozni a felhasználó kérésének megfelelően.

Szécsi Dániel (DemonDani)

Folyamatosan fejleszti a különböző eszközöket az OpenAI, és a szöveges, képi és videós anyagokkal kapcsolatos megoldásokat követően, most egy hangalapú szolgáltatással állt elő. A Voice Engine névre hallgató modell a GPT-4 nagy nyelvi modellt használja fel, hogy hanganyagokat generáljon.

ChatGPT, DALL-E, Sora, Whisper, Jukebox. Ebbe a sorba csatlakozik most a Voice Engine.

Az OpenAI kirobbanó sikerét a ChatGPT hozta el, de nem ez volt az első olyan terméke, amit a felhasználók számára elérhetővé tett, hiszen például a DALL-E képgenerátor már egy régebbi fejlesztés. A cég az idei évben jelentette be, hogy dolgozik egy videós modellen, ami a Sora névre hallgat, és ezeket követően lépett most színre a hangklónozásra használható generatív MI eszköz, a Vocie Engine.

A vállalat egy hangfeldolgozó eszközt már alkotott korábban, ami a Whisper névre hallgat, de a Vocie Engine már más lehetőségeket fog biztosítani. A korábbi fejlesztés lényege a hangfelismerés, feldolgozás volt, és a beszédet szöveggé tudta alakítani, míg az újdonság a szövegből állít elő beszédet, amihez mások hangját képes kölcsönözni. Nagyon rövid hangminta elég ahhoz, hogy utána azon a hangon bármit fel tudjon „olvasni” a generatív mesterséges intelligencia.

A rendszer képes lesz arra is, hogy az eredeti hanganyag nyelvétől eltérő nyelven hozzon létre új hanganyagokat. Persze ilyen esetekben azzal biztosan számolni kell, hogy a kiejtéssel lesznek komoly gondjai a modellnek eleinte. Egyelőre csak limitált hozzáféréssel lehet kipróbálni a Voice Engine-t, nem tekinthető kész fejlesztésnek.

A cég elmondása alapján a biztonságot szem előtt tartó megközelítésben fejlesztették az új eszközt, és akik kipróbálják, azok maguk is megbizonyosodhatnak majd arról, hogy ez nem jelent majd fenyegetést, ellenben jó célokra lehet majd bevetni. „A Voice Engine előnézete némi betekintést nyújthat a felhasználóknak abba, hogy miként lehet egy ilyen modellt a különböző iparágakban előnyösen alkalmazni.” – emelte ki az OpenAI.

Példaként hozta fel a vállalat, hogy oktatási célokra nagyon hatékonyan lehet felhasználni a Voice Engine, hiszen alkalmas arra, hogy különböző történelmi személyiségek hangján tudják felolvasni a tananyagokat. A vizuális történetmesélés egyre nagyobb népszerűségnek örvend, és ennek keretében például az Age of Learning platformon lehet kipróbálni a generatív MI eszközt úgy, hogy a rendszer még a neki feltett kérdésekre is valós időben tud válaszolni a GPT-4 nyelvi modellt teljesen kiaknázva.

Felhasználható lesz a Voice Engine videók szinkronizálására az eredeti hang megtartása mellett, de az elképzelések szerint a gyógyászatban is több fronton használható majd fel. Ennek köszönhetően interaktívabb anyagokkal lehet szolgálni akár különböző nyelveken. Hasznos lehet ez a látáskárosultak számára készített eszközökben is. Továbbá a kommunikációs lehetőségek kiterjesztésére is alkalmas lehet majd a nyelvi modell, de egyelőre még csak a tesztelése megy.

A cég elmondta, hogy 2022 végén kezdtek dolgozni a Voice Engine-en, és a ChatGPT-ben korábban megjelent hangos felolvasásra használatos funkciót már ez a modell támogatja. Annak kapcsán, hogy milyen adatokból tanították fel a funkciót, ködösen nyilatkozott az OpenAI. „Egy olyan adattömböt használtunk, ami vegyesen tartalmazott licencelt, megvásárolt és nyíltan hozzáférhető anyagokat” – jegyezte meg a vállalat. Egyelőre 10 nagy fejlesztővel dolgozik a Voice Engine tökéletesítésén a cég.

nem elérhető

Üres a kosarad!

Termék

nem elérhető

HANGKLÓNOZÓ MI-T JELENTETT BE A CHATGPT FEJLESZTŐJE

TOP 5 AZ IPON-ON