Új audiómodellekkel állt elő az OpenAI, melyekben komoly potenciál rejlik

ÚJ AUDIÓMODELLEKKEL ÁLLT ELŐ AZ OPENAI, MELYEKBEN KOMOLY POTENCIÁL REJLIK

A GPT-Realtime modellcsalád három tagja debütált, ezeket az API révén az érdeklődő fejlesztők vehetik igénybe.

Szécsi Dániel (DemonDani)

Az OpenAI az utóbbi időben nagy tempóra kapcsolt, ontotta magából az újdonságokat, és elég jól teljesítenek a vállalat fejlesztései. A GPT-5.5 és a ChatGPT Images 2.0 után most színre lépett a GPT-Realtime új generációja, ami több különböző alváltozatból áll.

A GPT-Realtime-2 egy általános audiómodell, ami képes lesz minden eddiginél természetesebb társalgást biztosítani. A GPT-Realtime-Translate értelemszerűen a nyelvek közötti fordításban jeleskedik majd. A GPT-Realtime-Whisper pedig beszéd szöveggé alakítására lett kihegyezve.

A mesterséges intelligencia frontvonal éllovasa a jelek szerint minden területen igyekszik egyértelművé tenni, hogy hiába erős a Google, de azért a kezdeményező képesség még mindig az OpenAI kezében van. A cégnek nagyon erős volt már az eddig hangmodellje is, de a GPT-Realtime-2-vel elkészült az első olyan megoldás, amit már GPT-5-szintűnek lehet tekinteni. A beszélgetések során képes a nehezebb, összetettebb kérdéseket is valós időben megválaszolni, és általánosságban még direktebb lesz a működése, hogy természetesebbnek érződjön.

A GPT-Realtime-2 modellt olyan helyzetekre tervezték, amikor a válaszoknak, a cselekvéseknek és az érvelésnek egyidejűleg kell történnie, anélkül, hogy megszakítanák a gördülékeny társalgást. Akár összetett utasításokat is képes lesz megérteni és kezelni az újdonság, persze a háttérben ennek is nagy számítási kapacitásra van szüksége, és lesznek olyan helyzetek, mikor elgondolkodik, de erre töltelék szöveggel is szolgálni fog. Mondhatja majd időhúzás céljával, hogy “ez egy remek kérdés, engedd meg, hogy átgondoljam a válaszom”.

Hosszabb beszélgetést is gond nélkül lehet majd folytatni a GPT-Realtime-2 modellel, ugyanis a korábbi 32 ezer tokenről 128 ezer tokenre nőtt a kontextusablak. Komoly fejlődést mutat majd az eszköz olyankor is, mikor valamilyen szakmai beszélgetésben, szakszavak használata mellett kell helytállnia. A modell hangja minden eddiginél jobban alakítható majd, és kifejezőbb lesz a beszédje. Az érvelési szintet pedig a partnerek igény szerint megválaszthatják majd (minimal, low, medium, high, xhigh).

A Big Bench Audio tesztben az OpenAI elmondása alapján sokkal erősebb lett a GPT-Realtime-2, mint az előző verzió, a GPT-Realtime-1.5 volt. Magas érvelési fokozatban 96,6 százalékos eredményt ért el ott, ahol a felmenője még csak 81,4%-ot tudott összehozni. Az Audio MultiChallenge keretében pedig azt emelte ki a vállalat, hogy az instrukciókövetés mennyit javult. Előzőleg még csak 34,7%-ot tudott összehozni az eszköz, az új hangmodell viszont már 48,5 százalékkal zárt.

A GPT-Realtime-Translate már kiváló tolmácsnak fog bizonyulni, valós időben lesz képes fordítani a különböző nyelvek közötti kommunikációt. Szükség esetén pedig az audió kimenet mellett szöveggel is szolgálni fog, hogy a beszélgetés még biztosabban, megbízhatóbban menjen. Ezáltal az esetleges fordítási hibák könnyen kiszűrhetők.

Több mint 70 nyelvet támogat már az új GPT-Realtime-Translate a bemeneti oldalon, viszont a kimenet még csak 13 nyelven biztosított. Nagyon jól kezeli állítólag a különböző akcentusokat és regionális nyelvjárásokat is ez az audiómodell. Az OpenAI szerint ez jól jöhet majd az ügyfélszolgálatok mellett az oktatásban, határmenti kommunikációban és a nemzetközi rendezvényeken is. A Deutsche Telekom állítólag már erre épít többnyelvű asszisztenst.

A GPT-Realtime-Whisper pedig folyékonyan feliratozhatja a hallott szövegeket, nagyon minimális késleltetéssel fog üzemelni. Ezzel segítheti a felhasználókat például hangjegyzetek készítésében. Modern diktafon alkalmazások alapjául tökéletes választás lehet ez a modell, megbeszélésekről remek leiratot hozhat létre, de akár tanítási órákon is segíthet, és megannyi példát lehetne még hozni a felhasználási lehetőségekre.

Az új modellek triója az OpenAI korábban bevezetett Realtime API-ja révén érhető el. A GPT-Realtime-2 esetében 1 millió audió token feldolgozása 32 dollárba kerül, míg a kimeneti oldalon ugyanez 64 dollárt kóstál. A GPT-Realtime-Whisper és a GPT-Realtime-Translate esetében percben lett megadva az árazás, a Whisper modell 0,017 dollárt kóstál, a Translate pedig 0,034 dollárba kerül percenként.

nem elérhető

Üres a kosarad!

Termék

nem elérhető

ÚJ AUDIÓMODELLEKKEL ÁLLT ELŐ AZ OPENAI, MELYEKBEN KOMOLY POTENCIÁL REJLIK

TOP 5 AZ IPON-ON