Miután a DeepSeek hirtelen a figyelem középpontjába került, a versenytársak azonnal vizsgálni kezdték. Ezen persze nem kell meglepődni, borítékolható volt, hogy ez be fog következni, viszont a DeepSeek esetében a riválisokat nem csupán a megszokott kíváncsiság hajtja. Többan arra gyanakodnak, hogy adatlopást követett el a startup.
A DeepSeek R1 nagyon jó eredményeket nyújt, de még csak nem is ezzel hívta fel magára a figyelmet elsősorban, hanem azzal, hogy elvileg „fillérekből” hozták össze, és elképesztően olcsón üzemeltethető. A fejlesztés állítólag mindössze 5,6 millió dollárba kerül, miközben a hasonló nyelvi modellekbe ölt pénz mennyisége milliárdos összegekben mérhető általában. A riválisai pedig akár több mint 30-szor drágábban dolgoznak fel azonos mennyiségű adatot.
A DeepSeek nyelvi modellje és az arra épülő mesterséges intelligencia chatbot elképesztően teljesít a különböző teszteken, nagyon hasonló eredményeket produkál, mint az OpenAI által fejlesztett legjobb, o1 nyelvi modell. A hasonlóság talán túl nagy, már önmagában ez alapos gyanúra adhat okot, hogy a DeepSeek valamilyen módon az OpenAI értékeire építhet.
Az is árulkodó jelként könyvelhető el, hogy a DeepSeek chatbotja sokszor úgy nyilatkozik, hogy ő nem a DeepSeek, hanem a ChatGPT. Ezt persze még be lehet tudni hallucinációnak, láttunk már ilyet más szolgáltatások esetén is. Viszont az OpenAI azért mégis csak úgy döntött, hogy alaposan utánajár annak, hogy milyen kapcsolat lehet a saját nyelvi modellje, chatbotja, és a DeepSeek fejlesztése mögött. Továbbá a Microsoftról is kiderült, hogy vizsgálja a színfalak mögött a szolgáltatás működését, és hogy milyen adatokat alkalmazhat.
Az OpenAI azt gyanítja, hogy a DeepSeek visszaélhetett az általa biztosított API-val, és ezen keresztül szűrhettek, „desztillálhattak” nagy mennyiségű adatot illetéktelenül a kínai fejlesztők. Ezt felhasználva rendkívül hatékonnyá lehet tenni a tanulás folyamatát, és ez megválaszolná, hogy miért azonosítja magát ChatGPT-ként a szolgáltatás, és miért produkál néha szinte hajszál pontosan ugyanolyan válaszokat a beszélgetések során.
Kiszivárgott információk szerint a Microsoft az elmúlt év végén több alkalommal is felfigyeltek esetleges visszaélésekre. Ismeretlenek hatalmas mennyiségű adatot generáltak az OpenAI API használatával. Most azt gyanítják, hogy az elkövetők kapcsolatban állhattak a DeepSeekkel. A nyomozás persze még folyamatban van, ennyi alapján nem lehet meggyanúsítani a kínai startupot.
A desztilláció egyébként nem egy ördögtől való dolog, ezt minden vállalat használja, aktívan alkalmazza például a kisebb modellek felkészítése, pontosságának növelése során. Az viszont egyértelműen szabályellenes, hogy bárki ilyen célra használja fel az OpenAI által biztosított API-t. A cégnek pedig állítólag már van bizonyítéka arra, hogy a DeepSeek visszaélést követhetett el, és jogszerűtlenül járt el a nyelvi modelljének fejlesztése, tréningezése során.
Viszonylag ironikus szituáció ez, ugyanis az OpenAI jelenleg is több eljárásban érintett azért, mert a különböző nyelvi modellek képzéséhez nagy mennyiségű adatot szívott fel az internetről, nem foglalkozva azzal, hogy az információkat szerzői jog védi. Kérdés nélkül emésztette fel az interneten fellelhető adatok egy jelentős részét, ide értve az írott szövegeken túl a képi tartalmakat is.
Érdekes lesz majd azt látni, hogy miként alakul a DeepSeek jövője, hiszen az utóbbi időben az Egyesült Államok rendszeresen azon dolgozott, hogy elgáncsolja a kínai vállalatokat. Ahogy azt korábban már említettük, mostanra van is olyan hely, ahol betiltották a DeepSeek használatát.