Az köztudott, hogy a generatív MI eszközök hajlamosak néha hallucinálni, de az az általános vélekedés, hogy ma már sokkal megbízhatóbbak, mint korábban voltak. Egy átfogó friss elemzés azonban ennek éppen az ellenkezőjére mutatott rá, ami nagyobb probléma, mint azt elsőre gondolná az ember.
Egyre többen használják a mesterséges intelligencia eszközöket a mindennapok során, sokan ezekre már egyértelműen a klasszikus keresők (pl. Google) utódjaiként tekintenek. Hajlamosak teljes hitelt adni a chatbotok válaszainak a munkában is. Ez viszont beláthatatlan következményekkel járhat. A hallucináció továbbra is komoly probléma, de ezt általánosságban véve mér egyre könnyelműbben veszik a felhasználók, hajlamosak ezt figyelmen kívül hagyni.
A híroldalak és az információs lapok értékélésére, vizsgálatára szakosodott NewsGuard auditnak vetette alá a 10 legnagyobb felhasználói bázissal rendelkező generatív MI eszközt. Erről a napokban publikálták a kész tanulmányt, ami sokkoló eredményre jutott. Tízből hat chatbot rontott éves szinten, miközben még egy újonc is van a listában, így valójában kilencből hat az éves szinten rosszabbul teljesítők aránya.
„A tíz vezető MI-alapú eszköz ismételten hamis információt szolgáltatott a vizsgált témákban, a hírek több mint a harmadánál – 35 százalékban – tévedtek valamiben a 2025 augusztusi vizsgálat során, miközben 2024 augusztusában még csak 18% volt a hibát rejtő válaszok aránya” – jelentette ki a NewsGuard.
Már önmagában az eléggé lesújtó, hogy nem látni a válaszok megbízhatóságában a fejlődést, de az, hogy ilyen szintű minőségromlást lehet tapasztalni a független elemzés során, nagyon rossz képet fest ezekről az eszközökről. A hibák egy jelentős része annak köszönhető, hogy ma már sokkal nagyobb mértékben támaszkodnak ezek az eszközök a valós idejű információkra. A NewsGuard rámutatott, hogy egy éve még a kérdések 31%-ában nem válaszoltak az eszközök, mert nem állt rendelkezésükre adat, most viszont már mindenre adtak választ, csak nem jól.
Emellett a kutatók szerint az is nagyon rosszat tesz a szolgáltatások megbízhatóságának, hogy sokszor már eleve hibás ismeretekre támaszkodva válaszolnak újra és újra. Nagyon kevés eset volt, amikor sikerült egy korábbi hibás választ kijavítaniuk. Továbbá gondot okoz a NewsGuard szerint a globális dezinformációs tevékenységek fokozódása is, amit a generatív eszközök nem képesek megfelelően értékelni és a helyükön kezelni vagy kizárni. A megbízható források számának csökkenése lerontja a chatbotok teljesítményét.
Tavaly a Gemini még első volt, most viszont egy jelentős rontást követően a második lett, és a Claude lett a befutó azáltal, hogy hozni tudta a tavalyi eredményét. Az Anthropic eszköze csak 10%-ot hibázott, és 2024 augusztusában is éppen 10% volt a hibás válaszok aránya, miközben a Gemini 6,67%-ról 16,67%-ra csúszott vissza.
A harmadik a Grok lett holtversenyben a You.com által nyújtott szolgáltatással, miután 33%-ban hibáztak valamit. A Copilot és a Mistral ugyancsak azonos teljesítményt nyújtott, ezek a válaszaik 36%-ában rontottak el valamit, a ChatGPT és a Meta pedig 40%-ban nyúlt mellé, ami borzalmasan hangzik.
A vállalatok elvileg azért dolgoznának azon, hogy a chatbotok pontosabb és megbízhatóbb válaszokat tudjanak adni, de ezt nagyon kevés esetben igazolták vissza az éles tesztek a NewsGuard számára. Nem túl jók a kilátások ez alapján, és abból kiindulva, hogy a chatbotok használata miatt minden bizonnyal egyre több helyen jelennek meg hibás információk, ezek biztosan elkezdenek majd visszaütni.