Nové AI modely si vymýšlejí víc než ty starší. OpenAI ale neví, proč k nepřesnostem dochází

Forbes Před 3 měsíci

OpenAI představila nové AI modely o3 a o4-mini, které mají vynikat v takzvaných „reasoning“ úlohách, tedy úlohách vyžadujících logické uvažování. Přestože dosahují lepších výsledků v oblastech programování nebo matematiky, podle interních testů si vymýšlejí nepravdivé informace častěji než jejich předchůdci.

Zatímco starší modely o1 a o3-mini si vymýšlely v patnácti procentech případů, model o3 si vymýšlel ve třetině, o4-mini doknce v 48 procentech. Znepokojivé je především to, že OpenAI momentálně neví, proč k nárůstu dochází. Ve své technické zprávě firma uvádí, že „je potřeba další výzkum“, a upozorňuje, že větší počet tvrzení v odpovědích vede nejen k větší přesnosti, ale i k vyššímu počtu nepřesností.

Třetí strany, jako výzkumná organizace Transluce, navíc upozorňují na případy, kdy si verze o3 vymýšlí i samotný proces odpovídání. Nepravdivé výpovědi snižují důvěryhodnost modelu v citlivých odvětvích, jako je právo nebo zdravotnictví.

Startupy jako Workera, které nové modely už testují v reálných firemních procesech, upozorňují na konkrétní nedostatky. Workera pomáhá firmám identifikovat dovednosti zaměstnanců a zefektivnit jejich další rozvoj. Využívá model o3 při generování kódu a technických odpovědí. Přestože oceňuje jeho výkonnost, upozorňuje, že model si někdy vymýšlí neexistující webové odkazy – například odkáže na dokumentaci, která ve skutečnosti neexistuje nebo odkaz nefunguje.

Jedním z možných řešení, kterou OpenAI zvažuje, jak snížit míru nepřesností, je propojení modelů s webovým vyhledáváním. Například GPT-4o s přístupem k internetu dosahuje na testu SimpleQA až 90procentní přesnosti. OpenAI ale připouští, že potlačení nepřesností zůstává jednou z nejsložitějších výzev, se kterou se vývojáři budou muset i nadále potýkat.