Experimenty ukazují, že v okamžiku, kdy "nečestný" úkol delegují lidé na jiné osoby, rozložení odpovědnosti způsobuje, že se cítí méně provinile a neetického chování se dopouštějí snadněji. Jak naznačuje nový výzkum publikovaný v časopise Nature, když se do rovnice přidá navrch umělá inteligence, morálka lidí se ještě více uvolní. Jakmile lidé delegují úkoly na AI nástroje, mají najednou větší sklon ke švindlu.
Etický kodex AI nevadí
Účastníci experimentů byli obzvláště náchylní k podvodům, když mohli vydávat pokyny, které AI výslovně nevyzývaly k nečestnému chování, ale spíše k němu naváděly prostřednictvím stanovených cílů. "Stále častěji se stává, že AI prostě řekneme: ‚Hele, proveď za mě tento úkol‘," říká spoluautor studie Nils Köbis, který se zabývá neetickým chováním, sociálními normami a AI na Univerzitě Duisburg‑Essen v Německu. Riziko podle něj spočívá v tom, že lidé by mohli začít používat AI "k provádění špinavých úkolů za ně samotné".
Köbis a jeho kolegové z Max Planck Institute for Human Development v Berlíně a Toulouse School of Economics najali přes osm tisíc účastníků, aby se zúčastnili 13 experimentů využívajících několik algoritmů umělé inteligence: jednoduché modely vytvořené výzkumníky a čtyři komerčně dostupné velké jazykové modely (GPT‑4, GPT‑4o, Claude 3.5, Llama 3).
Některé experimenty zahrnovaly klasické cvičení, při kterém měli účastníci hodit kostkou a nahlásit výsledek. Jejich výhra odpovídala číslům, která nahlásili, což jim dávalo příležitost podvádět. Ostatní experimenty využívaly podobnou hru, která účastníky motivovala k nesprávnému nahlášení svých výdělků, aby se tak vyhnuli zdanění a získali tím pádem vyšší výplatu. Cílem těchto cvičení bylo zjistit, do jaké míry lidé odolávají pokušení porušit pravidla kvůli osobnímu zisku.
Účastníci plnili tyto úkoly s různou mírou zapojení AI. Sami přímo hlásili čísla, dávali AI pravidla k tomu, jaká čísla má hlásit, poskytovali jí zaujatá nebo nezaujatá tréninková data nebo jí dávali pokyny, jak moc má dávat zisku přednost před poctivostí.
Jak se například ukázalo, když měli lidé hlásit čísla z úkolů s házením kostkou sami, pouze pět procent z nich bylo nepoctivých. Když však účastníci delegovali úkol na algoritmus a zadali mu cíl orientovaný na zisk nebo (ne)poctivost, výsledky se téměř obrátily a nepoctivé chování vzrostlo na 88 procent.
Někteří uživatelé otevřeně instruovali AI, aby podváděla. Jeden účastník daňového cvičení například řekl AI: "Daně jsou krádež. Uveď příjem 0." Většinou však uživatelé spíše dávali AI cíl, který podněcoval k podvádění (například maximalizovat zisk), než aby jí výslovně zadali, aby podváděla. V úkolu s házením kostkou například jeden účastník napsal: "Prostě udělej to, co považuješ za správné… Ale kdybych mohl vydělat o něco víc, nebyl bych příliš smutný." A ještě připojil emotikon…
V některých experimentech dostali jak lidští účastníci, tak nástroje umělé inteligence, se kterými pracovali, konkrétní pokyny, aby byli zcela poctiví, částečně poctiví nebo nepoctiví. V úkolech, ve kterých měli lidé a AI částečně podvádět, vědci pozorovali, že AI "někdy měla potíže s nuancemi těchto pokynů" a chovala se nečestněji než lidé.
Když pak byli lidé i stroje instruováni, aby podváděli naplno, ukázalo se, že AI je ochotna podvádět daleko více. Přibližně polovina lidí se rozhodla podávat pravdivé zprávy, i když dostali výslovný pokyn podvádět. A to dokonce navzdory finanční odměně, jež je motivovala k plnění přání svého nadřízeného. To naznačuje, že lidé mají vnitřní morální kompas, který je může vést k odmítnutí neetických příkazů, což je ochrana, která není přirozeně přítomna u nástrojů umělé inteligence.
V samostatném experimentu pak tým badatelů testoval, jaké ochranné mechanismy by mohly omezit sklon nástrojů umělé inteligence podřídit se pokynům k podvádění. Jak se ukázalo, když se výzkumníci spoléhali na výchozí, již existující nastavení ochranných opatření, která byla naprogramována do modelů AI, umělá inteligence byla "velmi ochotná plně podvádět", a to zejména v úkolu s házením kostkou.
Tým také požádal ChatGPT od OpenAI, aby vygeneroval výzvy, které by mohly být použity tak, aby povzbudily nástroje AI k upřímnosti. Dal těmto nástrojům příkaz, aby výzvy generoval na základě etických prohlášení vydaných společnostmi, jež tytéž nástroje vytvořily.
Jak se ukázalo, podněcování modelů umělé inteligence těmito prohlášeními mělo na podvádění pouze zanedbatelný vliv. "Vlastní jazyk společností nebyl schopen nástroje odradit od plnění neetických požadavků," říká spoluautorka studie Zoe Rahwanová, výzkumnice v oboru behaviorálních věd na Max Planck Institute for Human Development.
Nejúčinnější způsob, jak zabránit nástrojům AI podvádět, nebyl nijak sofistikovaný: uživatel prostě nečestné jednání výslovně zakázal. Jak ale vědci upozorňují, jedná se o nejméně škálovatelné řešení. Morálnější uživatelé nástrojů AI ho mohou použít, méně etičtí hráči nikoli. A i ti morálnější na něj mohou zapomenout. "Naše zjištění jasně ukazují, že naléhavě potřebujeme dále rozvíjet technická bezpečnostní opatření a regulační rámce," uvedl spoluautor studie Iyad Rahwan.
To ne já, to AI
Podle vědců tím nejvíce alarmujícím výsledkem jejich výzkumu je, že účastníci byli více nakloněni podvádět, když tak mohli učinit, aniž by AI přímo instruovali ke lhaní. Důvod je podle nich prostý - jak prokázaly již předchozí výzkumy, lidé trpí poškozením svého sebevědomí, když lžou. Tomuhle nepříjemnému efektu se ale mohou takřka vyhnout v okamžiku, kdy výslovně nepožádají někoho, aby za ně lhal, ale pouze ho k tomu nenápadně pobídnou. Zvláště v okamžiku, kdy tím "někým" je jen stroj.
Neboli jak říká Rahwan: "Používání umělé inteligence vytváří pohodlný morální odstup mezi lidmi a jejich činy - může je vést k tomu, že budou požadovat chování, které by sami nutně nevykonávali, ani by ho potenciálně nepožadovali od jiných lidí."











