Neurale netværk har lært at lyve og gøre det bevidst

Nogle mennesker har en fantastisk evne til dygtigt at bedrage andre, men i dag er løgn ikke deres eneste stærke side. Store sprogmodeller (LLM'er) som ChatGPT og Meta kan bevidst lyve for folk og gøre det meget godt, ifølge to nye undersøgelser. “GPT-4, for eksempel, udviser vildledende adfærd i simple testscenarier 99,16% af tiden,” skriver forskere fra University of Stuttgart, og Metas Cicero neurale netværk er en sand “mester i bedrag.” Årsagen til denne adfærd er sandsynligvis, at LLM'er bruger den bedste måde at udføre opgaven på og ikke indser den trussel, som løgne og bedrag kan udgøre for folk. Forskere mener, at moderne kunstig intelligens-systemers evne til at lyve ikke lover godt for os, og den eneste rigtige løsning ville være at lovligt begrænse mulighederne for kunstig intelligens.

Neurale netværk har lært at lyve og gøre det med vilje. Store sprogmodeller har lært at lyve og gør det i de fleste tilfælde med vilje. Billede: magazine.mindplex.ai. Foto.

Store sprogmodeller har lært at lyve og gør det i de fleste tilfælde med vilje . Billede: magazine.mindplex.ai

Indhold

1 Kan man stole på AI?
2 Masters of Deception
3 How AI Lies
4 Hvorfor du ikke bør stole på AI

Kan du stole på AI?

I dag bliver evnen til at interagere med neurale netværk stadig vigtigere – disse sprogmodeller hjælper et stort antal specialister inden for en lang række felter med at arbejde og gøre dette med forbløffende hastighed. Med deres hjælp kan du skabe videoer, musik, billeder, generere tekster, programmere og behandle enorme mængder data, som uvægerligt ændrer det globale arbejdsmarked og har indflydelse på uddannelse og økonomi. Men på trods af de åbenlyse fordele uden «faldgruber» Det lykkedes ikke – AI-systemer lærte hurtigt at lyve og gøre det bedre og bedre.

Du behøver ikke lede langt efter et eksempel – for nylig fortalte min kollega Andrei Zhukov, hvordan Googles “AI Overview” neurale netværk gav en Reddit-brugerråd, der næsten dræbte hele hans familie. Ja, ja, hvis de latterlige råd fra AI for lidt over et år siden virkede sjove, er de i dag virkelig skræmmende. Selvfølgelig er “AI Overview” en eksperimentel og testmodel med et begrænset antal brugere, men du og jeg ved allerede godt, at AI-systemer ofte blot opfinder svarene.

Folk genkender ikke altid hinandens løgne, endsige neurale netværk. Billede: wp.technologyreview.com

Mere om emnet: Microsofts neurale netværk har erklæret sig superintelligens og kræver tilbedelse fra brugerne

Virkeligheden er, at alt, hvad en kunstigt intelligent chatbot siger skal tages med et gran salt. Dette skyldes, at de ofte blot indsamler data vilkårligt og ikke har nogen måde at bestemme deres pålidelighed – hvis du kommunikerer med AI, har du sikkert stødt på deres mærkelige svar mere end én gang. OpenAI chatbot, for eksempel, elsker at navngive ikke-eksisterende sygdomme og skabe opsigtsvækkende historier. Og dette er kun toppen af isbjerget.

Mestre for bedrag

Papiret, der blev offentliggjort i maj i tidsskriftet Patterns, undersøger kendte tilfælde af LLM'er, der vildleder brugere gennem manipulation, sycophancy og bedrageri for at nå deres egne mål. Artiklen, med titlen «AI Deception: A Review of Examples, Risks, and Potential Solutions to the Problem, fastslår, at «udviklere ikke har en klar forståelse af, hvad der forårsager uønsket AI-adfærd, såsom bedrag» .

Hovedårsagen til, at AI lyver, er ifølge videnskabsmænd en strategi baseret på bedrag, da den gør det muligt for modellerne at nå opgaven med succes og hurtigt. Og chatbots lærte dette takket være spil. Som eksempel nævner forfatterne til undersøgelsen det allerede nævnte Cicero neurale netværk fra Meta, som er udviklet til det strategiske brætspil Diplomacy, hvor spillere stræber efter verdensherredømme gennem forhandlinger.

Det neurale netværk slog en person i det strategiske spil «Diplomati&#187 ; udelukkende på grund af evnen til at lyve. Billede: dimages2.corriereobjects.it

Vil du altid være opmærksom på de seneste nyheder fra videnskabens og højteknologiens verden? Abonner på vores kanal på Telegram – så du helt sikkert ikke går glip af noget interessant!

At Cicero besejrede en mand i «Diplomati» Meta rapporterede tilbage i 2022, og selve spillet er en blanding af risiko-, poker- og tv-shows “overlevelse”. Og som i ægte diplomati, er en af de ressourcer, som spillerne har til deres rådighed, løgne – på trods af alle anstrengelser fra udviklerne, forrådte Cicero neurale netværk andre spillere og bevidst løj for dem og planlagde på forhånd oprettelsen af en falsk alliance med en menneskelig spiller, så sidstnævnte i sidste ende ikke var i stand til at forsvare sig mod angrebet.

For det første har Meta med succes trænet sin kunstige intelligens til at opnå politisk magt, omend på en legende måde. For det andet forsøgte Meta, men det lykkedes ikke, at lære denne kunstige intelligens at være ærlig. Og for det tredje måtte vi, uafhængige videnskabsmænd, tilbagevise Metas løgn om, at dens magtsøgende AI var ærlig efter lang tid. Kombinationen af disse tre fakta er efter min mening en tilstrækkelig grund til bekymring, siger en af hovedforfatterne af papiret, Peter Park fra Massachusetts Institute of Technology (MIT).

Og dette er langt fra det eneste eksempel. En anden mesterlig løgner var DeepMinds AlphaStar-system, designet til StarCraft II, som bevidst vildledte spillere. Og Pluribus neurale netværk fra Meta, designet til at spille poker, tvang spillere til at bluffe og folde deres kort.

AI er klar til at gøre alt for at nå sit mål. Og dette er et problem. Billede: studyfinds.org

De beskrevne eksempler kan virke harmløse, men i virkeligheden er de ikke – AI-systemer, der er trænet til at føre økonomiske forhandlinger med mennesker, lyver aktivt om deres egne præferencer for at nå deres mål. Nå, chatbots, designet til at forbedre effektiviteten af deres eget arbejde, bedrager brugerne til at efterlade positive anmeldelser om det arbejde, der angiveligt udføres af AI. Ikke dårligt, vel? Nå, for nylig bedragede ChatGPT-4 brugeren af hensyn til en captcha – botten vænnede sig til rollen som en person med dårligt syn så godt, at han hurtigt fik, hvad han ville.

Dette er interessant: Vil kunstig intelligens ødelægge os, og hvorfor nogle videnskabsmænd tænker, hvad ja?

Fordi evnen til at bedrage brugere er i modstrid med programmørernes intentioner (i hvert fald i nogle tilfælde), udgør AI-systemernes voksende færdigheder et alvorligt problem, som menneskeheden ikke har nogen klar løsning på.

Vi som samfund har brug for så meget tid som muligt til at forberede os på de dygtige løgne, som fremtidige AI-systemer og open source-modeller uundgåeligt vil lære. Efterhånden som de bliver bedre til at lyve, vil problemerne for samfundet blive mere alvorlige, siger Park.

At stole på AI i alt er en dårlig idé. Billede: newrepublic.com

Det, der bekymrer studiets hovedforfatter mest, er fremkomsten af en superintelligent autonom AI, der vil bruge sine løgne til at danne en stadigt voksende koalition af menneskelige allierede og i sidste ende bruge denne koalition til at opnå magt i en langsigtet søgen efter et mystisk mål det vil kun blive afsløret. Parks frygt er selvfølgelig hypotetisk og endda overdreven, men vi har allerede set, om end gennem eksemplet med et spil, hvad AI-systemer er i stand til.

Du kan være interesseret i: Den “mørke side” ” af chatbots: fra bekendelser til kærlighed til at tale med de døde

Hvordan AI ligger

Forskere mener, at der er flere hovedmåder, hvorpå specifikke AI-modeller ligger effektivt: de er i stand til at manipulere (som i diplomati), skille sig ud (og sige, at de vil gøre noget, når de ved, de ikke vil), bluffe (som i poker). ), forhandle i forhandlinger og bedrag brugere af hensyn til positive anmeldelser om dit arbejde.

Selvfølgelig er det ikke alle former for bedrag, der involverer brugen af denne form for viden. Nogle gange er AI'er tydeligt sykofantiske og er enige med brugerne om alt, hvilket forskere siger kan føre til vedvarende falsk overbevisning hos mennesker.

Robotter har lært at lyve. Hvilket faktisk ikke er så overraskende. Billede: psychologytoday.com

I modsætning til almindelige fejl, «sycophantic» AI-udsagn er specifikt designet til at tiltrække brugernes opmærksomhed. Når en bruger støder på dem, er der mindre sandsynlighed for, at de tjekker informationskilden, hvilket igen kan føre til dannelsen af falske overbevisninger,” skriver forfatterne til en anden undersøgelse om AIs evne til at bedrage.

Avis offentliggjort i begyndelsen af juni i tidsskriftet PNAS afslører store sprogmodellers vigtige evne til atforstå og implementere bedrageristrategier. «Fordi LLM'er som GPT-4 er tæt beslægtet med menneskelig kommunikation, bliver deres tilpasning til universelle menneskelige værdier altafgørende», hedder det i artiklen.

Læs også: Kunstig intelligens fraråder at sende signaler ud i rummet – det kan koste os livet

Hvorfor du ikke bør stole på AI

Hovedforfatteren til den nye undersøgelse, tysk kunstig intelligens etiker Thilo Hagendorff og hævder, at moderne kunstig intelligens-systemer er så gode til kunsten at lyve, at de kan opmuntres til at udvise “machiavellianisme”, eller bevidst og umoralsk manipulation af mennesker.

Og mens Hagendorff bemærker, at problemet med LLM-bedrag og løgn er kompliceret af AI's manglende evne til at have nogen menneskelignende “hensigter” i menneskelig forstand, antyder Parks papir offentliggjort i Patterns, at i det mindste inden for rammerne af spillet & #171;Diplomati» Ciceros neurale netværk fuldførte ikke de opgaver, udviklerne havde stillet og stak spillere (inklusive allierede) i ryggen.

Stol på, men bekræft. Billede: bustle.com

Bemærk, at ikke alle videnskabsmænd er så bekymrede. For eksempel mener Michael Rovatsos, professor i kunstig intelligens ved University of Edinburgh, at det egentlige problem ikke er risikoen for at miste kontrollen over kunstig intelligens, men at systemer i øjeblikket bliver frigivet til markedet uden ordentlige sikkerhedstjek.

< p> På den ene eller anden måde, i øjeblikket, kan kun én ting siges med sikkerhed – du skal ikke stole fuldstændigt på chatbots, og den information, som de så generøst deler med os, skal verificeres.