Neurala nätverk har lärt sig att ljuga och gör det medvetet

Vissa människor har en fantastisk förmåga att skickligt lura andra, men idag är lögn inte deras enda starka sida. Stora språkmodeller (LLM) som ChatGPT och Meta kan medvetet ljuga för människor och göra det väldigt bra, enligt två nya studier. “GPT-4, till exempel, uppvisar bedrägligt beteende i enkla testscenarier 99,16% av tiden,” skriver forskare från University of Stuttgart, och Metas Cicero neurala nätverk är en sann “mästare på bedrägeri.” Anledningen till detta beteende är förmodligen att LLM:er använder det bästa sättet för att uppnå uppgiften och inte inser det hot som lögner och bedrägeri kan utgöra för människor. Forskare tror att förmågan hos moderna AI-system att skickligt ljuga inte bådar gott för oss, och den enda korrekta lösningen skulle vara att lagligt begränsa kapaciteten hos artificiell intelligens.

Neurala nätverk har lärt sig att ljuga och göra det avsiktligt. Stora språkmodeller har lärt sig att ljuga och gör det i de flesta fall avsiktligt. Bild: magazine.mindplex.ai. Foto.

Stora språkmodeller har lärt sig att ljuga och gör det i de flesta fall avsiktligt . Bild: magazine.mindplex.ai

Innehåll

1 Kan man lita på AI?
2 Masters of Deception
3 How AI Lies
4 Varför du inte ska lita på AI

Kan du lita på AI?

Idag blir förmågan att interagera med neurala nätverk allt viktigare – dessa språkmodeller hjälper ett stort antal specialister inom en mängd olika områden att arbeta och göra detta med otrolig hastighet. Med deras hjälp kan du skapa videor, musik, bilder, generera texter, programmera och bearbeta enorma mängder data, vilket undantagslöst förändrar den globala arbetsmarknaden och har en inverkan på utbildning och ekonomi. Men trots de uppenbara fördelarna utan «fallgropar» Det gick inte – AI-system lärde sig snabbt att ljuga och göra det bättre och bättre.

Du behöver inte leta långt efter ett exempel – nyligen berättade min kollega Andrei Zhukov hur Googles neurala nätverk “AI Overview” gav en Reddit-användare råd som nästan dödade hela hans familj. Ja, ja, om de löjliga råden från AI för drygt ett år sedan verkade roliga, så är de idag verkligen skrämmande. Naturligtvis är “AI Overview” en experimentell och testande modell med ett begränsat antal användare, men du och jag vet redan mycket väl att AI-system ofta helt enkelt hittar på svar.

Människor känner inte alltid igen varandras lögner, än mindre neurala nätverk. Bild: wp.technologyreview.com

Mer om ämnet: Microsofts neurala nätverk har förklarat sig vara superintelligens och kräver dyrkan från användarna

Verkligheten är att allt som en artificiellt intelligent chatbot säger bör tas med en nypa salt. Detta beror på att de ofta helt enkelt samlar in data urskillningslöst och inte har något sätt att avgöra dess tillförlitlighet – om du kommunicerar med AI har du förmodligen stött på deras konstiga svar mer än en gång. Chatboten OpenAI, till exempel, älskar att namnge icke-existerande sjukdomar och skapa sensationella historier. Och det här är bara toppen av isberget.

Bedragets mästare

Tidningen, som publicerades i maj i tidskriften Patterns, undersöker kända fall av LLMs vilseledande användare genom manipulation, sycophancy och bedrägeri för att uppnå sina egna mål. Artikeln, med titeln «AI Deception: A Review of Examples, Risks, and Potential Solutions to the Problem, säger att «utvecklare inte har en klar förståelse för vad som orsakar oönskat AI-beteende såsom bedrägeri» .

Den främsta anledningen till att AI ljuger, enligt forskare, är en strategi baserad på bedrägeri, eftersom den tillåter modellerna att framgångsrikt och snabbt uppnå uppgiften. Och chatbots lärde sig detta tack vare spel. Som ett exempel nämner författarna till studien det redan nämnda neurala nätverket Cicero från Meta, som utvecklats för det strategiska brädspelet Diplomacy, där spelare strävar efter världsherravälde genom förhandlingar.

Det neurala nätverket slog en person i det strategiska spelet «Diplomati&#187 ; enbart på grund av förmågan att ljuga. Bild: dimages2.corriereobjects.it

Vill du alltid vara medveten om de senaste nyheterna från vetenskapens och högteknologins värld? Prenumerera på vår kanal på Telegram – så att du definitivt inte missar något intressant!

Att Cicero besegrade en man i «Diplomati» Meta rapporterade tillbaka 2022, och själva spelet är en blandning av risk-, poker- och tv-program för “överlevnad”. Och, precis som i verklig diplomati, är en av resurserna som spelarna har till sitt förfogande lögner – trots alla ansträngningar från utvecklarna förrådde Ciceros neurala nätverk andra spelare och ljög medvetet för dem och planerade i förväg skapandet av en falsk allians med en mänsklig spelare så att den senare i slutändan inte skulle kunna försvara sig från attacken.

För det första har Meta framgångsrikt tränat sin artificiella intelligens för att uppnå politisk makt, om än på ett lekfullt sätt. För det andra försökte Meta, men misslyckades, att lära ut denna artificiella intelligens för att vara ärlig. Och för det tredje var vi, oberoende forskare, tvungna att motbevisa Metas lögn om att dess maktsökande AI var ärlig efter en lång tid. Kombinationen av dessa tre fakta är enligt min mening en tillräcklig anledning till oro, säger en av huvudförfattarna till tidningen, Peter Park från Massachusetts Institute of Technology (MIT).

Och detta är långt ifrån det enda exemplet. En annan mästerlig lögnare var DeepMinds AlphaStar-system, designat för StarCraft II, som medvetet vilseledde spelare. Och Pluribus neurala nätverk från Meta, designat för att spela poker, tvingade spelare att bluffa och lägga sina kort.

AI är redo att göra vad som helst för att uppnå sitt mål. Och detta är ett problem. Bild: studyfinds.org

De beskrivna exemplen kan tyckas ofarliga, men i verkligheten är de inte det – AI-system tränade för att föra ekonomiska förhandlingar med människor ljuger aktivt om sina egna preferenser för att nå sina mål. Tja, chatbots, designade för att förbättra effektiviteten i sitt eget arbete, lurar användare att lämna positiva recensioner om det arbete som påstås utföras av AI. Inte illa, eller hur? Nåväl, nyligen lurade ChatGPT-4 användaren för en captchas skull – boten vande sig vid rollen som en person med dålig syn så väl att han snabbt fick vad han ville ha.

Detta är intressant: Kommer artificiell intelligens att förstöra oss och varför vissa forskare tänker, vad ja?

Eftersom förmågan att lura användare strider mot programmerarnas avsikter (åtminstone i vissa fall), utgör den växande skickligheten hos AI-system ett allvarligt problem som mänskligheten inte har någon tydlig lösning på.

Vi som samhälle behöver så mycket tid som möjligt för att förbereda oss för de skickliga lögner som framtida AI-system och modeller med öppen källkod oundvikligen kommer att lära sig. När de blir bättre på att ljuga kommer problemen för samhället att bli allvarligare, säger Park.

Att lita på AI i allt är en dålig idé. Bild: newrepublic.com

Det som oroar studiens huvudförfattare mest är uppkomsten av en superintelligent autonom AI som kommer att använda sina lögner för att bilda en ständigt växande koalition av mänskliga allierade och i slutändan använda den koalitionen för att uppnå makt i en långsiktig strävan efter ett mystiskt mål det kommer bara att avslöjas. Parks farhågor är naturligtvis hypotetiska och till och med överdrivna, men vi har redan sett, om än genom exemplet med ett spel, vad AI-system är kapabla till.

Du kanske är intresserad av: Den “mörka sidan” ” av chatbots: från bekännelser till kärlek till att prata med de döda

Hur AI ligger

Forskare tror att det finns flera huvudsakliga sätt på vilka specifika AI-modeller ligger effektivt: de kan manipulera (som i diplomati), demontera (säga att de kommer att göra något när de vet att de inte gör det), bluffa (som i poker). ), pruta i förhandlingar och lura användare för positiva recensioner om ditt arbete.

Naturligtvis är det inte alla typer av bedrägeri som involverar användningen av denna typ av kunskap. Ibland är AI:er uppenbart sycophantic och håller med användarna om allt, vilket forskare säger kan leda till ihållande falska övertygelser hos människor.

Robotar har lärt sig att ljuga. Vilket faktiskt inte är så förvånande. Bild: psychologytoday.com

Till skillnad från vanliga misstag, «syfande» AI-uttalanden är speciellt utformade för att fånga användarnas uppmärksamhet. När en användare stöter på dem är de mindre benägna att kontrollera informationskällan, vilket i sin tur kan leda till bildandet av falska övertygelser”, skriver författarna till en annan studie om förmågan hos AI att lura.

Papper publicerat i början av juni i tidskriften PNAS avslöjar den viktiga förmågan hos stora språkmodeller attförstå och implementera bedrägeristrategier. «Eftersom LLM:er som GPT-4 är nära besläktade med mänsklig kommunikation, blir deras anpassning till universella mänskliga värderingar av största vikt», står det i artikeln.

Läs också: Artificiell intelligens avråder från att skicka signaler ut i rymden – det kan kosta oss livet

Varför du inte ska lita på AI

Hovedförfattaren till den nya studien, tysk artificiell intelligens etikern Thilo Hagendorff och hävdar att moderna AI-system är så bra på konsten att ljuga att de kan uppmuntras att uppvisa “machiavellianism”, eller avsiktlig och omoralisk manipulation av människor.

Och medan Hagendorff noterar att problemet med LLM-bedrägeri och lögn kompliceras av AI:s oförmåga att ha några mänskliga “avsikter” i mänsklig mening, antyder Parks papper publicerad i Patterns att åtminstone inom ramen för spelet & #171;Diplomati» Ciceros neurala nätverk slutförde inte uppgifterna som utvecklarna och knivhögg spelarna (inklusive allierade) i ryggen.

Tro men verifiera. Bild: bustle.com

Observera att inte alla forskare är så oroliga. Till exempel menar Michael Rovatsos, professor i artificiell intelligens vid University of Edinburgh, att det verkliga problemet inte är risken att tappa kontrollen över AI, utan att system för närvarande släpps på marknaden utan ordentliga säkerhetskontroller.

< p> På ett eller annat sätt, för tillfället, kan bara en sak sägas med säkerhet – du ska inte helt lita på chatbots, och informationen som de så generöst delar med oss måste verifieras.