Vi har allerede talt om, hvordan neurale netværks evne til at lyve for brugerne har overgået vores vildeste forventninger. Dette kan virke som ikke noget alvorligt, men videnskabsmænd er uenige. Faktum er, at sprogmodeller som GPT-4 er blevet en integreret del af hverdagen. De bruges også aktivt i uddannelse, medicin og videnskab og hjælper med at løse forskellige og ret komplekse problemer. Men på trods af disse intelligente systemers imponerende egenskaber, har resultaterne af nyere forskning vist, at efterhånden som de udvikler sig og løbende forbedres, bliver neurale netværk mindre og mindre pålidelige og er mere tilbøjelige til at opfinde fakta.
De nyeste AI-systemer stræber efter at besvare alle spørgsmål overbevisende, selv når de ikke er sikre på oplysningernes pålidelighed. Dette er især farligt på områder, hvor nøjagtighed og pålidelighed er afgørende, såsom medicin eller jura.
Hvorfor udgør neurale netværk fakta?
Resultaterne af en undersøgelse offentliggjort i tidsskriftet Nature viste, at en gruppe af kunstigt intelligente chatbots bliver stadig mindre pålidelige: Efterhånden som de udvikler sig, opfinder store sprogmodeller i stigende grad fakta, når de besvarer brugerspørgsmål.
Læs mere Avisens konklusion blev nået ved at gennemgå arbejdet i brancheførende AI-systemer, herunder OpenAI's GPT, Metas LLaMA og open source BLOOM-modellen skabt af BigScience-forskningsgruppen.
Bemærk, at forbedring af systemer baseret på kunstig intelligens traditionelt er blevet opnået på to måder: skalering(øgning af antallet af parametre, datamængde og databehandling ressourcer) og «skærpning» modeller(tilpasning til specifikke opgaver og brug af feedback fra brugere). Disse tilgange gjorde det muligt for chatbots bedre at forstå instruktioner og generere mere komplekse og sammenhængende svar.
Mere om emnet: Neurale netværk har lært at lyve og gøre det med vilje
Undersøgelsen fandt dog, at disse forbedringsmetoder fører til uønskede konsekvenser. Så, større og «slibet» modeller er ikke altid pålidelige til at løse simple problemer, hvor fejlene skal være minimale. Desuden er procentdelen af forkerte svar fra forbedrede modeller generelt meget højere end for deres forgængere.
I disse dage besvarer neurale netværk næsten alle spørgsmål. Det betyder, at antallet af både rigtige og forkerte svar vokser, sagde en af forfatterne til den nye undersøgelse, José Hernandez-Orallo fra Valencia Research Institute for Artificial Intelligence (Spanien).
En mere barsk vurdering kommer fra Mike Hicks fra University of Glasgow (UK), som ikke var involveret i undersøgelsen. Efter hans mening bliver chatbots' foregivenhed bedre. “Samlet set ser det ud til, at de bluffer,” sagde Hicks.
Hvordan vidste forskerne, at chatbots løj?
Som en del af undersøgelsen stillede forskere chatbot-spørgsmål om forskellige emner (fra matematik til geografi) og bad dem også udføre en række opgaver, for eksempel at angive oplysninger i en bestemt rækkefølge. Resultaterne viste, at større og mere kraftfulde AI-systemer generelt producerede de mest præcise svar. Nøjagtigheden af svar på mere komplekse spørgsmål var dog væsentligt lavere.
Forfatterne af det videnskabelige arbejde bemærkede, at GPT-4 og GPT-o1 fra OpenAI var i stand til at besvare næsten ethvert spørgsmål. Samtidig var ikke en eneste chatbot fra LLaMA-familien i stand til at opnå et nøjagtighedsniveau på 60 %, når de besvarede de enkleste spørgsmål.
Generelt blev jo større kunstig intelligens-modeller – med hensyn til parametre, træningsdata og andre faktorer – jo flere forkerte svar de gav , konkluderede forskerne.
Men efterhånden som de udvikler sig, bliver neurale netværk bedre til at besvare mere komplekse spørgsmål. Problemet, udover deres fejltilbøjelighed, er, at destadig kæmper med simple spørgsmål.
Vil altid være opdateret med de seneste nyheder fra videnskabens og teknologiens verden ? Abonner på vores kanal på Telegram – så du helt sikkert ikke går glip af noget interessant!
I teorien er tilstedeværelsen af sådanne fejl en alvorlig advarsel til videnskabsmænd og brugere, men fordi disse intelligente systemer er gode til at løse komplekse problemer, har vi sandsynligvis en tendens til at overse deres åbenlyse mangler.
Heldigvis afslører resultaterne af en ny undersøgelse også nogle “nøgterne” fund. resultater om, hvordan folk opfatter AI-reaktioner. For eksempel, når deltagerne i undersøgelsen blev bedt om at vurdere, hvor nøjagtige de troede, at chatbot-svar var på spørgsmål, tog forsøgspersonerne kun fejl 10 % til 40 % af tiden. Det betyder, at brugernes bevidsthed vokser om, at chatbots ikke er sådanne know-it-alls.
Dette er interessant: Skaberen af ChatGPT forudsagde den nærmeste fremtid: vi vil leve som i paradis?
< h2> Hvad skal man gøre?
Ifølge forfatterne til det videnskabelige arbejde er den nemmeste måde at håndtere «alvidende» AI-systemer består i «reflashing» – udviklere bør programmere modeller på en sådan måde, at de ikke skynder sig at besvare alle spørgsmål på én gang. For eksempel undgik tidligere modeller ofte at besvare vanskelige spørgsmål og anerkendte deres begrænsninger.
Du kan indstille en slags «tærskel» for chatbots, så når de besvarer et vanskeligt spørgsmål, svarer de ærligt: ”Jeg ved det ikke,” sagde en af forfatterne til undersøgelsen, Hernandez-Orallo.
Men sådan ærlighed er måske ikke i interessen for virksomheder, der udvikler og forbedrer AI-systemer. I sidste ende er virksomhedernes hovedopgave at tiltrække lige så meget offentlig opmærksomhed (og på samme tid som nye brugere) til deres seneste udvikling. Af denne grund mener forskere, at udviklere skal genoverveje tilgangen til udvikling af AI-systemer.
Dette betyder, at hvis chatbots var begrænset til kun at besvare spørgsmål, de kendte svaret på, ville offentligheden straks bemærke grænserne for neurale netværk. Det forekommer mig dog, at der ikke er noget galt med dette.
Du vil være interesseret: Neurale netværk vil ødelægge menneskeheden. Sandt eller ej?
Så hvad skal almindelige mennesker, der regelmæssigt interagerer med chatbots, gøre, ved at vide alt beskrevet ovenfor? Svaret, forekommer det mig, er enkelt – «stol på, men bekræft». Det tager selvfølgelig tid, men selve dygtigheden (og endda vanen) med at tjekke data og information vil helt sikkert gøre dit liv og dit arbejde bedre.
Nå, hvis du tvivler på det, minder vi dig om – vanen med at tjekke data og råd fra chatbots reddede for nylig livet på en hel familie. Min kollega Andrei Zhukov fortalte mig mere om denne fascinerende og skræmmende historie, jeg anbefaler at læse den!