Inspektion af Algoritmer for Bias – MIT Technology Review

Det var en slående historie. “Maskine ” Bias”, overskriften er læst, og den teaser proklamerede: “Der er software, der bruges i hele landet til at forudsige fremtidige kriminelle. Og det er fordomsfuld mod sorte”.

ProPublica, en Pulitzer Prize–vindende nonprofit nyhed organisation, havde analyseret risikovurdering software, kendt som COMPAS. Det bliver brugt til at forudsige, hvor kriminelle er mest sandsynligt, at reoffend. Styret af sådanne prognoser, dommere i retssale over hele Usa med at træffe beslutninger om fremtiden for tiltalte og dømte, at bestemme alt fra kaution beløb til sætninger. Når ProPublica i forhold COMPAS ‘ s risikovurderinger for mere end 10.000 personer, der blev anholdt i en Florida county med, hvor ofte de mennesker, der faktisk gik på at reoffend, er det opdaget, at den algoritme “korrekt forudsagt tilbagefald til sort og hvid tiltalte i nogenlunde samme hastighed.” Men når den algoritme, der var forkert, det var forkert på forskellige måder for sorte og hvide. Specielt, “sorte er næsten dobbelt så tilbøjelige som hvide for at blive stemplet som en højere risiko, men faktisk ikke igen fornærme.” Og COMPAS tendens til at gøre det modsatte fejl med hvide: “De er langt mere tilbøjelige end sorte til at være mærket lavere risiko, men går på at begå andre forbrydelser.”

Anmeldt ting

“Maskine ” Bias”

ProPublica, 23 Maj 2016
“COMPAS Risiko Skalaer: at Demonstrere Rigtigheden af Egenkapital og Intelligent Paritet”

Northpointe, 8 Juli 2016
“Tekniske Svar til Northpointe”

ProPublica, 29 Juli 2016
“Falsk Positive, Falsk Negative og Falsk Analyser: En Duplik til ‘Maskine Bias’”

Anthony Flores, Christopher Lowenkamp, og Kristin Bechtel
10 August, 2016

Uanset om det er passende at bruge systemer som COMPAS er et spørgsmål, der går ud over racemæssige fordomme. Den AMERIKANSKE Højesteret, der måske snart tage sagen op af en Wisconsin straffefange, der siger, at hans ret til en retfærdig rettergang, der er blevet overtrådt, når den dommer, der dømte ham hørt COMPAS, fordi funktionen af systemet var uigennemskueligt til sagsøgte. Potentielle problemer med andre automatiseret beslutningsproces (ADM) systemer, der eksisterer uden for det retlige system. På grundlag af online personlighedstest, ADMs er med til at afgøre, om en person er den rette person til et job. Kredit-scoring algoritmer til at spille en enorm rolle for, om du får et lån, et kreditkort, eller endda den mest omkostningseffektive mobiltelefon tilbud.

Det er ikke nødvendigvis en dårlig idé at bruge risikovurdering systemer som COMPAS. I mange tilfælde, ADM systemer kan øge retfærdighed. Den menneskelige beslutningsproces er til tider så usammenhængende, at det behov for kontrol for at bringe den i overensstemmelse med vores standarder for retfærdighed. Som et specielt foruroligende undersøgelse viste, prøveløsladelse bestyrelser var mere tilbøjelige til gratis fanger, hvis dommerne havde lige haft et måltid pause. Dette havde nok aldrig fundet sted til dommerne. En ADM systemet kan opdage sådanne uoverensstemmelser og forbedre processen.

Men ofte ved vi ikke nok om, hvordan ADM systemer virker til at vide, om de er mere retfærdige end mennesker ville være på deres egne. I en del, fordi de systemer, foretage valg på grundlag af de underliggende antagelser, der er ikke klar endnu til de systemer, ” designere, er det ikke nødvendigvis muligt at afgøre, hvilke algoritmer, der er forudindtaget, og hvilke der ikke er. Og selv når svaret synes klart, som i ProPublica resultater på COMPAS, sandheden er, nogle gange mere kompliceret.

Lovgivere, domstole og en informeret offentlighed bør beslutte, hvad vi ønsker algoritmer til at prioritere.

Hvad skal vi gøre for at få bedre styr på ADMs? Et demokratisk samfund har brug for mere tilsyn med sådanne systemer, end de har nu. AlgorithmWatch, en Berlin-baseret, non-profit advocacy organisation, som jeg samfinansierede med en datalog, en juridisk filosof, og en kollega journalist, der har til formål at hjælpe folk til at forstå virkningerne af sådanne systemer. “Det faktum, at de fleste ADM procedurer, der er sorte bokse, at de mennesker, der rammes af dem er ikke en naturlov. Det skal ende,” vi har konstateret i vores manifest. Stadig, er vores take på spørgsmålet er anderledes fra mange kritikere’—fordi vores frygt er, at teknologien kan være dæmoniseret ufortjent. Hvad der er vigtigt er, at samfund og ikke kun algoritme beslutningstagere, gøre den værdi-domme, der går ind ADMs.

Foranstaltninger af retfærdighed

COMPAS risikoen scores fra svar på et spørgeskema, der udforsker en skyldnerens kriminelle fortid og holdninger om kriminalitet. Gør dette give biased resultater?

Efter ProPublica s undersøgelse, Northpointe, det firma, der har udviklet COMPAS, bestrides af den historie, der argumenterer for, at journalister fejlfortolket data. Så gjorde tre strafferetlige forskere, herunder en fra en retfærdighed-reform organisation. Hvem der har ret—journalister eller forskere? Krishna Gummadi, leder af Netværksbaserede Systemer Forskning Gruppe på Max-Planck-Institute for Software-Systemer i Saarbrücken, Tyskland, byder på en overraskende svar: at de alle er.

Gummadi, der har grundigt undersøgt retfærdighed i algoritmer, siger ProPublica og Northpointe ‘ s resultater ikke er i modstrid med hinanden. De adskiller sig, fordi de bruger forskellige mål for retfærdighed.

Hvis de anvendes korrekt, strafferetlige algoritmer tilbud “chancen for en generation, og måske en menneskealder, til reform strafudmåling og slappe masse indespærring i en videnskabelig måde.”

Forestil dig, at du er ved at designe et system til at forudsige, hvor kriminelle vil reoffend. En mulighed er at optimere for “sande positive,” hvilket betyder, at du vil finde så mange mennesker som muligt, som er i høj risiko for at begå anden kriminalitet. Et problem med denne tilgang er, at det har en tendens til at øge antallet af falske positiver: folk, der vil være uretfærdigt, der er klassificeret som sandsynligvis reoffenders. Skiven kan justeres for at levere så få falske positiver som muligt, men der en tendens til at skabe flere falske negativer: sandsynligvis reoffenders, der slipper igennem og få en mere lempelig behandling end berettiget.

At hæve antallet af sandt positive eller sænke den falske positiver er begge måder at forbedre en statistisk måling kendt som positive prædiktive værdi, eller PPV. Det er den procentdel af alle positiver, der er sandt.

Som Gummadi påpeger, ProPublica i forhold falsk positiv priser og falsk negative priser for sorte og hvide og fundet dem til at være skæv til fordel for de hvide. Northpointe, i modsætning hertil, sammenlignet PPVs for forskellige racer og fundet dem til at være ens. I en del, fordi tilbagefald satser for sorte og hvide rent faktisk er forskellige, det er matematisk sandsynligt, at den positive prædiktive værdier for mennesker i hver gruppe vil være ens, mens andelen af falsk negative er det ikke.

Som algoritmer tror du har brug for uden anmeldelse?

Fortæl os i kommentarerne.

En ting, dette fortæller os, er, at det bredere samfund—lovgivere, domstole, en informeret offentlighed—bør beslutte, hvad vi ønsker, såsom algoritmer til at prioritere. Er vi primært interesseret i at tage så få chancer som muligt for, at nogen vil springe kaution eller reoffend? Hvilke trade-offs skal vi gøre for at sikre retfærdighed og lavere de store sociale omkostninger, der er i fængsel?

Uanset hvilken måde, de ringer, er fastsat, at enhver algoritme vil have fordomme—det er trods alt, at lave en forudsigelse baseret på generelle statistikker, ikke på nogen enkelte situation. Men vi kan stadig bruge sådanne systemer til at guide beslutninger, der er klogere og smukkere end dem, mennesker har en tendens til at gøre på egen hånd.

Kontroversen omkring New York Police Department ‘ s op-og-frisk praksis er med til at vise hvorfor. Mellem januar 2004 og juni 2012, New York City police gennemført 4,4 millioner stopper under et program, der tillod officerer til midlertidigt at tilbageholde, spørgsmål, og søge efter folk på gaden for våben og andet smuglergods. Men i virkeligheden, “88 procent af de 4,4 mio stopper resulterede i ingen yderligere handling—betyder, at et stort flertal af dem, stoppede var at gøre noget forkert,” the New York Times i en leder begræder den praksis. Hvad mere er: “I omkring 83 procent af tilfælde, den person, der stoppede var sort eller Hispanic, selv om de to grupper, der tegnede sig for lidt over halvdelen af befolkningen.” Dette eksempel på den menneskelige bias, belyst gennem analyse af data, er en påmindelse om, at ADM systemer kan spille en positiv rolle i strafferetsplejen. De anvendes korrekt, de tilbyder “chancen for en generation, og måske en menneskealder, til reform strafudmåling og slappe masse indespærring i en videnskabelig måde,” ifølge Anthony Flores, Christopher Lowenkamp, og Kristin Bechtel, tre forskere, der fandt fejl i den metode, der ProPublica, der anvendes til at analysere COMPAS. Forfatterne bange for, at denne mulighed “er ved at forsvinde på grund af misinformation og misforståelser” omkring teknologien.

Men hvis vi accepterer, at algoritmer kan gøre livet mere retfærdigt, hvis de er godt designet, hvordan kan vi vide, om de er konstrueret, så det?

Et demokratisk samfund bør være i orden nu at afgøre, hvor meget gennemsigtighed, de forventer af ADM-systemer. Har vi brug for nye regler af softwaren til at sikre, at det kan være korrekt inspiceret? Lovgivere, dommere, og det offentlige bør have en indflydelse på, hvilke foranstaltninger af retfærdighed få prioriteret af algoritmer. Men hvis de algoritmer, der faktisk ikke afspejler disse værdidomme, der vil blive holdt ansvarlig?

Disse er de hårde spørgsmål, vi skal besvare, hvis vi forventer at drage fordel af fremskridt i algoritmisk teknologi.

Matthias Spielkamp er administrerende direktør for AlgorithmWatch, en advocacy gruppe, der analyserer risici og muligheder for automatiseret beslutningsproces.