Algoritmer kan diktere om du får et boliglån eller hvor mye du betaler for forsikringen. Men noen ganger de tar feil – og noen ganger de er designet for å lure
Søndag 16 juli 2017 09.59 BST
Mange av algoritmer gå dårlig med vilje. Noen av dem, derimot, er laget for å være kriminelle. Algoritmer er formelle regler, vanligvis skrevet i datamaskin-kode, som gjør spådommer om fremtidige hendelser basert på historiske mønstre. Å trene en algoritme må du sørge for historiske data, samt en definisjon av suksess.
Vi har sett finance bli overtatt av algoritmer i de siste tiårene. Trading algoritmer bruke historiske data til å forutsi bevegelser i markedet. Suksess for at algoritmen er en forutsigbar markedet flytte, og algoritmen er på vakt for å finne mønstre som historisk har skjedd like før flyttingen. Finansiell risiko modeller også bruke historiske endringer i markedet for å forutsi katastrofale hendelser i en mer global forstand, slik at ikke for en enkelt aksje, men heller for hele markedet. Risikoen modell for mortgage-backed securities var som kjent dårlig med vilje slik og tillit i disse modellene kan bebreides for mye av skalaen, og påfølgende skade gjort av 2008 finanskrisen.
Siden 2008 har vi hørt mindre av algoritmer i finans, og mye mer fra big data-algoritmer. Målet for denne nye generasjonen av algoritmer har blitt flyttet fra abstrakt markeder til enkeltpersoner. Men den underliggende funksjonaliteten er den samme: samle inn historiske data om folk, profilering deres atferd på nettet, sted eller svar på spørreskjemaer, og bruk den store datasett for å forutsi deres fremtidige kjøp, stemmeatferd, eller arbeidsmoral.
Cathy O ‘ Neill. Foto: Adam Morganstern
Den siste spredning i big data modeller har i stor grad gått ubemerket av den gjennomsnittlige person, men det er trygt å si at de fleste viktige øyeblikkene hvor mennesker samhandler med store byråkratiske systemer nå innebære en algoritme i form av en scoring system. Å komme inn på universitet, få en jobb, blir vurdert som en arbeidstaker, å få et kredittkort eller forsikring, stemmegivning, og selv politiarbeid er i mange tilfeller gjort ved hjelp av algoritmer. Videre, teknologien introdusert i disse systematisk beslutninger er i stor grad uklar, selv for deres skapere, og har så langt i stor grad rømt meningsfylt regulering, selv når den mislykkes. Det gjør spørsmålet om hvilken av disse algoritmer som arbeider på våre vegne enda mer viktig og haster.
Jeg har en fire-lags hierarki når det kommer til dårlig algoritmer. På toppen er det er den utilsiktede problemer som gjenspeiler kulturelle skjevheter. For eksempel, når Harvard professor Latanya Sweeney fant at Google-søk på navn oppfattet å være svart generert annonser som er knyttet til kriminell aktivitet, kan vi anta at det var ingen Google-ingeniør skrive rasistiske kode. Faktisk, annonsene ble opplært til å bli dårlig av tidligere brukere av Google-søk, som var mer tilbøyelige til å klikke på en kriminelle handlinger annonsen din når de søker etter en svart klingende navn. Et annet eksempel: Google image søkeresultat for “uprofesjonelt hår”, som kom tilbake nesten utelukkende svarte kvinner, er tilsvarende opplæring av personer som legger inn innlegg eller ved å klikke på søk-resultater hele tiden.
Ett lag ned vi kommer til algoritmer som går dårlig gjennom forsømmelse. Disse vil omfatte planlegging programmer som hindrer folk som jobber minstelønn jobber fra ledende anstendig liv. Algoritmene behandle dem som vareforbruk i en maskin, sende dem til arbeid på ulike tider av døgnet og på ulike dager i uken, og hindre dem fra å ha jevnlig barneomsorg, en ny jobb, eller gå til natt skolen. De er brutalt effektive, svært skalert, og i stor grad juridisk, å samle inn pennies på ryggen av arbeidstakere. Eller vurdere Googles system for automatisk tagging av bilder. Det hadde en konsekvent problem der svarte mennesker ble merket gorillaer. Dette representerer forsømmelse av en annen art, nemlig kvalitet vurdering av produktet i seg selv: de hadde ikke se at det fungerte på en rekke test tilfeller før du slipper kode.
Algoritmer brukes til å godkjenne søkere før sine Cv-er det sett av menneskelige øyne, som kan føre til diskriminering. Foto: Danny Lawson/PA
Det tredje laget består av ekle, men juridisk algoritmer. For eksempel, det var Facebook ledere i Australia viser annonsører måter å finne og målrette sårbare tenåringer. Forferdelig, men som sannsynligvis ikke er eksplisitt forbudt. Faktisk online annonsering generelt kan sees som et spektrum, hvor på den ene siden de velstående er presentert med luksusvarer å kjøpe, men de fattige og desperate er hjemsøkt av online lønning långivere. Algoritmer lade folk mer for bil forsikring hvis de ikke synes sannsynlig til sammenligning butikk og Uber bare stoppet en algoritme det var å bruke til å forutsi hvor lavt et tilbud om lønn kan være, og dermed forsterke lønnsforskjeller mellom kjønnene.
Til slutt, det er den nederste lag, som består av vilje nefarious, og noen ganger direkte ulovlig algoritmer. Det er hundrevis av private selskaper, inkludert dusinvis i STORBRITANNIA, som tilbyr masse overvåking verktøy. De er markedsført som en måte å finne terrorister eller kriminelle, men de kan brukes til å målrette og utrydde statsborger aktivister. Og fordi de samle inn massive mengder data, logisk algoritmer og scoring systemer brukes til å filtrere ut signal fra støy. Ulovligheten av denne industrien er under debatt, men en fersk hemmelig operasjon av journalister på Al Jazeera har utsatt den relative enkle som mellommenn som representerer undertrykkende regimene i Iran og Sør-Sudan har vært i stand til å kjøpe slike systemer. For den saks skyld, observatører har kritisert Kinas sosiale kreditt scoring system. Kalt “Sesame Kreditt,” det er fakturert som for det meste en kreditt score, men det kan også fungere som en måte å holde orden på en persons politiske meninger, og for at saken som en måte å påvirke folk til etterlevelse.
Nærmere hjemme, det er Uber “Greyball,” en algoritme oppfunnet spesielt å unngå å bli oppdaget når taxi tjenesten fungerer ulovlig i en by. Det er brukt data for å forutsi hvilke ryttere var brudd på vilkår for service av Uber, eller som presterte undercover offentlige tjenestemenn. Telltale tegn på at Greyball plukket opp inkludert flere bruken av programmet i en enkelt dag og ved hjelp av et kredittkort knyttet til politiets fagforening.
Den mest kjente skadelige og ulovlige algoritmen vi har oppdaget så langt er den som brukes av Volkswagen i 11 millioner biler over hele verden til å lure utslipp tester, og særlig til å skjule det faktum at bilene var nox-utslipp på opp til 35 ganger nivåer er tillatt ved lov. Og selv om det virket rett og slett som en underfundig enhet, dette kvalifiserer som en algoritme som godt. Det var opplært til å identifisere og forutsi testing forhold versus føreforhold, og for å fungere forskjellig avhengig av at resultatet. Og, som Greyball, det ble utviklet for å lure.
I 2015, e-commerce business Plakat Revolusjonen ble funnet skyldig i ved hjelp av algoritmer til å samarbeide med andre plakat selgere til å angi priser. Foto: Bob Handelman/Getty Images
Det er verdt bolig på for eksempel bil produsenter fordi verden av algoritmer – en veldig ung, og svært risikabelt ny industri med ingen sikkerhetstiltak på plass, er litt som tidlig bil industrien. Med sin naive og frodig tro på sin egen teknologi, verden av AI selger tilsvarende biler uten støtfangere som har hjul kan falle bort når som helst. Og jeg er sikker på at det var slike biler laget en gang i tiden, men over tid, som vi så mer skade blir gjort av feil i design, vi kom opp med flere regler for å beskytte passasjerer og fotgjengere. Så, hva kan vi lære av den aktuelle, modne verden av bil beslutningstakere i sammenheng med ulovlig programvare?
Først lignende typer programvare blir distribuert av andre bilprodusenter som slår seg av utslipp kontroller i visse innstillinger. Med andre ord, dette var ikke i en situasjon der det bare var en dårlig skuespiller, men snarere en standard operasjonsprosedyre. Videre kan vi anta at dette ikke representerer samarbeid, men snarere et enkelt tilfelle av ekstrem insentiver kombinert med et beregnet for lav sannsynlighet for å bli fanget på en del av bil-produsenter. Det er rimelig å forvente, da, at det er nok av andre algoritmer som blir brukt til skjørt regler og forskrifter ansett som for dyrt, spesielt når utbyggere av algoritmer være selvtilfreds om sine sjanser.
Neste, VW juks startet i 2009, noe som betyr at det ikke gikk ubemerket for fem år. Hva annet har pågått i fem år? Denne tankegangen gjør oss begynne å lete rundt, og lurer på hvilke selskaper som er i dag hoodwinking regulatorer, unnvikelser lover, eller begå algoritmisk svindel med straffefrihet.
Faktisk kan det virke som en slam dunk forretningsmodell, i form av kost-nytte-analyse: jukse til regulatorer ta opp med oss, hvis de noen gang gjør det, og deretter betale en begrenset fint det gjør ikke mye av en forskjell i vår akkumulerte overskudd. Det er hvordan det fungerte i kjølvannet av finanskrisen, tross alt. I aksjonær verdi, kan vi være forpliktet til å gjøre dette.
“En hvit maske fungerte bedre’: hvorfor algoritmer er ikke fargeblind
Les mer
Sagt på en annen måte. Vi er alle forventer biler for å være selvstyrt i et par år eller et par tiår på de fleste. Når det skjer, kan vi forvente at det å være internasjonale avtaler på hva innebygd selv-kjører bil etikk vil se ut? Eller vil fotgjengere være prisgitt av bil-produsenter til å bestemme hva som skjer i tilfelle en uventet jettegryte? Hvis vi får regler, vil reglene variere fra land til land, eller til og med landet av produsenten?
Hvis dette høres forvirrende for noe som er lett å observere som bil krasjer, tenk deg hva som skjer under panseret, i den relativt obskure verden av avanserte “deep læring” – modeller.
Verktøyene er der allerede, for å være sikker. Kina har nylig demonstrert hvor godt facial anerkjennelse teknologi som allerede fungerer – nok til å fange jaywalkers og toalett papir tyver. Det betyr at det er rikelig med muligheter for selskapene til å utføre utspekulerte triks på kunder eller potensielle ansatte. For den saks skyld, insentiver er også på plass. Bare siste måned Google bøtelagt €2.4 mrd for urettferdig å plassere sin egen shopping søk resulterer i en mer fremtredende plass enn sine konkurrenter. En lignende klage ble jevnet på Amazon ved ProPublica siste året med hensyn til prisen algoritme, nemlig at det var privilegere sin egen in-house-produkter – selv når de ikke var en bedre avtale – over dem som er utenfor sin markedsplass. Hvis du tenker på internett som et sted der big data-selskaper som kjemper om din oppmerksomhet, så kan vi tenke oss flere algoritmer som dette i fremtiden vår.
Det er en siste parallell å trekke med VW-skandalen. Nemlig, er forskjellen i utslipp til slutt ble oppdaget i 2014 av et team av lærere og studenter ved West Virginia University, som har søkt og mottatt en measly stipend på $50 000 fra International Council on Ren Transport, en uavhengig ideell organisasjon som er betalt av OSS skattebetalere. De brukte sine penger kjøre biler rundt om i landet og tar utslipp, en billig og grei test.
I 2015, Volkswagen ble funnet å ha brukt en ondsinnet algoritme for å lure utslipp test. Sju VW ledere har vært siktet i USA. Foto: Patrick T Fallon/Bloomberg/Getty
Hvilken organisasjon vil sette en stopper for den kommende avling av ulovlig algoritmer? Hva er analog av International Council on Ren Transport? Gjør det allerede finnes en organisasjon som har kapasitet, interesse og evne til å sette en stopper for ulovlig algoritmer, og for å bevise at disse algoritmene er skadelig? Svaret er, så langt, nei. I stedet, i hvert fall i USA, er en uensartet gruppe av føderale instanser som er ansvarlig for å håndheve lover i deres bransje eller domene, og ingen av disse er spesielt på toppen av den komplekse verden av big data-algoritmer. Andre steder, Eu-kommisjonen ser ut til å være ute i Googles retningslinjer for aktivitet, og Facebook er falske nyheter problemer, men som etterlater flere bransjer uberørt av gransking.
Enda mer til det punktet, selv om, er spørsmålet om hvordan involvert i etterforskningen av algoritmer. Den aktuelle arten av algoritmene er hemmelige, proprietær kode, beskyttet som “hemmelige saus” av selskaper. De er så hemmelig at de fleste online scoring systemer ikke engang klart for mennesker rammet av dem. Det betyr at de også personer som ikke vet hvilken poengsum de har fått gitt, eller kan de klage eller konkurranse de scorer. Viktigst av alt, de vanligvis ikke vite om noe urettferdig som har skjedd med dem.
Gitt alt dette, er det vanskelig å forestille seg tilsyn for algoritmer, selv når de har gått galt og er aktivt å skade folk. For den saks skyld, ikke alle typer skader er tydelig målbar i første omgang. Man kan gjøre argumentet om at, hva med alle de falske nyheter flytende rundt, vårt demokrati har blitt skadet. Men hvordan skal du måle demokrati?
Det er ikke å si at det er ingen håp. Tross alt, per definisjon, en ulovlig algoritmen er å bryte en faktisk lov at vi kan peke på. Det er, til syvende og sist, er det noen som bør bli holdt ansvarlig for dette. Problemet er der fortsatt, hvordan vil slike lover håndheves?
Ben Shneiderman, en computer science professor ved University of Maryland, foreslåtte konseptet av en Nasjonal Algoritmer Safety Board, i en tale på Alan Turing Institutt. Basert på National Transportation Safety Board, som undersøker bakken og luft trafikk-ulykker, denne kroppen vil på samme måte bli belastet med å etterforske skader, og spesielt i å avgjøre hvem som skal bli holdt ansvarlig for algoritmisk skade.
Algoritmer sile gjennom historiske data til å verdsette boliger. I USA, ett hus er saksøke Zoopla for å slå $100,000 fra verdien av eiendommen hennes ved å tegne på feil data. Foto: Yui Mok/PA
Dette er en god idé. Vi bør undersøke problemer når vi finner dem, og det er godt å ha en formell prosess for å gjøre det. Hvis den har tilstrekkelig juridisk makt, styret kan kanskje komme til bunns i mange commonsense problemer. Men det er ikke klart hvor omfattende det kunne være.
Fordi det er her analogien med bil beslutningstakere bryter ned: det er ingen tilsvarende av et 30-bil hoper seg opp i verden av algoritmer. De fleste skadene skjer i isolerte individer, separat og stille. En spredning av stille og undetectable bil krasjer er vanskeligere å etterforske enn når det skjer på vanlig syn.
Jeg vil fortsatt opprettholde det finnes håp. Ett av miraklene til å være en data skeptikeren i et land med data evangelister er at folk er så imponert med sin teknologi, selv om det er utilsiktet skaper skade, de åpent beskrive hvor fantastisk det er. Og det faktum at vi allerede har kommet over en ganske få eksempler på algoritmisk skade betyr at så hemmelig og ugjennomsiktig som disse algoritmene er, de er til slutt kommer til å bli oppdaget, riktignok etter at de har forårsaket en masse trøbbel.
Hva betyr dette for fremtiden? Først og fremst, vi må begynne å holde orden. Hver kriminell algoritme oppdager vi bør bli sett på som en test. Gjør regelen-breakers komme i trøbbel? Hvor mye? Er reglene håndheves, og hva er straffen? Som vi har lært etter 2008 finanskrisen, en regel som er ignorert hvis straffen for å bryte det er mindre enn den bokførte resultat. Og det går dobbelt for en brutt regelen som er oppdaget halvparten av tiden.
Selv når vi begynner å bygge en track record for håndhevelse, har vi oss selv et våpenkappløp. Kan vi snart forvente en fullverdig hær av algoritmer som skjørt lover, som er sofistikert og stille, og som søker å komme seg rundt regler og forskrifter. Vil de lære av hvordan andre ble fanget og gjør det bedre neste gang. Med andre ord, vil det bli stadig vanskeligere å fange dem juks. Vår taktikk for å få bedre over tid også.
Logisk kontroll algoritmer bruke historiske data til å forutsi hvor kriminalitet som vil skje neste. Sivile rettigheter grupper argumentere for at disse systemene forverre eksisterende politiet fordommer. Foto: Stuart Emmerson/Alamy
Vi kan også forvente å bli fortalt at de store selskapene er “arbeider med det privat”. Dette er allerede skjer med hensyn til å bekjempe terrorisme. Vi bør ikke stole på dem når de sier dette. Vi trenger å lage en standard testing rammeverk – en standard definisjon av skade – og krever at algoritmer sendes til testing. Og vi kan ikke bare gjøre dette i “test lab forhold,” enten, eller vi vil være konstruere VW utslipp skandale.
En av de største hindringer for dette er at Google, Facebook, eller for den saks skyld Amazon, ikke tillater testing av flere personas – eller online – profiler- av eksterne forskere. Siden disse selskapene tilbyr skreddersydd og personlig service, den eneste måten å se hva som tjenesten ser ut som det ville være å ta på profilen til flere personer, men som ikke er tillatt. Tenke på at i sammenheng med VW testing: det ville være som å si forskningsmiljøer ikke kunne ha kontroll over en bil for å teste sine utslipp. Vi må kreve mer tilgang og pågående overvåking, spesielt når vi fange dem i ulovlige handlinger. For den saks skyld, hele bransjer, som for eksempel algoritmer for forsikring og ansette, bør være underlagt disse skjermer, ikke bare individuelle gjerningsmannen.
Det er på tide å binde oss for en kamp. Det vil til slutt være et teknologisk våpenkappløp, men det begynner nå, som en politisk kamp. Vi trenger å kreve bevis for at algoritmer med potensial til å skade oss være vist å opptre rettferdig, lovlig, og konsekvent. Når vi finner problemer, vi trenger å håndheve våre lover med tilstrekkelig heftige bøter for at bedrifter finner det ikke lønnsomt å jukse i første omgang. Dette er tiden for å starte krevende at maskinene fungerer for oss, og ikke den andre veien rundt.
Cathy O ‘ neil fungert som rådgiver er forfatter av Våpen av Matematikk Ødeleggelse (Allen Lane £9.99). For å bestille en kopi for £8.49, kan du gå til bookshop.theguardian.com eller ring 0330 333 6846