Såkalte ‘anonym’ data kan enkelt brukes til å identifisere alt fra våre medisinske poster å kjøpe historier
@oliviasolon
E-post
Fre 13 Jul 2018 09.00 BST
Sist endret på Fredag 13 Juli 2018 13.44 BST
“Digital brødsmuler kan spores tilbake for å stride mot folks personvern på måter de aldri forventet.’
Foto: Voisin/Stephanie/Rex/Shutterstock
I August 2016, den Australske regjeringen gitt ut en “anonymisert” datasett bestående av medisinsk fakturering poster, inkludert alle reseptbelagte og kirurgi, på 2,9 millioner mennesker.
Navn og andre identifiserende funksjoner ble fjernet fra postene i et forsøk på å beskytte den enkeltes personvern, men et forskerteam fra University of Melbourne oppdaget snart at det var enkelt å re-identifisere folk, og lære om hele sin medisinske historie uten deres samtykke, ved å sammenligne dataset til annen offentlig tilgjengelig informasjon, som for eksempel rapporter om kjendiser som har barn eller utøvere som har operasjoner.
Regjeringen trakk data fra nettstedet, men ikke før det hadde blitt lastet ned på 1500 ganger.
“En sprekk i byggverket’: privacy advocates hagl høyesterett mobiltelefon data-dommen
Les mer
Dette personvern mareritt er ett av mange eksempler på tilsynelatende uskyldige, “de-identifisert” biter av informasjon blir omvendt-konstruert for å avsløre folks identiteter. Og det er bare å bli verre som folk bruker mer av sine liv på nettet, sprinkling digital brødsmuler som kan spores tilbake til dem for å krenke deres privatliv på en måte de aldri hadde forventet.
Navnløs New York taxi loggene ble sammenlignet med paparazzi-bilder på steder rundt i byen for å avsløre at Bradley Cooper og Jessica Alba var dårlig tippers. I 2017 tyske forskerne var i stand til å identifisere personer basert på deres “anonyme” web-surfing mønstre. Denne uken University College London forskere viste hvordan de kunne identifisere en person Twitter-brukeren basert på metadata som er knyttet til sine tweets, mens fitness sporing app Polar avslørt hjemmene og i noen tilfeller er navnene på soldatene og spioner.
“Det er praktisk å late som om det er vanskelig å re-identifisere folk, men det er lett. Slike ting vi gjorde er slike ting som første-års data science studenten kunne gjøre,” sa Vanessa Teague, en av University of Melbourne forskere til å avsløre feil i den åpne helse-data.
En av de tidligste eksempler på denne typen brudd på personvernet skjedde i 1996 da Massachusetts Gruppe Forsikring Kommisjonen utgitt “anonymisert” data som viser sykehus besøk av statlige ansatte. Som med den Australske data, staten fjernet åpenbare identifikatorer som navn, adresse og personnummer. Deretter guvernør William Sveis, forsikret publikum om at pasientenes personvern var beskyttet.
Det er praktisk å late som om det er vanskelig å re-identifisere folk, men det er lett
Latanya Sweeney, en computer science grad som senere ble chief technology officer i Federal Trade Commission, viste hvor galt Sveise var ved å finne sin medisinske poster i datasettet. Sweeney brukt Sveis ‘ s postnummer og fødselsdato, tatt fra velgernes ruller, og den kunnskap han hadde besøkt sykehuset på en bestemt dag etter kollapser under en offentlig seremoni, til å spore ham opp. Hun sendte sin medisinske poster til hans kontor.
I senere arbeid, Sweeney viste at 87% av befolkningen i Usa kan være unikt identifisert av sitt fødselsdato, kjønn og fem-sifret postnummer.
“Poenget er at data som kan se anonym er ikke nødvendigvis anonym,” sa hun i vitnesbyrd til en Department of Homeland Security personvern komiteen.
Mer nylig, Yves-Alexandre de Montjoye, en beregningsorientert personvern forsker, viste hvordan det store flertallet av befolkningen som kan identifiseres ut fra de atferdsmessige mønstre avslørt av posisjonsdata fra mobiltelefoner. Ved å analysere en mobiltelefon database av omtrentlig steder (basert på den nærmeste mobilmast) av 1,5 millioner mennesker over 15 måneder (med ingen andre identifiserende informasjon) det var mulig å identifisere 95% av folk med bare fire datapunkter av steder og tider. Ca 50% kan identifiseres ut fra bare to poeng.
De fire punktene kan komme fra informasjon som er offentlig tilgjengelig, inkludert et personens hjemmeadresse, jobbadresse og geo-tagget Twitter-innlegg.
“Beliggenhet data er et fingeravtrykk. Det er et stykke informasjon som er sannsynlig å eksistere på tvers av et bredt spekter av datasett og kan potensielt bli brukt som en global identifikator,” De Montjoye sa.
Spesielt for den yrkesaktive befolkningen, dette er en stalker drøm.
“Du flytte fra hjem til jobb og tilbake igjen i ganske vanlige mønstre. Stort sett en person som bor på En adresse og fungerer på adressen B,” sa Anna Johnston, en direktør for rådgivning Salinger Personvern.
Selv om posisjonsdata ikke avslører et individs identitet, det kan fortsatt sette grupper av mennesker i fare, forklarte hun. En offentlig kart utgitt av trenings-app Strava, for eksempel ved en feiltagelse ble en nasjonal sikkerhetsrisiko som det åpenbart plassering og bevegelser av mennesker i hemmelighetsfull militære baser.
I 2015, De Montjoye viste at det var mulig å identifisere eieren av kredittkort blant de millioner av “anonymisert” kostnader bare ved å kjenne en håndfull av at personen kjøp.
Bevæpnet med bare navn og plassering av butikker hvor kjøp fant sted, og omtrentlig datoer og kjøpe beløp, De Montjoye var i stand til å identifisere 94% av folk ved å se på bare tre transaksjoner. Dette betyr at noen kunne finne et Instagram bilde av deg etter å ha kaffe med venner, en tweet om en nylig kjøpt og en gammel kvittering, og de vil være i stand til å matche det til hele kjøpet historie.
Et bilde på sosiale medier kan føre tilbake til hele din transaksjonshistorikk. Foto: martin-dm/Getty Images
Montjoye og andre har vist gang på gang at det er bare ikke mulig å anonymise enhet rekordhøyt nivå data – data knyttet til individer – uansett hvor strippet ned at data.
“Det kan ha jobbet i det siste, men det virker ikke mer,” sa han.
Det er veldig lite som enkeltpersoner kan gjøre for å beskytte seg mot denne typen personvern inntrenging.
“Når våre data kommer ut der, det har en tendens til å bli lagret for alltid,” sa Arvind Narayanan, Princeton computer science professor. “Det finnes firmaer som har spesialisert seg i å kombinere data om oss fra ulike kilder for å lage virtuelle saksmapper og bruke data mining å påvirke oss på forskjellige måter.”
Det er mulig å redusere din personlige digitale brødsmule-navigeringen ved å betale bare i kontanter og grøfting din mobiltelefon, men det er ikke særlig praktisk.
“Hvis du ønsker å være et aktivt medlem av samfunnet du har ingen evne til å begrense mengden data som blir støvsugd ut av deg til en meningsfull nivå,” sa sikkerhet forsker Chris Vickery.
Europeiske reguleringsmyndigheter rapport kraftig økning i antall henvendelser etter GDPR
Les mer
Det gjør det også svært vanskelig for den enkelte til å gi informert samtykke om hvordan deres data er samlet inn av en app eller tjeneste. Løfter laget av selskaper som ikke er til å dele personlig identifiserbar informasjon er meningsløst når det er så lett å re-identifisere noen.
“Det kommer ned til god regulering og streng håndhevelse,” sa De Montjoye, og legger til at Europas General Data Protection Regulation er et “skritt i riktig retning”.
“En av svakheter i personvern-loven er det presser for mye ansvar på til forbruker i et miljø der de ikke er godt rustet til å forstå risikoen,” sier Johnston. “Mye mer juridisk ansvar bør bringes videre til voktere [av data, for eksempel myndigheter, forskere og bedrifter].”
De Montjoye er fortsatt optimist, og referere til “enormt potensial” big data, spesielt for medisinsk forskning og samfunnsvitenskap.
Han foreslår at i stedet for å slippe store datasett, forskere og myndigheter bør utvikle grensesnitt som tillater andre å stille spørsmål til dataene uten å bruke raw-filer.
“Ideen er å ikke miste kontroll av data og sikre at det er anonymt,” sa han.
“Personvern er ikke død. Vi trenger det, og vi kommer til å få det.”