“Data er et fingeraftryk’: hvorfor er du ikke så anonym som du tror, online

Såkaldte “anonyme” data kan nemt bruges til at identificere alt fra vores medicinske journaler for at købe historier

@oliviasolon

E-mail

Fre 13 Jul 2018 09.00 BST

Sidst opdateret Fre 13 Jul 2018 09.01 BST

‘Digital breadcrumbs can be traced back to violate peoples’ privacy in ways they never expected.’

“Digitale brødkrummer, kan spores tilbage for at krænke folks privatliv på måder, de aldrig havde forventet.’
Foto: Voisin/Phanie/Rex/Shutterstock

I August 2016, den Australske regering har udgivet en “anonymiserede” data-sæt bestående af medicinsk fakturering poster, herunder hver recept og kirurgi, af 2,9 millioner personer.

Navne og andre identificerende træk blev fjernet fra registreringer i et forsøg på at beskytte den enkeltes privatliv, men et forskerhold fra University of Melbourne opdagede snart, at det var nemt at re-identificere personer, og lær om hele deres sygehistorie uden deres samtykke, ved at sammenligne datasættet til andre offentligt tilgængelige oplysninger, såsom rapporter af berømtheder, der har babyer eller atleter, der har operationer.

Regeringen trak data fra sin hjemmeside, men ikke før det var blevet hentet til 1.500 gange.

‘En revne i det bygningsværk’: privacy-fortalere hagl højesteret mobiltelefon data afgørelse

Læs mere

Denne privacy mareridt er et af mange eksempler på tilsyneladende harmløs, “de udvalgte” stykker af information, der reverse-manipuleret til at afsløre folks identiteter. Og det er kun blevet værre, da folk tilbringer mere af deres liv på nettet, og drys digitale brødkrummer, der kan spores tilbage til dem for at krænke deres privatliv på måder, de aldrig havde forventet.

Navnløs New York taxi logs blev sammenlignet med paparazzi-skud på steder rundt om i byen for at afsløre, at Bradley Cooper og Jessica Alba var dårlige tipvogne. I 2017 tyske forskere var i stand til at identificere personer, der er baseret på deres “anonym” web browsing-mønstre. I denne uge University College London forskere viste, hvordan de kunne identificere en person Twitter-bruger, baseret på de metadata, der er forbundet med deres tweets, mens fitness tracking app Polar afsløret hjem og i nogle tilfælde navne på soldater og spioner.

“Det er praktisk at foregive, at det er svært at re-identificere mennesker, men det er nemt. De ting, vi gjorde, er den slags ting, som en første års data videnskab studerende kunne gøre,” sagde Vanessa Teague, en af University of Melbourne forskere at afsløre fejl og mangler i det åbne sundhed data.

Et af de tidligste eksempler på denne form for krænkelse af privatlivets fred opstod i 1996, da Massachusetts Gruppe Forsikring-Kommissionen har udsendt “anonymiserede” data, der viser hospital besøg af statens ansatte. Som med de Australske data, staten fjernet indlysende identifikatorer såsom navn, adresse og cpr-nummer. Derefter guvernør, William Svejse, forsikrede offentligheden om, at patienternes privatliv var beskyttet.

Det er praktisk at foregive, at det er svært at re-identificere mennesker, men det er nemt

Latanya Sweeney, en computer science grad, der senere blev chief technology officer hos Federal Trade Commission, viste, hvor galt Svejse var ved at finde sine journaler i datasættet. Sweeney, der anvendes Svejse, er postnummer og fødselsdato, taget fra vælgerne ruller, og den viden, at han havde besøgt hospitalet på en bestemt dag, efter at være kollapset under en offentlig ceremoni, til at opspore ham. Hun sendte sin medicinske journaler til hans kontor.

I senere arbejder, Sweeney viste, at 87% af befolkningen i Usa kunne være entydigt identificeret ved deres fødselsdato, køn og fem-cifrede zip-koder.

“Pointen er, at data, der kan se anonymous er ikke nødvendigvis anonym” hun sagde i sit vidneudsagn, at en Afdeling af Homeland Security privacy committee).

Mere for nylig, Yves-Alexandre de Montjoye, en computational privatliv forsker, viste, hvor langt størstedelen af befolkningen, kan identificeres ud fra den adfærdsmæssige mønstre, der er åbenbaret af positionsdata fra mobile telefoner. Ved analyse af en mobiltelefon database over de omtrentlige placeringer (baseret på de nærmeste mobilmast) af 1,5 m personer over 15 måneder (med ingen andre identificerende oplysninger) var det muligt at identificere 95% af folk med blot fire point data om steder og tider. Omkring 50% kan identificeres ud fra blot to point.

De fire punkter kunne komme fra oplysninger, der er offentligt tilgængelige, herunder en persons adresse arbejde adresse og geo-tagget Twitter indlæg.

“Lokaliseringsdata er et fingeraftryk. Det er et stykke information, der er tilbøjelige til at eksistere på tværs af en bred vifte af data sæt, og kunne potentielt anvendes som en global identifier” de Montjoye sagde.

Især for den erhvervsaktive del af befolkningen, dette er en stalker ‘ s drøm.

“Du flytte fra hjem til arbejde og tilbage igen i nogenlunde regelmæssige mønstre. For det meste en person, der bor på En adresse, og arbejder på adresse B,” sagde Anna Johnston, direktør i konsulentfirmaet Salinger Privatlivets fred.

Selv hvis beliggenhed data ikke afsløre en persons identitet, kan det stadig sætte grupper af mennesker i fare, forklarede hun. En offentlig kort udgivet af fitness-app Strava, for eksempel, uforvarende blev en national sikkerhedsrisiko, da det viste placering og bevægelser af mennesker i hemmelige militærbaser.

I 2015, de Montjoye viste, at det er muligt at identificere ejeren af et kreditkort blandt de millioner af “anonymiserede” afgifter, bare ved at vide en håndfuld af personens køb.

Bevæbnet med kun navne og placeringer af butikker, hvor opkøb fandt sted, og den omtrentlige datoer og køb beløb, de Montjoye var i stand til at identificere 94% af befolkningen ved at kigge på bare tre transaktioner. Dette betyder, at nogen kunne finde et Instagram billede af dig der kaffe med venner, et tweet om en af de seneste køb og en gammel kvittering, og at de ville være i stand til at matche den til din til at købe hele historien.

A photo on social media could eventually lead back to your entire transaction history.

Facebook

Twitter

Pinterest

Et billede på sociale medier kunne i sidste ende føre tilbage til hele din transaktion historie. Foto: martin-dm/Getty Images

Montjoye og andre har vist gang på gang, at det simpelthen ikke er muligt at anonymisere enhed rekordhøjt niveau data – data om personer, der – uanset hvor skrabet af, at data er.

“Det kunne have virket i fortiden, men det gør ikke arbejde mere,” sagde han.

Der er meget lidt, at enkeltpersoner kan gøre for at beskytte sig mod denne form for privatliv indtrængen.

“Når vores data bliver derude, det har en tendens til at blive for evigt,” siger Arvind Narayanan, en Princeton-professor i datalogi. “Der er virksomheder, der specialiserer sig i at kombinere data om os fra forskellige kilder til at skabe virtuelle sager og anvendelse af data mining til at påvirke os på forskellige måder.”

Det er muligt at reducere dine individuelle digitale sti af breadcrumbs, ved kun at betale i kontanter og droppe din mobiltelefon, men det er ikke særlig praktisk.

“hvis du ønsker at være en funktionsdygtigt medlem af samfundet og du har ingen mulighed for at begrænse mængden af data, der bliver støvsuget ud af dig til en meningsfuld plan,” sagde den sikkerhed, forsker Chris Vickery.

Europæiske tilsynsmyndigheder rapport kraftig stigning i klager efter GDPR

Læs mere

Det gør det yderst vanskeligt for den enkelte til at give et informeret samtykke om, hvordan deres data er indsamlet af enhver app eller service. Løfter fra virksomheder, der ikke er til at dele personligt identificerbare oplysninger, der er meningsløse, når det er så nemt at re-identificere en person.

“Det kommer ned til god regulering og håndhævelse,” sagde de Montjoye, og tilføjer, at Europa er Generel Forordning om databeskyttelse er et “skridt i den rigtige retning”.

“En af de mangler, der er af loven om privatlivets fred er det skubber for meget ansvar over på forbrugeren i et miljø, hvor de ikke er godt rustet til at forstå de risici, der er,” sagde Johnston. “Meget mere af det juridiske ansvar bør være skubbet på plads vogtere [af data, såsom regeringer, forskere og virksomheder].”

De Montjoye er fortsat optimist, refererer til de “enorme potentiale,” big data, især for medicinsk forskning og samfundsvidenskab.

Han foreslår, at i stedet for at frigive store datasæt, forskere og myndigheder bør udvikle grænseflader, som tillader andre at stille spørgsmål til data uden at få adgang til raw-filer.

“Ideen er, at man ikke mister kontrollen af data og sikre, at det anonyme,” sagde han.

“Privatlivets fred er ikke død. Vi har brug for det, og vi kommer til at få der.”


Date:

by