En journalist og en data videnskabsmand sikrede data fra tre millioner brugere nemt ved at skabe en falsk marketing selskab, og var i stand til at de-anonymisere mange brugere
@alexhern
Tue 1 Aug 2017 07.00 BST
Sidst opdateret den Ons 2 Aug 2017 00.17 BST
Denne artikel er over 11 måneder gammel
“Vi skrev og ringede næsten hundrede virksomheder, og spurgte, om vi kunne have de rå data, clickstream-fra folks liv.’
Foto: Steve Marcus/Reuters
En dommer, der er porno præferencer og medicin, som anvendes af en tysk MP var blandt de personoplysninger, som er omfattet af to tyske forskere, der har erhvervet den “anonyme” vaner af mere end tre millioner tyske borgere.
“Hvad ville du tænke,” spurgte Svea Eckert, “hvis nogen dukkede op ved din dør for at sige: ‘Hey, jeg er din komplette browserhistorik – hver dag, hver time, hvert minut, hvert klik, du har på nettet for den sidste måned’? Hvordan ville du synes, at vi fik det: nogle lyssky hacker? Nej. Det var meget nemmere: du kan bare købe det.”
Britisk e-mail prankster tåber Hvide Hus embedsmænd til at besvare
Læs mere
Eckert, en journalist, parret op med data forsker Andreas Dewes at erhverve personlige brugerdata og se, hvad de kan udlede fra den.
At præsentere deres resultater på den Def Con hacking-konferencen i Las Vegas, parret afsløret, hvordan de er sikret en database, der indeholder 3 mia Webadresser fra tre millioner tyske brugere fordelt på 9 forskellige steder. Nogle var sparsom brugere, med blot et par dusin lokaliteter besøgt i 30-dages periode, hvis de undersøgte, mens andre havde titusinder af data punkter: den fulde dokumentation af deres online-liv.
At få fat i de oplysninger, der faktisk var endnu lettere end at købe det. Parret skabt en falsk marketing selskab, fyldt med sin egen hjemmeside, en LinkedIn-side for dens administrerende direktør, og selv en karriere – der høstet et par programmer fra andre marketingfolk, lokket af virksomheden.
De stablet hjemmeside fuld af “mange gode billeder, og nogle marketing buzz words,” hævder at have udviklet en maskine-læring algoritme, der ville være i stand til at markedsføre mere effektivt til mennesker, men kun hvis det blev uddannet med en stor mængde data.
“Vi skrev og ringede næsten hundrede virksomheder, og spurgte, om vi kunne have de rå data, clickstream-fra folks liv.” Det tog lidt længere, end det burde have, Eckert sagde, men kun fordi de var specielt på udkig efter tyske web-surfere. “Vi har ofte hørt:” Browsing data? Det er ikke noget problem. Men vi må ikke have det for Tyskland, at vi kun har det i USA og STORBRITANNIEN,’” sagde hun.
De data, som de var i sidste ende givet kom, gratis, fra en data-mægler, som var villige til at lade dem afprøve deres hypotetiske AI reklame-platform. Og mens det var nominelt er en anonym sæt, blev det hurtigt nemt at anonymisere mange brugere.
Dewes, der er beskrevet nogle metoder, som en knappet mægler kan finde en person i den støj, bare fra en lang liste af url ‘ er og tidsstempler. Nogle gør tingene meget nemt: for eksempel, for alle, der besøger deres egen side i analytics på Twitter ender op med en URL i deres browsing record, som indeholder deres Twitter-brugernavn, og er kun synlige for dem. Finde ud af, at URL-adresse, og du har knyttet den anonyme data til en faktisk person. Et lignende trick virker for tyske social networking site Xing.
For andre brugere, en mere sandsynlighedsbaseret metode kan deanonymise dem. For eksempel, blot 10 Webadresser, kan være nok til entydigt at identificere en person – tænk for eksempel på hvor få mennesker der er i din virksomhed, med din bank, din hobby, din foretrukne avis og din mobil telefon udbyder. Ved at skabe “fingeraftryk” fra data, er det muligt at sammenligne det med andre, mere offentlig, kilder, af hvilke Webadresser brugere har besøgt, såsom sociale medier konti, eller offentlige YouTube afspilningslister.
Data på næsten alle registrerede OS vælgere til venstre for usikrede uger i RNC guldgrube
Læs mere
En lignende strategi, der blev anvendt i 2008, Dewes sagde, at deanonymise et sæt af vurderinger, der er offentliggjort af Netflix til at hjælpe dataloger forbedre sin anbefaling algoritme: ved at sammenligne “anonym” ratings af film med offentlige profiler på IMDB, var forskerne i stand til at demaskere Netflix-brugere – herunder en kvinde, en closeted lesbiske, der gik på at sagsøge Netflix for beskyttelse af personlige oplysninger overtrædelse.
En anden opdagelse, gennem indsamling af data fandt sted via Google Translate, som gemmer tekst af hver forespørgsel, sætte det i URL ‘ en. Fra dette, var forskerne i stand til at afdække operationelle detaljer om en tysk cyberkriminalitet investigation, da detektiv, der er involveret var ved at oversætte anmodninger om bistand til udenlandske politimyndigheder.
Så hvor har de data, der kommer fra? Det blev sorteret fra en række af browser-plugins, ifølge Dewes, med det primære gerningsmanden at være “sikker surfing” værktøj Web of Trust. Efter Dewes og Eckert offentliggjort deres resultater, den browser-plugin ændret sin politik om privatlivets fred for at sige, at det rent faktisk sælge data, mens der gøres forsøg på at holde de oplysninger anonym. “Vi ved, at det er næsten umuligt,” sagde Dewes.