‘Anonym’ surfing data kan være lett synlige, forskere avsløre

En journalist og en data-forsker sikret data fra tre millioner brukere enkelt ved å opprette en falsk markedsføring selskap, og var i stand til å de-anonymise mange brukere

@alexhern

Tue 1 Aug 2017 07.00 BST

Sist endret på Wed Aug 2 2017 00.17 BST

Denne artikkelen er over 11 måneder gammel

‘We wrote and called nearly a hundred companies, and asked if we could have the raw data, the clickstream from people’s lives.’

“Vi skrev og kalt nesten hundre selskaper, og spurte om vi kunne ha raw-data, clickstream fra folks liv.”
Foto: Steve Marcus/Reuters

En dommer porno preferanser og medikament som brukes av en tysk MP var blant de personlige data som er avdekket av to tyske forskere som kjøpte “anonym” – surfing vaner av mer enn tre millioner tyske borgere.

“Hva ville du tror,” spurte Svea Eckert, “hvis noen dukket opp på døren og sa:” Hei, jeg har hele nettleserloggen – hver dag, hver time, hvert minutt, hver klikker du gjorde på nettet for den siste måneden’? Hvordan ville du synes vi fikk det: noen lyssky hacker? Nei. Det var mye enklere: du kan bare kjøpe den.”

Britiske e-post prankster fools Hvite Hus tjenestemenn i å svare

Les mer

Eckert, en journalist, koblet opp med data forsker Andreas Dewes til å skaffe seg personlige brukerdata og se hva de kunne sanke fra det.

Presentere sine funn på Def Con hacking konferanse i Las Vegas, par avslørt hvordan de sikret en database som inneholder 3bn Nettadresser fra tre millioner tyske brukere, fordelt over 9m forskjellige nettsteder. Noen var sparsom brukere, med bare et par dusin av nettsteder besøkt 30-dagers perioden de undersøkt, mens andre hadde titusenvis av data poeng: full oversikt over deres online liv.

Å få tak i den informasjonen var faktisk enda enklere enn å kjøpe det. Det paret som har opprettet en falsk markedsføring selskapet, fylt med sin egen nettside, en LinkedIn-side for daglig leder, og selv en karriere nettsted – som har fått noen søknader fra andre markedsførere lurt av selskapet.

De stablet nettstedet full av “mange fine bilder og litt markedsføring buzzwords,” hevder å ha utviklet en maskin-læring algoritme som ville være i stand til markedet mer effektivt for folk, men bare hvis det ble trent med en stor mengde data.

“Vi skrev og kalt nesten hundre selskaper, og spurte om vi kunne ha raw-data, clickstream fra folks liv.” Det tok litt lengre tid enn den burde ha, Eckert sa, men bare fordi de var spesielt på jakt etter tyske web surfere. “Vi ofte hørt: ‘Surfing data? Det er ikke noe problem. Men vi trenger ikke det for Tyskland, vi bare ha det i USA og STORBRITANNIA,’” sa hun.

Data de til slutt ble gitt kom, gratis, fra en data megler, som var villig til å la dem teste sine hypotetiske AI annonsering plattform. Og mens det var nominelt er en anonym sett ble det fort lett å de-anonymise mange brukere.

Dewes beskrives noen metoder som en skarp megler kan finne en person i støy, bare fra en lang liste over url-adresser og tidsstempler. Noen gjør ting veldig enkelt: for eksempel, alle som besøker sine egne analytics-side på Twitter ender opp med en URL-adresse i sine surfing-posten som inneholder deres Twitter-brukernavn, og er bare synlig for dem. Finne NETTADRESSEN, og at du har koblet sammen den anonyme data til en faktisk person. En lignende triks som fungerer for den tyske sosiale nettverk nettstedet Xing.

For andre brukere, en mer probabilistisk tilnærming kan deanonymise dem. For eksempel, bare 10 Nettadresser kan være nok til å identifisere noen – bare tenk, for eksempel, hvor mange mennesker det er i bedriften, med banken din, din hobby, dine foretrukne avis og mobiloperatøren. Ved å opprette “fingeravtrykk” fra data, er det mulig å sammenligne det til andre, mer offentlig, kilder til hva Nettadresser mennesker har besøkt, slik som sosiale medier-kontoer, eller offentlig YouTube-spillelister.

Data på nesten alle registrerte AMERIKANSKE velgere til venstre for usikrede uker i RNC trove

Les mer

En lignende strategi ble brukt i 2008, Dewes sa, å deanonymise et sett av vurderinger som er publisert av Netflix for å hjelpe datamaskinen forskere forbedre sin anbefaling algoritme: ved å sammenligne “anonym” vurderinger av filmer med offentlige profiler på IMDB, forskere var i stand til å unmask Netflix-brukere, inkludert en kvinne, en hemmelighetsfulle lesbisk, som gikk på å saksøke Netflix for brudd på personvernet.

Et annet funn gjennom innsamling av data skjedde via Google Translate, som lagrer tekst på hver spørring satt gjennom det i URL-en. Fra denne, forskerne var i stand til å avdekke operative detaljer om en tysk cybercrime investigation, siden detektiv som var involvert var å oversette forespørsler om hjelp til utenlandsk politi.

Så hvor ble det av dataene kommer fra? Det ble samlet fra en rekke nettleser plugins, i henhold til Dewes, med prime lovbryteren være “sikker surfing” – verktøyet for Web av Tillit. Etter Dewes og Eckert publisert sine resultater, nettleser-plugin endret sine retningslinjer for personvern for å si at det gjør det faktisk selger data, samtidig som du forsøker å holde informasjonen anonym. “Vi vet at dette er nesten umulig,” sa Dewes.


Date:

by