En journalist och en data scientist säkras data från tre miljoner användare enkelt genom att skapa en falsk marknadsföring företag, och kunde de-anonymisera många användare
@alexhern
Tis 1 Aug 2017 07.00 BST
Senast ändrad Ons 2 Aug 2017 00.17 BST
Denna artikel är under 11 månader gammal
“Vi skrev och ringde nästan hundra företag, och frågade om vi kunde ha rådata, clickstream från människors liv.’
Foto: Steve Marcus/Tt-Reuters
En domare är porr preferenser och medicin som används av en tysk MP var bland de personliga uppgifter som avslöjats av två tyska forskare som förvärvat den “anonyma” – vanor för mer än tre miljoner tyska medborgare.
“Vad tror ni,” frågade Svea Eckert, “om någon visade upp vid din dörr och säger:” Hej, jag har fullständig historik – varje dag, varje timme, varje minut, varje klick du gjorde på webben för den sista månaden”? Hur skulle du tror att vi fick det: några skumma hacker? Nej. Det var mycket lättare: du kan bara köpa det.”
Brittiska e-post upptågsmakare dårar i Vita Huset tjänstemän i svara
Läs mer
Eckert, en journalist, parat med data scientist Andreas Dewes att skaffa sig personliga uppgifter och se vad de kan få från det.
Att presentera sina resultat vid Def Con hacka konferens i Las Vegas, paret avslöjade hur de säkrat en databas som innehåller 3 miljarder Webbadresser från tre miljoner tyska användare, fördelade på 9 olika platser. Vissa var gles användare, med bara ett par dussin platser vi besökte på den 30-dagarsperiod som de undersökte, medan andra hade tiotusentals av data poäng: den fullständiga register över sina liv online.
Att få tag på den information som faktiskt var ännu lättare än att köpa det. Paret skapat en falsk marknadsföring företag, fylld med sin egen webbplats, en LinkedIn-sida för dess verkställande, och även en karriär webbplats som samlat ett par program från andra marknadsförare lurad av företaget.
De staplade platsen full av “många fina bilder och några marknadsföring slagord,” påstår att de har utvecklat en maskin-lärande algoritm som skulle kunna marknaden mer effektivt för människor, men bara om det var tränade med en stor mängd data.
“Vi skrev och ringde nästan hundra företag, och frågade om vi kunde ha rådata, clickstream från människors liv.” Det tog lite längre tid än den borde ha, Eckert sade, men bara för att de var särskilt ute efter tyska web surfare. “Vi har ofta hört:” Bläddra data? Det är inga problem. Men vi har inte det för Tyskland, har vi det bara för USA och STORBRITANNIEN,’” sade hon.
De uppgifter som de skulle så småningom kom, gratis, från en data mäklare, som var villig att låta dem testa sina hypotetiska AI reklam plattform. Och även om det var namnet på en anonym, det var snart lätt för att de-anonymisera många användare.
Dewes beskrivs några metoder genom vilka ett skarpt mäklare kan hitta en person i bruset, bara från en lång lista över Webbadresser och tidsstämplar. Vissa gör saker och ting mycket enkelt: till exempel ska alla som besöker en egen sida i analytics på Twitter slutar upp med en WEBBADRESS i sin webbläsare, och skivan, som innehåller deras Twitter-användarnamn, och är bara synlig för dem. Hitta den URL: en, och du har länkat anonym data till en verklig person. Ett liknande trick som fungerar för tyska sociala nätverk Xing.
För andra användare, en mer probabilistisk metod kan deanonymise dem. Till exempel, bara 10 Webbadresser kan vara tillräckligt för att unikt identifiera någon – tänk till exempel på hur många människor finns det på ditt företag, med din bank, din hobby, din favorit tidning och din mobiloperatör. Genom att skapa “fingeravtryck” från data, är det möjligt att jämföra det med andra, mer allmänna, källor av vad Webbadresser människor har besökt, såsom sociala medier, eller allmänna YouTube-spellista.
Data för nästan alla registrerade OSS väljare vänster utan säkerhet för veckor i RNC skatt
Läs mer
En liknande strategi används i 2008, Dewes sade, att deanonymise en uppsättning av omdömen publicerades av Netflix för att hjälpa forskare dator förbättra sin rekommendation algoritm: genom att jämföra med “anonyma” ratings av filmer med offentliga profiler på IMDB, forskare kunde avslöja att Netflix-användare, inklusive en kvinna, en garderobsbögen lesbisk, som var med om att stämma Netflix för integritetsintrång.
En annan upptäckt genom insamling av data skedde via Google Translate, som lagrar text om varje fråga genom att sätta den i URL. Från detta kunde forskarna att avslöja operativa uppgifter om en tysk it-relaterad brottslighet undersökning, eftersom den detektiv som var involverade översätta ansökningar om bistånd till utländska polismyndigheter.
Så där gjorde de data som kommer från? Det var som samlats in från ett antal plugins, enligt Dewes, med statsrådets gärningsmannen är “säker surf” – verktyget Web of Trust. Efter Dewes och Eckert publicerade sina resultat, plugin ändrat sin integritetspolicy för att säga som det verkligen att sälja data, och samtidigt göra ett försök att hålla informationen anonym. “Vi vet att det är nästan omöjligt,” sade Dewes.