Så kallade ‘anonym’ data enkelt kan användas för att identifiera allt från våra medicinska journaler för att köpa historia
@oliviasolon
E-post
Fre 13 Jul 2018 09.00 BST
Senast ändrad Fre 13 Jul 2018 13.44 BST
“Digitala brödsmulor kan spåras tillbaka för att kränka människors integritet på ett sätt de aldrig förväntat sig.’
Foto: Voisin/Phanie/Rex/Shutterstock
I augusti 2016, den Australiska regeringen har släppt en “anonym” data set som består av den medicinska fakturering poster, inklusive alla receptbelagda och operationen, av 2,9 miljoner människor.
Namn och andra identifierande egenskaper togs bort från posterna i ett försök att skydda enskildas personliga integritet, men en forskargrupp från University of Melbourne upptäckte snart att det var enkelt att på nytt identifiera människor, och lära sig om deras hela medicinska historia utan deras samtycke, genom att jämföra dataset till en annan allmänt tillgänglig information, exempelvis rapporter av kändisar med barn eller idrottare med operationer.
Regeringen drog data från sin hemsida, men inte före det hade varit hämtat 1.500 gånger.
“En spricka i den byggnad’: integritet förespråkar hagel högsta domstolen mobil data dom
Läs mer
Denna sekretesspolicy mardröm är ett av många exempel på till synes oskyldigt, “de identifierade” bitar av information som bakåtkompilerade att avslöja människors identiteter. Och det bara blir värre människor att spendera mer av sina liv på nätet, stänk digitala spår som kan spåras tillbaka till dem för att kränka deras integritet på ett sätt de aldrig förväntat sig.
Namnlös New York taxi loggar jämfördes med paparazzi bilder på platser runt om i staden för att avslöja att Bradley Cooper och Jessica Alba var dåliga tippar. I 2017 tyska forskare kunnat identifiera personer utifrån deras “anonym” surfa mönster. Denna vecka University College London forskare visade hur de kunde identifiera en individ Twitter-användare baserat på metadata som är associerade med deras tweets, medan fitness spårning app Polar avslöjade hem och i vissa fall namn på soldater och spioner.
“Det är bekvämt att låtsas att det är svårt att på nytt identifiera människor, men det är lätt. De typer av saker som vi gjorde är de typer av saker som alla första årets data science student kan göra,” sa Vanessa Teague, en av University of Melbourne forskare att avslöja brister i den öppna hälso-och data.
Ett av de tidigaste exemplen på denna typ av integritet brott skedde 1996 när Massachusetts-Gruppen Försäkrings-Kommissionen ut avidentifierade data som visar sjukhus besök av statligt anställda. Som med den Australiska data, staten bort uppenbara kännetecken såsom namn, adress och personnummer. Då guvernören, William Weld, försäkrat allmänheten om att patienternas integritet skyddas.
Det är bekvämt att låtsas att det är svårt att på nytt identifiera människor, men det är lätt
Latanya Sweeney, en datavetenskap grad som senare blev chief technology officer på Federal Trade Commission, visade hur fel Svetsen var genom att hitta sina journaler i datamängden. Sweeney som används för att Svetsa är postnummer och födelsedatum, tas från väljaren rullar, och den kunskap som han besökte sjukhuset på en viss dag, efter att ha kollapsat under en offentlig ceremoni, för att spåra honom. Hon skickade ut sina journaler till hans kontor.
I senare verk, Sweeney visade att 87% av befolkningen i Förenta Staterna skulle vara identifieras genom deras födelsedatum, kön och fem-siffriga postnummer.
“Poängen är att uppgifter som kan se ut anonyma är inte nödvändigtvis anonym”, sade hon i sitt vittnesmål att en Department of Homeland Security sekretess-kommittén.
Mer nyligen, Yves-Alexandre de Montjoye, en datoriserad integritet forskare, visade hur den stora majoritet av befolkningen som kan identifieras från den beteendemässiga mönster som uppenbarats av positionsdata från mobiltelefoner. Genom att analysera en mobiltelefon databas av den ungefärliga platser (baserat på närmaste mobilmast) på 1,5 miljoner personer över 15 månader (med någon annan information som kan identifiera) var det möjligt att identifiera 95% av personer med bara fyra datapunkter för platser och tider. Ca 50% kan identifieras från bara två poäng.
De fyra punkter som skulle kunna komma från uppgifter som är tillgängliga för allmänheten, inklusive en persons hemadress, adress och geo-taggade Twitter-inlägg.
“Läge data är ett fingeravtryck. Det är en bit av information som kommer att existera i ett brett spektrum av datamängder och kan potentiellt användas som ett globalt identifierare,” De Montjoye sagt.
Särskilt för den arbetande befolkningen, detta är en stalker dröm.
“Du flyttar från hemmet till jobbet och tillbaka igen i ganska regelbundna mönster. Oftast en person som bor på En adress och fungerar på adress B,” sade Anna Johnston, en chef för konsult-Salinger Integritet.
Även om lokaliseringsuppgifter som inte avslöja personens identitet, det kan fortfarande sätta personer i riskgrupper, förklarade hon. En offentlig karta utgiven av fitness app Strava, till exempel av misstag blev en nationell säkerhetsrisk eftersom det visade läge och rörelser av människor i hemliga militära baser.
I och med 2015, De Montjoye visade att det var möjligt att identifiera ägaren av ett kreditkort från bland miljontals “anonymiserade” avgifter bara genom att veta en handfull av personens inköp.
Beväpnade med endast namn och plats på butiker där inköp ägde rum, och det ungefärliga datum och köpa mängder, De Montjoye kunde identifiera 94% av människor genom att titta på bara tre transaktioner. Detta innebär att någon kunde hitta en Instagram bild för dig att fika med vänner, en tweet om en ny köp och ett gammalt kvitto, och att de skulle kunna matcha det mot hela ditt köp historia.
Ett foto på sociala medier så småningom skulle kunna leda tillbaka till din hela transaktions historik. Foto: martin-dm/Getty Images
Montjoye och andra har visat gång på gång att det är helt enkelt inte möjligt att anonymisera enhet spela in data – uppgifter om personer – oavsett hur avskalad att data är.
“Det kan ha fungerat i det förflutna, men det fungerar inte något mer,” sade han.
Det finns väldigt lite som individer kan göra för att skydda sig från denna typ av privatlivet.
“När våra uppgifter får reda på det, det tenderar att lagras för evigt”, säger Arvind Narayanan, en Wikander, professor i datavetenskap. “Det finns företag som är specialiserade på att kombinera data om oss från olika källor för att skapa virtuella dokumentation och tillämpning av data mining för att påverka oss på olika sätt.”
Det är möjligt att minska dina individuella digital brödsmulespår genom att betala i kassa och dikning din mobiltelefon, men det är inte särskilt praktiskt.
“Om du vill vara en fungerande del av samhället och du har ingen möjlighet att begränsa den mängd data som sugs ut av dig till en meningsfull nivå,” sade säkerhet forskaren Chris Vickery.
Europeiska regleringsmyndigheter rapport kraftig ökning av klagomål efter GDPR
Läs mer
Det gör det också extremt svårt för den enskilde att ge informerat samtycke om hur deras uppgifter har samlats in av någon app eller tjänst. Löften som görs av företag inte att dela personligt identifierbar information är meningslös när det är så lätt att på nytt identifiera någon.
“Det kommer till bra förordning och en korrekt tillämpning,” sade De Montjoye, lägga till att Eu: s Allmänna uppgiftsskyddsförordningen är ett “steg i rätt riktning”.
“En av bristerna i personuppgiftslagen är att det tänjer för mycket ansvar på konsumenten i en miljö där de inte är välutrustat för att förstå riskerna”, säger Johnston. “Mycket mer juridiskt ansvar bör skjutas på till förvaltare [av data, till exempel myndigheter, forskare och företag].”
De Montjoye är fortfarande optimist, refererar till “enorm potential” i big data, särskilt för den medicinska forskningen och samhällsvetenskap.
Han föreslår att man istället för att släppa stora datamängder, forskare och myndigheter bör utveckla gränssnitt som gör det möjligt för andra att ställa frågor till data utan att använda raw-filer.
“Tanken är att inte förlora kontrollen över data och se till att den är anonym,” sade han.
“Integritet är inte död. Vi behöver det och vi kommer att få det.”