Foto: Getty
Lediglich die bestehenden in der modernen Welt bedeutet, dass Sie eine fülle von Informationen zu unzähligen Einrichtungen und Diensten. Während viele der Orte, die Versprechungen zu halten, Ihre persönlichen Daten sicher und privat wie möglich, können Sie immer noch—und oft tun—teilen anonymisiert von Versionen Ihrer Daten an Dritte, ob für die Forschung oder für profit. Aber neue Forschung zeigt, dass, auch wenn die Daten losgelöst von jeglichem persönlichen Faktoren, ist es nicht erforderlich eine Menge von mentalen Verrenkungen, um Stück zusammen bestimmte Informationen und Abbildung aus, mit ziemlich hohem Vertrauen, wer der “anonyme” Benutzer, die in das dataset ist.
In anderen Worten, Daten in anonymisierter Form ist nicht so anonym.
Forscher am Imperial College in London, veröffentlichte ein Papier in Nature Communications ” am Dienstag, die untersucht, wie unzureichend die aktuellen Techniken zur Anonymisierung datasets sind. Bevor ein Unternehmen Aktien, die einem dataset, werden Sie entfernen Sie identifizierende Informationen wie Namen und E-Mail-Adressen, aber die Forscher waren in der Lage zu Spiel das system.
Mit einem machine-learning-Modell und die Datensätze, die enthalten bis zu 15 identifizierbare Merkmale, wie Alter, Geschlecht, und Familienstand—die Forscher waren in der Lage, genau reidentify 99.98 Prozent der Amerikaner in einen anonymisierten Datensatz, so die Studie. Für Ihre Analysen verwendeten die Forscher 210 verschiedene Datensätze, die gesammelt wurden, von fünf Quellen, einschließlich der US-Regierung, die vorgestellten Informationen auf mehr als 11 Millionen Menschen. Insbesondere die Forscher definieren Sie Ihre Ergebnisse als erfolgreiches bemühen um vorzuschlagen und zu validieren “, ein statistisches Modell zur Quantifizierung der Wahrscheinlichkeit für eine re-Identifizierung Versuch erfolgreich zu sein, auch wenn die offengelegten Datensatz ist stark unvollständig.”
Die Studie gab einen hypothetischen, in denen eine Krankenkasse veröffentlicht einen anonymisierten Datensatz von 1.000 Personen, in Höhe von einem Prozent Ihrer gesamten Kunden in Kalifornien. Das dataset enthält das individuelle Geburtsdatum, Geschlecht, POSTLEITZAHL und Brustkrebs-Diagnose. Der Chef von einer der Personen, die in das dataset sieht, dass da jemand ist Männlich, lebt in individuellen zip-code, hat das gleiche Geburtsdatum, und, nach dem Datensatz, ist mit Brustkrebs diagnostiziert, und hatte nicht erfolgreichen Phase-IV-Behandlungen. Aber die Versicherung kann argumentieren, dass, während diese eindeutig bestimmten Daten für den Arbeitgeber entspricht der Datensatz in Ihrer Datei, es ist möglich, es kann eine der anderen zig Tausende von versicherten Kunden, wenn diese Person selbst versichert das Unternehmen.
“Während es könnte eine Menge von Menschen, die in Ihren dreißiger Jahre, Männlich, und lebt in New York City, weit weniger von Ihnen wurden auch geboren am 5. Januar, fahren einen roten Sportwagen, und Lebe mit zwei Kindern (beide Mädchen) und einem Hund,” Dr. Luc Rocher von UCLouvain, ein Autor auf dem Papier, sagte in einer Erklärung.
Senior-Autor Dr. Yves-Alexandre de Montjoye, ein Forscher am Imperial Department of Computing und Data Science Institute, zeichnen sich solche Attribute wie “ziemlich standard-Informationen für Unternehmen zu Fragen.”
Auch die hypothetische dargestellt, das die Forscher in der Studie ist nicht eine Ferne Fiktion. Im Juni dieses Jahres, ein patient an der University of Chicago Medical Center reichte eine Sammelklage gegen die beiden privaten wissenschaftlichen Hochschule und Google für das ehemalige teilt seine Daten mit der letzteren ohne seine Zustimmung. Das medical center, die angeblich de-identifiziert den Datensatz, aber noch gab Google zeichnet mit dem Patienten Größe, Gewicht, Vitalparameter, Informationen über Krankheiten, die Sie haben, medizinische Verfahren, die Sie haben, unterzogen werden, Medikamente sind Sie auf, Datum und Stempel. Die Beschwerde wies darauf hin, dass neben der Verletzung der Privatsphäre in teilen intime Daten ohne eine Einwilligung des Patienten, dass selbst wenn es war in gewisser Weise anonymisiert, die Werkzeuge zur Verfügung, um eine leistungsfähige tech corporation machen es ziemlich einfach für Sie, reverse Engineering, dass Informationen und identifizieren eines Patienten.
“Unternehmen und Regierungen verharmlost das Risiko der re-identikation mit dem argument, dass die Datensätze, die Sie verkaufen, sind immer unvollständig,” de Montjoye, sagte in einer Erklärung. “Unsere Erkenntnisse widersprechen und zeigen, dass ein Angreifer eine einfache und genaue Schätzung der Wahrscheinlichkeit, dass der Datensatz fanden Sie gehört zu der person, die Sie suchen.”
Die Forscher setzen in der Pflicht, die politischen Entscheidungsträger zu schaffen, bessere standards für die Anonymisierung Techniken, um sicherzustellen, dass der Austausch von Datensätzen nicht weiterhin eine potentiell weitreichenden Eingriff in die Privatsphäre. Einige der mächtigsten und ausbeuterische Unternehmen in der Welt der Erlangung von datasets, die genügend Informationen, um sicher identifizieren jemand im Lieferumfang enthalten—die Folgen für entweder den Unternehmen oder böswilligen Akteuren, um Stück zusammen ein puzzle, und erstellen Sie eine voll-gebildete Bild von jemand gegeben, nur eine Handvoll Erkennungsmerkmale sind heimtückisch, und die Forscher die Fähigkeit zu identifizieren, wie eine große Menge von deidentified Benutzer mit nur 15 Attribute zeigt, die wir brauchen, zu überdenken, was eine ethische anonymisiert dataset.
“Das Ziel der Anonymisierung ist, so können wir die Daten verwenden, zum Wohle der Gesellschaft,” de Montjoye sagte. “Das ist sehr wichtig, sollte aber nicht geschehen auf Kosten der Menschen betreffen.”
Teilen Sie Diese Geschichte