06
Technische Anforderungen an eine wirksame faktische Anonymisierung
Die wirksame Umsetzung der faktischen Anonymisierung (d.h. die Erfüllung bestimmter formalisierter Anonymitätskriterien) ist abhängig von der bzw. den eingesetzten Anonymisierungstechnik(en). Die DSGVO selbst macht keine Vorgaben hinsichtlich der auszuwählenden Anonymisierungstechniken. In diesem Abschnitt werden einige der gängigen De-Identifizierungstechniken und Empfehlungen zur Prüfung von deren Wirksamkeit dargestellt.
6.1 De-Identifizierungstechniken im Überblick Es gibt eine große Anzahl von De-Identifizierungstechniken, mit denen personenbezogene Daten deidentifiziert werden können. Diese erfüllen – je nach methodischem Vorgehen und potentiellem „Re-Iden tifizierungs-Angriffsmodell“ – bestimmte formalisierte Anonymitätskriterien (zum Beispiel: k-Anonymität, l-Diversität, t-Closeness, Differential Privacy). Welche De-Identifizierungstechnik oder Kombination dieser eine ausreichende faktische Anonymisierung gewährleisten kann, muss immer für den konkreten Einzelfall beurteilt werden.
6.1.1 Entfernen der Identifier Personenbezogene Daten können sich aus identifizierenden Attributen (d.h. Name oder Personalausweisnummer), einem quasi-identifizierenden Attributen (d.h. Geburtsdatum, Wohnort oder das Geschlecht) sowie sensiblen Attributen (beispielsweise Krankheiten, sexuelle Neigungen, sehr hohes Alter etc.) zusammensetzen. Der Begriff „sensibles Attribut“ ist in diesem Zusammenhang nicht gleichzusetzen mit besonderen Kategorien i.S.v. Art. 9 Abs. 1 DSGVO. Man spricht auch dann von einem sensiblen Attribut, wenn die Offenlegung des Inhalts und die Zuordnung zu einer Person ein besonderes Risikopotenzial oder Eingriffe in die Privatsphäre begründen (hierzu zählen beispielsweise auch die Kontoverbindung, Sozialversicherungsnummer oder Lichtbilder).23 Durch das Entfernen der identifizierenden und quasi-identifizierenden Attribute können Daten de-identifiziert werden. Hierbei werden
einzelne oder mehrere identifizierende bzw. quasi-identifizierende Attribute (d.h. Identifier) aus einem Datensatz vollständig gelöscht, sodass ein Rückschluss auf eine individuelle Person nicht mehr oder nur noch erschwert möglich ist. Das Entfernen dieser Identifier stellt jedoch meist nur den ersten Schritt für eine faktische Anonymisierung dar. Beispiel: Aus von Fahrzeugen generierte GPS-Standortdaten werden der Name des Nutzers, die Nutzer- sowie Fahrzeugnummer gelöscht. Auf diese Weise lassen sich die GPS-Standortdaten nur noch unter erschwerten Bedingungen (und ggf. nur mit entsprechendem Zusatzwissen) auf eine einzelne Person zurückführen.
6.1.2 Randomisierung Als Randomisierung/Perturbation (d.h. eine Art von „Störung“) werden Techniken (siehe eine Auswahl einzelner solcher Techniken nachfolgend unter 6.1.2.1 bis 6.1.2.6) bezeichnet, mit denen Datenwerte durch künstlich generierte Werte ersetzt werden, um einen Datensatz so zu „verändern" bzw. zu „stören“, dass die direkte Verbindung zwischen bestimmten Daten und den betroffenen Personen entfernt wird. Die Daten sollen dabei nur so weit verändert werden, dass zumindest statistische Eigenschaften des Datensatzes für Analysen erhalten bleiben.
6.1.2.1 Vertauschung („data swapping“) Bei der Vertauschung werden bestimmte Merkmale einer betroffenen Person künstlich mit Merkmalen einer anderen Person vertauscht. Das geschieht idealerweise zufällig bzw. pseudozufällig24, wobei sicherzustellen ist, dass kein Datensatz sich im Ergebnis wieder selbst abbildet. Das Verfahren kann dadurch verbessert werden, dass die Variablen einer spezifischen Person mit den Variablen der anderen Person nicht ganz genau übereinstimmen.
24 23
20
Allgemein zu diesen Konzepten, Dietmar Hauf, S. 8, abrufbar unter: https://dbis.ipd.kit.edu/img/content/SS07Hauf_kAnonym.pdf.
Pseudozufälligkeit ist eine berechnete Zufälligkeit. Diese sieht für den Betrachter zwar aus wie eine „echte“ Zufälligkeit, kann mit Kenntnis des Schlüsselmaterials jedoch umgekehrt werden.