12 minute read

5. Wirksame Anonymisierung – rechtlicher Rahmen

06

Technische Anforderungen an eine wirksame faktische Anonymisierung

Die wirksame Umsetzung der faktischen Anonymisierung (d.h. die Erfüllung bestimmter formalisierter Anonymitätskriterien) ist abhängig von der bzw. den eingesetzten Anonymisierungstechnik(en). Die DSGVO selbst macht keine Vorgaben hinsichtlich der auszuwählenden Anonymisierungstechniken. In diesem Abschnitt werden einige der gängigen De-Identifizierungstechniken und Empfehlungen zur Prüfung von deren Wirksamkeit dargestellt.

6.1 De-Identifizierungstechniken im Überblick

Es gibt eine große Anzahl von De-Identifizierungstechniken, mit denen personenbezogene Daten deidentifiziert werden können. Diese erfüllen – je nach methodischem Vorgehen und potentiellem „Re-Identifizierungs-Angriffsmodell“ – bestimmte formalisierte Anonymitätskriterien (zum Beispiel: k-Anonymität, l-Diversität, t-Closeness, Differential Privacy). Welche De-Identifizierungstechnik oder Kombination dieser eine ausreichende faktische Anonymisierung gewährleisten kann, muss immer für den konkreten Einzelfall beurteilt werden.

6.1.1 Entfernen der Identifier

Personenbezogene Daten können sich aus identifizierenden Attributen (d.h. Name oder Personalausweisnummer), einem quasi-identifizierenden Attributen (d.h. Geburtsdatum, Wohnort oder das Geschlecht) sowie sensiblen Attributen (beispielsweise Krankheiten, sexuelle Neigungen, sehr hohes Alter etc.) zusammensetzen. Der Begriff „sensibles Attribut“ ist in diesem Zusammenhang nicht gleichzusetzen mit besonderen Kategorien i.S.v. Art. 9 Abs. 1 DSGVO. Man spricht auch dann von einem sensiblen Attribut, wenn die Offenlegung des Inhalts und die Zuordnung zu einer Person ein besonderes Risikopotenzial oder Eingriffe in die Privatsphäre begründen (hierzu zählen beispielsweise auch die Kontoverbindung, Sozialversicherungsnummer oder Lichtbilder).23 Durch das Entfernen der identifizierenden und quasi-identifizierenden Attribute können Daten de-identifiziert werden. Hierbei werden einzelne oder mehrere identifizierende bzw. quasi-identifizierende Attribute (d.h. Identifier) aus einem Datensatz vollständig gelöscht, sodass ein Rückschluss auf eine individuelle Person nicht mehr oder nur noch erschwert möglich ist. Das Entfernen dieser Identifier stellt jedoch meist nur den ersten Schritt für eine faktische Anonymisierung dar.

Beispiel:

Aus von Fahrzeugen generierte GPS-Standortdaten werden der Name des Nutzers, die Nutzer- sowie Fahrzeugnummer gelöscht. Auf diese Weise lassen sich die GPS-Standortdaten nur noch unter erschwerten Bedingungen (und ggf. nur mit entsprechendem Zusatzwissen) auf eine einzelne Person zurückführen.

6.1.2 Randomisierung

Als Randomisierung/Perturbation (d.h. eine Art von „Störung“) werden Techniken (siehe eine Auswahl einzelner solcher Techniken nachfolgend unter 6.1.2.1 bis 6.1.2.6) bezeichnet, mit denen Datenwerte durch künstlich generierte Werte ersetzt werden, um einen Datensatz so zu „verändern" bzw. zu „stören“, dass die direkte Verbindung zwischen bestimmten Daten und den betroffenen Personen entfernt wird. Die Daten sollen dabei nur so weit verändert werden, dass zumindest statistische Eigenschaften des Datensatzes für Analysen erhalten bleiben.

6.1.2.1 Vertauschung („data swapping“)

Bei der Vertauschung werden bestimmte Merkmale einer betroffenen Person künstlich mit Merkmalen einer anderen Person vertauscht. Das geschieht idealerweise zufällig bzw. pseudozufällig24, wobei sicherzustellen ist, dass kein Datensatz sich im Ergebnis wieder selbst abbildet. Das Verfahren kann dadurch verbessert werden, dass die Variablen einer spezifischen Person mit den Variablen der anderen Person nicht ganz genau übereinstimmen.

24 Pseudozufälligkeit ist eine berechnete Zufälligkeit. Diese sieht für den

Betrachter zwar aus wie eine „echte“ Zufälligkeit, kann mit Kenntnis des Schlüsselmaterials jedoch umgekehrt werden.

Beispiel:

In einer Kundenliste soll der Wohnort der Kunden vertauscht werden. Wohnt etwa Person A in Ort X und Person B in Ort Y, so ist nach der Vertauschung der Information „Ort“ in der Datenbank abgebildet, dass Person A in Ort Y und Person B in Ort X wohnt. Würden nun aber auch weitere Elemente zwischen Person A und Person B vertauscht werden, könnte dies dazu führen, dass sich der Datensatz im Ergebnis zum großen Teil wieder selbst abbildet und somit der Zweck der Vertauschung nicht erreicht wird. Zwischen zwei konkreten Datensätzen sollte daher immer nur ein nicht maßgeblicher Teil des Datensatzes vertauscht werden.

6.1.2.2 Kryptografische Hashfunktion

Eine kryptografische Hashfunktion bildet für ein Datum oder Eingabewert (in beliebiger Länge) einen Ausgabewert – den sogenannten Hashwert – mit fester Länge ab. Eine kryptografische Hashfunktion ist eine Einwegfunktion, sodass allein aus dem Hashwert kein Rückschluss auf das Ursprungsdatum vorgenommen werden kann. Zudem ist eine kryptografische Hashfunktion kollisionsresistent, sodass einem Hashwert immer nur ein Eingabewert zugeordnet werden kann. Dieser Vorgang wird als Hashing bezeichnet. Die kryptografische Hashfunktion selbst ist dabei standardisiert und insoweit (allgemein) bekannt. Daher ermöglicht die Nutzung kryptografischer Hashfunktionen keinen automatischen Schutz der Entschlüsselung. Ein ReIdentifizierungs-Angreifer, der den hinterlegten Hashwert kennt, kann solange verschiedene Eingabewerte mittels der bekannten Hashfunktion berechnen, bis er eine Übereinstimmung mit dem hinterlegten Hashwert erhält. Somit hängt eine Entschlüsselung davon ab, inwieweit ein Re-Identifizierungs-Angreifer die Art der möglichen Eingabewerte kennt oder eingrenzen kann (z.B. Telefonnummern).

Um die Schwierigkeit des Entschlüsselns zu erhöhen, wird einem Eingabewert oftmals ein Zufallswert hinzugefügt, wodurch sich der Hashwert verändert. Dieser Zufallswert wird, wenn bekannt, als „Salt“ bezeichnet. Wird der Zufallswert geheim gehalten, wird dieser „Pepper“ genannt. Damit der Zufallswert eine möglichst hohe Sicherheit vor einem Re-IdentifizierungsAngreifer bietet, sollte dieser eine hinreichende Komplexität und Länge aufweisen und möglichst geheim gehalten werden.

Zudem empfehlen sich weitere De-Identifizierungstechniken (wie etwa die stochastische Überlagerung; siehe dazu 6.1.2.3) bzw. konkrete technische und organisatorische Maßnahmen (wie etwa Zugriffsbeschränkungen und restriktive Rechte- und Rollenvergabe).

Beispiel:

In der Praxis wird Hashing etwa dazu verwendet, User Passwörter von Online-Portalen nicht im Klartext, also unverschlüsselt, speichern zu müssen. Es wird dabei nur der sog. eindeutige Hashwert, also das Ergebnis der auf das Passwort angewandten kryptografischen Hash-Funktion, gespeichert. Wird ein Passwort eingegeben, wird von der Eingabe ebenfalls ein (eindeutiger) Hashwert generiert und bei Übereinstimmung der beiden Hashwerte ist mathematisch sichergestellt, dass das eingegebene Passwort mit dem in der Datenbank hinterlegten Passwort übereinstimmt. Um zu verhindern, dass durch Ausprobieren die Hashwerte von einfacheren Passwörtern ermittelt werden können, wird üblicherweise dem Passwort noch vor dem „Hashen“ ein Zufallswert hinzugefügt (Salt).

Eine andere weit verbreitete Einsatzmöglichkeit des Hashing ist die de-identifizierte Speicherung von IPAdressen, bei der das gleiche Verfahren angewendet werden kann.

6.1.2.3 Stochastische Überlagerung („additive noise“)

Bei der Stochastischen Überlagerung wird den Daten bewusst ein zufälliger „Messfehler“ hinzugefügt, beispielsweise durch Überlagerung mit Zufallsdaten (die zum Beispiel durch die Addition zufälliger Werte auf die bestehenden Werte erzeugt werden). Diese Methode kann nur auf numerische Werte angewendet werden.

Beispiel:

Es wird bei Zahlenwerten etwa die Ziffer an der letzten Stelle durch eine zufällige Ziffer ausgetauscht (beispielsweise bei GPS-Koordinaten).

6.1.2.4 Synthetic Data Generation

Bei dieser Methode werden künstliche Datensätze auf Grundlage eines statistischen Modells erstellt. Das Modell wird anhand von statistischen Merkmalen der Ursprungsdaten konstruiert, die synthetischen Daten bilden dabei eine Teilmenge der Ursprungsdaten. Daraus werden dann Stichproben entnommen, um einen neuen Datensatz zu formen.

Beispiel:

Aus einem Datensatz über Wohnungseinbrüche in einer bestimmten Region werden nur die statistischen Befunde in ein mathematisches Modell extrahiert, welches nun auf Basis dieser statistischen Befunde und ggf. weiteren hinzugefügten Parametern andere Szenarien berechnet.

6.1.2.5 Perturbation

Bei der Perturbation werden Datenwerte durch künstliche Werte ersetzt. Das Ziel dabei ist, die Daten so zu verändern, dass dennoch statistische Eigenschaften des Datensatzes für Analysen erhalten bleiben. Die Methoden bieten einen hohen Schutz vor Angriffen, da die generierten Einträge, welche mit zufallsbasierten Verfahren erzeugt werden, nicht mehr realen Personen entsprechen. Dies stellt jedoch auch einen Nachteil dar, weil die Flexibilität in Bezug auf Analysen verloren geht.

Beispiel:

In einem umfassenden Datensatz ist neben der Klassifizierung „arbeitssuchend, in Ausbildung, selbständig, angestellt und in Rente“ jeweils das Geburtsjahrzehnt (1950 bis 1959, 1960 bis 1969, 1970 bis 1979, 1980 bis 1989, 1990 bis 1999, usw.) der entsprechenden Personen enthalten. Diese Werte werden jeweils durch zufällig generierte künstliche Informationen ersetzt.

6.1.2.6 Permutation

Bei der Permutation werden Daten zwischen Datensätzen innerhalb von Attributen gemischt. Bei dieser Methode werden keine Werte des Datensatzes verändert, sondern der Ursprungsdatensatz in zwei Teile (beispielsweise zwei Tabellen) zerlegt und neu über eine Gruppen-ID verbunden. Dadurch wird die Assoziation zwischen den Werten aus Tabelle 1 mit den Werten aus Tabelle 2 aufgeweicht.

Beispiel:

In einem Datensatz über 30 Patienten wird die Tabelle mit den personenbezogenen Daten in die quasi-identifizierenden Attribute (Alter, Geschlecht und Wohnort) einerseits und die sensiblen Attribute andererseits aufgeteilt (Krankheitsverlauf, Symptomatik). Die aufgeteilten Tabellen sind über eine Gruppen-ID nach wie vor miteinander verbunden. Nunmehr kommen für einen Eintrag in der Tabelle 1 (quasi-identifizierende Attribute) 30 verschiedene sensible Werte (Tabelle 2) in Frage. Es kann nicht mehr festgestellt werden, welchen Krankheitsverlauf und welche Symptome die Patienten auf der Liste haben.

6.1.3 Generalisierung/Aggregation

Daten können durch Reduzierung ihrer Genauigkeit mittels verschiedener Techniken (siehe eine Auswahl einzelner solcher Techniken nachfolgend unter 6.1.3.1 und 6.1.3.2) de-identifiziert werden (beispielsweise können kategoriale Werte anhand einer Taxonomie durch allgemeinere Werte ersetzt werden, so ersetzt der Begriff „Akademiker“ die Bezeichnungen Richter, Arzt oder Apotheker). Bei numerischen Attributen werden exakte Angaben durch Intervalle ersetzt (beispielsweise wird das Alter 30 durch das Intervall 30-35 ersetzt). Dadurch werden die Daten unspezifischer und sind nicht mehr so leicht auf individuelle Personen zurückzuführen. Aggregation kann jedoch bei zu geringer Anzahl der Datensätze oder zu geringer Streuung weiterhin einen Personenbezug zulassen.

6.1.3.1 Anwendung verschiedener Generalisierungsschemata

Je nach Generalisierungsansatz lässt sich zwischen verschiedenen Schemata unterscheiden: Bei einem sog. „full-domain generalization scheme“ werden alle Werte eines Attributs auf die gleiche Ebene generalisiert. Werden im oben genannten Beispiel daher „Arzt“, „Richter“ und „Apotheker“ durch „Akademiker“ ersetzt, wären auch „Elektriker“ und „Maler“ zu „Handwerkern“ zu generalisieren.

Bei einem sog. „subtree generalization scheme“ werden alle sog. „Kindknoten“25 eines „Elternknotens“ generalisiert. Ein sog. „sibling generalization scheme“ wiederum ähnelt dem vorherigen, allerdings werden hier nur spezifische Kindknoten eines Elternknotens generalisiert. Zum Beispiel kann „Arzt“ durch „Akademiker“ ersetzt werden, ohne dass der Begriff „Richter“ verändert wird. Ein sog. „cell generalization scheme“ erlaubt hingegen die Generalisierung lediglich ausgewählter

25 Als Knoten bezeichnet man in der Graphentheorie ein Element der

Knotenmenge eines Graphen. Eine Kante gibt an, ob zwei Knoten miteinander in Beziehung stehen bzw. in der grafischen Darstellung der Knotenmenge miteinander verbunden sind. Für einen von der Wurzel verschiedenen Knoten bezeichnet man den Knoten, durch den er mit einer eingehenden Kante verbunden ist als Vaterknoten, Mutterknoten oder Elternknoten. Umgekehrt bezeichnet man alle Knoten, die von einem beliebigen Knoten aus durch eine ausgehende Kante verbunden sind als Kinder, Kinderknoten, Sohn oder Nachfolger.

Einzelwerte. Zum Beispiel kann der Wert „Richter“ in einem Eintrag generalisiert werden und gleichzeitig in einem anderen Eintrag derselben Tabelle erhalten bleiben. Sog. „multidimensional generalization“ betrachtet mehrere Attribute gleichzeitig und sieht für die jeweiligen Attribute jeweils unterschiedliche andere Generalisierungsansätze vor. So kann zum Beispiel die Gruppe „Arzt, 32“ durch „Arzt, (30-40)“ ersetzt werden, wohingegen alle Einträge mit „Arzt, 36“ zu „Akademiker, 36“ generalisiert werden.

Beispiel:

In einem Datensatz über Patienten werden – nachdem die (eindeutig) identifizierenden Attribute (Name, Krankenversichertennummer) gelöscht wurden – alle quasi-identifizierenden und sensiblen Attribute eine Stufe nach oben generalisiert (aus der exakten Wohnadresse des Patienten wird das Viertel, aus dem Alter eine festgelegte Altersspanne und aus dem Beinbruch die Fraktur).

6.1.3.2 Mikroaggregierung

Mikroaggregierung beschreibt eine Technik der De-Identifizierung, bei der die Daten nach Ähnlichkeit in den Attributwerten gruppiert und pro Gruppe die einzelnen Werte zu einem repräsentativen Wert zusammengefasst werden, etwa dem Mittelwert oder dem Median. Während bei der klassischen Aggregierung einzelne Attributwerte verändert (beziehungsweise generalisiert) werden, bleiben bei der Mikroaggregierung die Attributwerte gleich und werden lediglich zusammengefasst. Die Mikroaggregierung hat daher gegenüber der klassischen Aggregierung unter anderem den Vorteil, dass sie zu geringeren Datenverlusten führt und regelmäßig die Granularität der Daten in höherem Maß erhält.

Beispiel:

Eine sehr einfache Form der Aggregation ist die Zusammenfassung aller Datenpunkte auf einen Durchschnittswert. Dieser lässt grundsätzlich keine Rückschlüsse mehr auf Einzelpersonen zu (beispielsweise das durchschnittliche Gehalt eines Software -Entwicklers in einem größeren Konzern). So können beispielsweise Patientendaten mithilfe von Mikroaggregation de-identifiziert werden, indem die Patienten zunächst nach dem Alter in Gruppen gegliedert und danach innerhalb einer Altersgruppe die einzelnen Alterswerte durch das Altersmittel dieser Gruppe ersetzt werden.

6.2 Formalisierte

Anonymisierungskriterien

Es wird zwischen De-Identifizierungstechniken einerseits und formalisierten Anonymisierungskriterien andererseits unterschieden. „Formalisierte Anonymisierungskriterien“ sind keine Techniken als solche, sondern eine mathematische Beschreibung des spezifischen „Sicherheitsniveaus“ der angestrebten De-Identifizierung als Ergebnis der geplanten (Kombination von) De-Identifizierungstechniken, die angewendet werden sollen. Die Erfüllung eines formalisierten Grades an De-Identifizierung ist nicht gleichbedeutend mit der Erreichung einer faktischen Anonymisierung, es sind vielmehr auch die weiteren hierfür erforderlichen Kriterien (siehe 6.2.1 bis 6.2.3) zu beachten.

6.2.1 Differential Privacy

Differential Privacy ist eine mathematische Definition von Anforderungen, um den Grad der De-Identifizierung messbar zu machen.26 Mit Differential Privacy wird das Ziel verfolgt, eine genaue Aussage über die Wahrscheinlichkeit einer Re-Identifizierung treffen zu können, ohne dass dadurch eine Identifizierung einzelner Datensätze erforderlich ist.

Wie hoch das Risiko einer Re-Identifizierung ist, wird durch den Parameter Epsilon (ε)27 als die Wahrscheinlichkeit ausgedrückt, dass eine Abfrage über eine Datenbank, die einen zusätzlichen Datensatz enthält, dasselbe Ergebnis liefert wie eine Abfrage über eine andere Datenbank, die diesen Datensatz nicht enthält. Je kleiner der Faktor ε ist, desto höher ist der Schutz vor einem Re-Identifizierungs-Angriff. Welchen Wert ε annehmen muss, um nach dieser Messmethode den Grad einer faktischen Anonymisierung zu erreichen, kann nur anhand des Einzelfalles beurteilt werden, da

26

Eine randomisierte Funktion κ liefert ∈ Differential Privacy, falls für alle Datensätze D1 und D2 die sich in höchstens einem Eintrag unterscheiden,und alle S ⊆ Range(κ) gilt: Pr[κ(D1) ∈ S]≤e{ϵ}\times\Pr[κ(D2 ) ∈ S]. Papastefanou, „Database Reconstruction Theorem“ und die Verletzung der Privatsphäre (Differential Pri-vacy), CR 2020, 379-386 (382f).

insofern insbesondere die Quantität der Daten eine signifikante Rolle spielt.

Beispiel:

Bei einer Konferenz soll die Anzahl aller Teilnehmer pro Fachgebiet veröffentlicht werden. Dazu werden die Daten aggregiert und das Ergebnis mit einem zufälligen Rauschen addiert, welches entsprechend des Beitrags eines einzelnen Nutzers gewählt wird (jeder Teilnehmer kann beispielsweise maximal drei Fachgebiete wählen und wird für jedes Fachgebiet nur einmal gezählt). Ändert sich der mögliche Beitrag der Nutzer, so müssen auch die Parameter des Rauschens geändert werden (wenn beispielsweise ein Nutzer nur ein einzelnes Fachgebiet wählen soll).

Unter dem Schlagwort „Lokale Differential Privacy“ wird das Zufügen eines statistischen Rauschens verstanden, wodurch Rückschlüsse auf Einzelpersonen unmöglich werden, aber die derart de-identifizierten Daten weiterhin eine statistische Auswertung erlauben. „Zentrale Differential Privacy“ hingegen bedeutet, dass Daten zunächst aggregiert und danach mit einem zufälligen Rauschen versehen werden, um die Existenz einzelner Datensätze von Nutzern in den gesammelten Daten zu verschleiern. Das Rauschen kommt in beiden Fällen von einer anerkannten Verteilung (meist Laplace oder Gauss) mit vorbestimmten Parametern, welche aus bekannten Eigenschaften der vorhandenen Datensätze gewonnen werden (beispielsweise, wie oft ein einzelner Nutzer einen Wert beigetragen hat und wie viel Einfluss dessen Daten auf das Ergebnis der Aggregation hat).

6.2.2 k-Anonymität

Die k-Anonymität ist ein formelles Datenschutzmodell, mit dem die Aussage über die Wahrscheinlichkeit beschrieben wird, ob sich ein Datensatz mit einem anderen verknüpfen lässt. Damit kann eine Aussage über die Wahrscheinlichkeit einer Re-Identifizierung getroffen werden.

Die k-Anonymität verlangt für eine De-Identifizierung, dass Datensätze soweit verändert werden, dass kein Rückschluss auf eine einzelne Person (d.h. ununterscheidbar mit k-1 anderen Personen) möglich ist. Der „k-Wert“ drückt den Parameter aus, wie häufig ein Attribut eines Datensatzes innerhalb einer Datensammlung sog. Äquivalenzklasse) vorkommt.

Beispiel:

Im Rahmen einer medizinischen Studie werden PLZ, behandelnder Arzt und Krankheit gespeichert und die sensible Information zu der Krankheit soll de-identifiziert werden. Befinden sich in der Tabelle jeweils zwei identische Einträge mit denselben Attributen zu PLZ, behandelnder Arzt und Krankheit liegt, der k-Wert bei 2.

Die k-Anonymität weist jedoch Schwächen auf. Aufgrund der Homogenität der Äquivalenzklassen (d.h. alle k Datensätze einer Äquivalenzklasse weisen identische Attribute auf) oder durch zusätzliches Hintergrundwissen (d.h., ein Angreifer weiß über die Existenz einer Person in einer Datenbank und kann diese Person der korrekten Äquivalenzklasse zuordnen, daher kann er ggf. durch das Zusatzwissen bestimmte sensible Attribute für die Person ausschließen) ist eine Re-Identifizierung möglich. Diese Schwächen sollen durch Weiterentwicklungen der k-Anonymität (durch l-Diversität und t-Closeness, siehe nachfolgend) behoben werden.

This article is from: