5. Februar 2021Datenschutz, Pharma & Health

Anonymisierung und Pseudonymisierung in der Praxis

Bei den meisten Tätigkeiten im Unternehmen sind personenbezogene Daten im Spiel – ob in der Kommunikation mit E-Mail oder über Videokonferenz, die Arbeit mit Kunden- oder Beschäftigtendaten, beinahe überall sind datenschutzrechtliche Grundsätze zu beachten. Unter den vielen Instrumenten, die die Datenschutz-Grundverordnung (DSGVO) dafür bereithält, können die Anonymisierung und Pseudonymisierung von Daten hilfreich sein, um einerseits das Datenschutzniveau zu erhöhen, andererseits aufgrund der mit ihnen verbundenen rechtlichen Privilegierungen den Aufwand zu verringern. Es lohnt sich also, einen genaueren Blick auf diese beiden Instrumente zu werfen.

Was bedeutet Anonymisierung?

Im Gesetzestext der DSGVO ist die Anonymisierung streng genommen gar nicht zu finden, nur in Erwägungsgrund 26 DSGVO wird sie einmal ausdrücklich genannt. Für eine rechtliche Definition muss daher die Open-Data-Richtlinie 2019/1024 herangezogen werden: „Anonyme Informationen sind Informationen, die sich nicht auf eine identifizierte oder identifizierbare natürliche Person oder auf personenbezogene Daten beziehen, die in einer Weise anonymisiert wurden, dass die betroffene Person nicht oder nicht mehr identifizierbar ist.“ Das Entscheidende ist also, dass kein Personenbezug mehr hergestellt werden kann, d. h., dass die konkrete Person, über die die Informationen Aufschluss geben, nicht mehr ermittelt werden kann. Ohne den Personenbezug muss die DSGVO nicht mehr angewendet werden, da es keine Person mehr gibt, die datenschutzrechtlich geschützt werden müsste. Das bedeutet allerdings im Umkehrschluss, dass in der Praxis die Identifikation der Person tatsächlich ausgeschlossen sein sollte, um Rechtsverstöße zu vermeiden. Dabei kann es allerdings nach Ansicht des Europäischen Gerichtshofs (EuGH, Urteil vom 19.10.2016, C-582-14) auch ausreichen, dass die Identifizierung der Person nicht absolut, sondern nur mit dem Wissen und den Mitteln des Verantwortlichen unmöglich sein muss. In diesem Fall urteilte der EuGH, dass sogar dynamische IP-Adressen, also solche, die einem Nutzer nur für die Dauer einer Internetverbindung zugewiesen und danach erneuert werden, für einen Webseitenbetreiber ein personenbezogenes Datum sein können – und zwar schon, wenn er rechtlich über die Mittel verfügt, die ihm die Identifikation des Nutzers anhand weiterer Informationen ermöglicht, auf die im Regelfall nur der Internetzugangsanbieter Zugriff hat. Da die Auffassung des EuGHs so weit geht, sollte man im Zweifelsfall bei Daten von einem Personenbezug ausgehen, um auf der sichereren Seite zu sein. Zusätzlich ist auch Erwägungsgrund 26 DSGVO zu betrachten, in dem es heißt: „Um festzustellen, ob eine natürliche Person identifizierbar ist, sollten alle Mittel berücksichtigt werden, die vom Verantwortlichen oder einer anderen Person nach allgemeinem Ermessen wahrscheinlich genutzt werden, um die natürliche Person direkt oder indirekt zu identifizieren.“ Konkret bedeutet das, dass eine Anonymisierung erst dann angenommen werden sollte, wenn die Identifizierung nur theoretisch, mit einem ganz unvertretbaren Aufwand des Verantwortlichen oder mit Hilfe eines anderen Akteurs, der mit großer Wahrscheinlichkeit die entscheidenden Informationen nicht zur Verfügung stellen wird. Letzteres ist etwa dann der Fall, wenn der Dritte unbekannt ist. Unternehmen sollten daher die Anonymisierung sorgfältig prüfen und keinesfalls vorschnell annehmen.

Wie können Daten anonymisiert werden?

Für die Praxis der Anonymisierung bedeutet das, dass in aller Regel technisch mehr mit personenbezogenen Daten getan werden muss, als etwa in einem Datensatz bloß den Klarnamen zu verändern oder zu entfernen. Entwickelt beispielsweise ein Pharmaunternehmen einen Impfstoff gegen ein Virus und führt dazu eine klinische Studie mit einigen hundert Personen durch, entsteht daraus erst einmal ein Datensatz mit einigen Informationen zu den Testpersonen. Dazu können Name, Adresse, Alter, Gewicht, Informationen über Vorerkrankungen usw. gehören. Löscht man nun den Namen und die Adresse der Personen, da diese Daten für den Zweck der Studie nicht benötigt werden, kann sich trotzdem herausstellen, dass einzelne Personen immer noch ohne viel Aufwand und nur anhand ihrer Vorerkrankungen und ihres Alters, oder der verabreichten Medikamente etc. ermittelt werden können. Eine Anonymisierung liegt daher keineswegs vor und möglicherweise können diese Daten nicht gelöscht werden, ohne die Brauchbarkeit der Studie zu beeinträchtigen. Für die Frage, welche Maßnahmen ergriffen werden müssen, um eine vollständige Anonymisierung zu erreichen, lässt sich zwar keine generelle Regel formulieren, im Ergebnis sollten die Datensätze jedoch so verändert werden, dass jede mögliche Datenkombination zu mindestens zwei Treffern führt. Je höher die Anzahl der Treffer, desto besser und sicherer ist selbstverständlich das Ergebnis. Je spezifischer die Informationen sind, desto mehr steigt dafür der Bedarf an der Veränderung des Datensatzes. In der Umsetzung gibt es dafür neben der Nichtangabe bzw. Löschung einige weitere Anonymisierungstechniken, auf die Unternehmen zurückgreifen können.

Mit der Methode der Verallgemeinerung werden die Maßstäbe der Datensätze vergrößert, um die Zuordnung zu Personen zu verhindern. So können Gruppen gebildet werden, z.B. das genaue Alter entfernt und die Testpersonen in Altersgruppen eingeteilt werden. Auch hier muss aber darauf geachtet werden, mit einer zu starken Verallgemeinerung nicht die Brauchbarkeit der Daten zu beschädigen. Eine Verwürfelung (oder: Tausch) der in den Datensätzen enthaltenen Werte erfolgt bei der Mischungs-/Shuffelingsmethode. Die Grundlage für diese Durchmischung sollte eine Zufallsverteilung sein, die jedem Datenfeld die Daten bzw. Teilmenge der Daten eines anderen Datenfeldes zuordnet, wodurch letztlich ein neuer Datensatz gebildet wird. Mit der sog. Varianzmethode werden die Werte zahlenbasierter Daten erhöht oder verringert, ohne dabei die Aussage der Statistik zu verändern. Das lässt sich beispielsweise durch die Veränderung des Geburtsdatums vom 5. auf den 10. April oder auf ähnliche Weise erreichen. Ähnlich ist das Vertauschen einzelner Werte, indem die verschiedenen Attribute einfach anderen Personen zugeordnet werden. Damit kann die statistische Aussage erhalten bleiben. Eine Anonymisierung kann auch durch die sogenannten Kryptografischen Methoden erfolgen. Hierbei kommen Verschlüsselungs- und/oder Hash-Algorithmen zum Einsatz, die die verschiedenen Daten soweit automatisiert anonymisieren. Für eine sichere Anonymisierung ist es häufig sinnvoll und geboten, mehrere Anonymisierungstechniken miteinander zu kombinieren.

Der Begriff der Pseudonymisierung

Anders als bei der Anonymisierung ist es für die Pseudonymisierung personenbezogener Daten ausreichend, Identitäts- und Informationsdaten zu trennen (Art. 4 Nr. 5 DSGVO). Die Zuordnung der Informationen zu den ihnen zugehörigen Personen ist also möglich, soweit dazu die Hinzuziehung zusätzlicher Informationen notwendig ist, die gesondert und unter dem Schutz passender technischer und organisatorischer Maßnahmen aufbewahrt werden. Häufig wird dazu der Name durch eine ID ersetzt. Denkbar ist auch die teilweise Verschlüsselung von Datensätzen, um die Daten zu pseudonymisieren. Dann stellt der Schlüssel die zusätzliche Information dar, mit welcher die Personen identifiziert werden können und die gesondert aufbewahrt werden muss. Des Weiteren ist hier ein umfassendes und technisch zuverlässiges Zugriffs- und Berechtigungskonzept wichtig. Die Pseudonymisierung kann in unterschiedlichen Abstufungen erfolgen, sodass das Ergebnis sowohl eine starke als auch eine schwache Pseudonymisierung sein kann. Eine starke Pseudonymisierung bietet sich vor allem dann an, wenn besondere Datenkategorien nach Art. 9 DSGVO, etwa Gesundheitsdaten, verarbeitet werden oder die Daten einem erhöhten Risiko ausgesetzt sind.

Die Erwägungsgründe 28 und 29 DSGVO machen noch einmal deutlich, dass es sich bei der Pseudonymisierung um ein besonders wichtiges datenschutzrechtliches Instrument handelt, da die allgemeinen Datenschutzgrundsätze besser umgesetzt werden können. Als „Umsetzungshilfe“ können Verantwortliche sich frei dazu entscheiden, sie selbst durchzuführen. Entscheidend ist dabei aber, die zusätzlichen Informationen wie die Pseudonymisierungsschlüssel gesondert und geschützt aufzubewahren. Darüber hinaus muss es vermieden werden, dass es zu einer De-Pseudonymisierung kommt, wenn nachträglich Informationen hinzugefügt werden.

Rechtsgrundlage nicht vergessen!

Nach der DSGVO braucht jede Art der Datenverarbeitung eine Rechtsgrundlage, um rechtskonform zu sein. Häufig wird aber übersehen, dass die Anonymisierung und die Pseudonymisierung von Daten selbst auch eine Datenverarbeitung darstellt. Auch wenn sich beide Instrumente auf den ersten Blick ausschließlich positiv auf den Datenschutz auswirken, muss beachtet werden, dass auch der Verlust von Daten in die Rechte und Freiheiten betroffener Personen nachteilig eingreifen kann. Grundsätzlich kommen alle Rechtsgrundlagen des Art. 6 DSGVO in Betracht, vor allem die berechtigten Interessen, die Vertragserfüllung und die Einwilligung. Zudem können spezielle Rechtsgrundlagen, beispielsweise § 27 BDSG für die Verarbeitung für wissenschaftliche Forschung oder statistische Zwecke, herangezogen werden. Dennoch trifft die Grundüberlegung, dass Anonymisierung und Pseudonymisierung für betroffene Personen datenschutzrechtlich von Vorteil sind, häufig zu. Daher sind die Anforderungen meist verhältnismäßig gering, wenn der Personenbezug erschwert oder ausgeschlossen wird.

Welche Vorteile und Nachteile gibt es?

Die Anonymisierung von Daten scheint für Unternehmen zunächst sehr vorteilhaft zu sein, indem mangels Risiken für betroffene Personen die DSGVO nicht anzuwenden ist. Damit fiele all der Aufwand weg, der mit der Umsetzung der datenschutzrechtlichen Vorgaben verbunden ist. Unternehmen sollten allerdings vorher genau prüfen, ob der Personenbezug definitiv ausgeschlossen werden kann und wieviel Aufwand damit voraussichtlich verbunden ist. Teilweise wird sogar die Meinung vertreten, dass eine „echte“ Anonymisierung praktisch nie möglich ist, da etwa mit Big Data immer die Möglichkeit einer Re-Identifikation der Personen bestehen soll. Nach einer Studie der Fachzeitschrift Nature etwa konnten in Datensätzen mit 15 Merkmalen wie Alter oder Wohnort 99,98 % der US-Amerikaner identifiziert werden, in 80 % der Fälle genügten sogar nur die drei Merkmale Geschlecht, Geburtsdatum und Postleitzahl zur Re-Identifikation bei vermeintlich anonymisierten Datensätzen. Auf diese Problematik sollte daher ein besonderer Fokus gelegt werden. Andererseits muss geprüft werden, ob der Datensatz auch nach der Anonymisierung noch brauchbar ist.

Die Bewertung für eine Pseudonymisierung erfolgt anders, da die Möglichkeit der Identifikation nicht grundsätzlich ausgeschlossen werden muss. Zudem dürften die Datensätze leichter verwertbar bleiben. Allerdings führt die Pseudonymisierung daher auch nicht zu einem Ausschluss der DSGVO, dennoch werden pseudonymisierte Datensätze datenschutzrechtlich privilegiert. Die DSGVO ist auf pseudonymisierte Daten zwar weiterhin anzuwenden, gewährt allerdings einige Vorteile. So hat die Pseudonymisierung etwa positive Auswirkungen auf die Interessenabwägung, die für die Rechtsgrundlage berechtigter Interessen nach Art. 6 Abs. 1 lit. f DSGVO vorzunehmen ist. Denn je stärker die Pseudonymisierung, desto eher überwiegen die Interessen des Unternehmens bzw. des Verantwortlichen, da die betroffenen Personen datenschutzrechtlich besser geschützt sind. Des Weiteren sinken die Anforderungen an die technisch-organisatorischen Maßnahmen zum Schutz der Datenverarbeitungsprozesse. Andererseits sollten auch Risiken mitbedacht werden, etwa dass die Pseudonymisierung ihre Wirkung verliert, wenn im Laufe der Zeit Informationen hinzugefügt werden. Je nach Art der Datensätze besteht auch das Risiko der sog. „Inferenz“, d.h. der Ableitung von Informationen mittels logischer Schlussfolgerungen. Daher kann auch mit der Pseudonymisierung ein hoher organisatorischer Aufwand verbunden sein und eine Prüfung der Pseudonymisierung sollte regelmäßig erfolgen.

Sonderfall: Anonymisierung und Pseudonymisierung im Gesundheitsbereich

Daten und vor allem große Datenmengen können nicht zuletzt im Gesundheitssektor besonders wertvoll sein. Ob für die Behandlung im Krankenhaus Daten von Computertomografie-Scans gespeichert werden, Health-Apps Daten über den körperlichen Zustand ihrer Nutzer aufnehmen oder über klinische Studien Diagnose- und Therapiemöglichkeiten verbessert werden sollen, zumeist geht es um die Verwertung personenbezogener Daten. Häufig handelt es sich hier zudem um Gesundheitsdaten, die zu den besonders geschützten Datenkategorien nach Art. 9 DSGVO zählen und deren Verarbeitung zusätzlichen Anforderungen unterliegt, wobei die DSGVO sich in diesem Zusammenhang neuen Technologien nicht in den Weg stellt, aber grundsätzlich für die Verarbeitung von Gesundheitsdaten höhere Schutzmaßnahmen voraussetzt. Dabei ist auch an eine größere allgemeine Akzeptanz unter den Patienten zu denken. Daher kann der Einsatz pseudonymisierter Daten ein gutes Mittel sein, einen sinnvollen Ausgleich zwischen den Interessen der umfangreichen Datenverarbeitung im Gesundheitsbereich und dem Schutz der persönlichen Daten zu finden. Im Rahmen einer klinischen Studie beispielsweise sollte daher grundsätzlich auf das Mittel der Pseudonymisierung gesetzt werden. Nach der Ersterhebung für die Aufklärung der Probanden, die dokumentiert werden muss, also mit Identifikationsdaten erfolgt, müssen die anschließenden Datenerhebungen für die Studie über eine pseudonyme ID erfolgen und so ausgestaltet sein, dass Identifikationsdaten nicht einsehbar sind. Auch für Unternehmen, die Health-Apps und ähnliche Anwendungen anbieten, kann die Pseudonymisierung der Daten hilfreich sein, datenschutzrechtlich auf der sicheren Seite zu sein.

Die Anonymisierung hingegen ist auch im Gesundheitsbereich die sicherste Methode in Hinsicht auf den Datenschutz, die im Rahmen der Verarbeitung von Gesundheitsdaten allerdings besonders schwierig zu erreichen ist. Wenn etwa ein Betroffener seine Einwilligung in die Verarbeitung seiner Daten widerruft, müssen die Daten grundsätzlich gelöscht werden. Grundsätzlich genügt auch eine Anonymisierung, nach der die Daten in anonymer Form weiterverarbeitet werden können, auch wenn dies in der juristischen Literatur nicht komplett unumstritten ist. Jedenfalls ist darauf zu achten, dass sämtliche Daten, die die Identifizierung ermöglichen, vollständig, sicher und dauerhaft gelöscht sind. Hier sollte der aktuelle technische Stand im Bereich Anonymisierung aufmerksam verfolgt werden.

Fazit

Trotz der gegebenenfalls bestehenden Nachteile der beiden Instrumente ist es Verantwortlichen sehr zu empfehlen, die Möglichkeiten der Anonymisierung und Pseudonymisierung im Vorfeld von Datenverarbeitungsvorgängen zu prüfen. Zwar kann diese Vorabprüfung mit Aufwand verbunden sein, der sich aber mit Blick auf die rechtlichen Privilegierungen häufig lohnt. Gerade die Pseudonymisierung von Daten kann zudem auch verpflichtend aus etwaigen Spezialgesetzen ergeben. In den Mittelpunkt der Aufmerksamkeit sollte in aller Regel die Frage gestellt werden, ob Anonymisierung bzw. Pseudonymisierung tatsächlich auf eine Weise umsetzbar sind, die rechtlich ausreichend ist. Lässt sich nicht zweifelsfrei feststellen, ob die zur Verfügung stehenden Maßnahmen für eine Anonymisierung oder eine Pseudonymisierung ausreichen, können diese zwar für eine Verbesserung des Datenschutzes genutzt werden, von anonymisierten oder pseudonymisierten Datensätzen sollte hingegen nicht ausgegangen werden. Wenn das andererseits aber möglich ist, können sie sehr hilfreiche Maßnahmen für den Datenschutz im Unternehmen sein.

nach oben

Anonymisierung und Pseudonymisierung in der Praxis

Was bedeutet Anonymisierung?

Wie können Daten anonymisiert werden?

Der Begriff der Pseudonymisierung

Rechtsgrundlage nicht vergessen!

Welche Vorteile und Nachteile gibt es?

Sonderfall: Anonymisierung und Pseudonymisierung im Gesundheitsbereich

Fazit

Die Zukunft der Gesundheitsdatennutzung

Auf einen Blick: Relevante Entscheidungen des EuGH zum Datenschutzrecht

Erfolg im digitalen Zeitalter: Der Data Act 2024 und seine Chancen für Ihr Unternehmen

Aktuelle Entwicklungen im digitalen Gesundheitswesen: Rechtliche Herausforderungen und News aus dem eHealth-Sektor

Was bedeutet Anonymisierung?

Newsletter

Wie können Daten anonymisiert werden?

Der Begriff der Pseudonymisierung

Rechtsgrundlage nicht vergessen!

Welche Vorteile und Nachteile gibt es?

Sonderfall: Anonymisierung und Pseudonymisierung im Gesundheitsbereich

Fazit

Newsletter