Kommentar von Georg Lauer, CA Technologies GDPR und Big Data – Datenschutz greift auch im Testfall
Jedes Unternehmen weiß, dass sie kommen wird: GDPR, das steht für General Data Protection Regulation, auch bekannt als Datenschutz-Grundverordnung (DSGVO). Die neue, EU-weite Richtlinie für Datenschutz wurde im April 2016 verabschiedet und wird am 25. Mai 2018 verpflichtend in Kraft treten. Einige Unternehmen haben bereits Schritte eingeleitet, um bis dahin GDPR-konform zu sein. Was viele dabei jedoch nicht im Blick haben: GDPR greift nicht nur bei der offensichtlichen Datenverwendung wie Live-Daten oder Datenbanken, sondern auch bei der Verwendung von Testdaten in Testumgebungen.
Anbieter zum Thema

Ziel der GDPR ist es, eine europaweite Rechtsgrundlage zum Datenschutz und eine Einheitlichkeit innerhalb der EU zu schaffen. Jede Organisation, die mit personenbezogenen Daten von EU-Bürgern arbeitet, ist zur Einhaltung der GDPR verpflichtet. Eine Übermittlung der Daten außerhalb der EU ist zwar grundsätzlich erlaubt, unterliegt jedoch strengen Regeln: Das Drittland, welches die Daten erhält, wird von der EU auf einen angemessenen Datenschutz hin beurteilt.
Ein wichtiger Punkt innerhalb der GDPR ist das Recht auf Datenlöschung, auch bekannt als das „Recht auf Vergessenwerden“. Diese Bestimmung besagt, dass Organisationen wissen müssen, wo genau die Daten einer Person systemübergreifend liegen, damit sie auf Wunsch vollständig gelöscht werden können. Allein jetzt schon gaben bei einer Befragung von 500 global operierenden IT-Organisationen 46 Prozent an, in den letzten zwölf Monaten Anfragen von Kunden erhalten zu haben, ihre personenbezogenen Daten zu entfernen. Gleichzeitig gaben 41 Prozent zu, dass sie nicht über adäquate Prozesse, Technologien oder Dokumentationen zur Entfernung dieser Daten verfügen.
Testdaten als Stolperfalle
Die Richtlinie bedingt weitreichende Veränderungen für die IT-Departements, vor allem im Bereich der Testdaten. Denn viele Daten, die zu Testzwecken in Unternehmen herangezogen werden, stammen aus Live-Umgebungen, lassen damit Rückschlüsse auf persönliche Daten zu und werden immer wieder über einen langen Zeitraum hinweg genutzt. Und genau darin liegt das Problem: Damit handelt es sich bei Testdaten um reale Daten, die beispielsweise auch Dienstleistern, wie externen Entwicklern, übermittelt werden. Rechtens ist das auch bei aktuell gültiger Gesetzlage nicht – doch mit der neuen EU-Regulierung steigt das Augenmerk auf diesen Aspekt.
Laut GDPR muss für die Nutzung der Daten nachgewiesen werden können, woher sie stammen. Darüber hinaus muss auch eine Zustimmung seitens des Datengebers vorliegen, dass seine Daten verwendet werden dürfen. Diese „personenbezogene Daten“, bei denen GDPR greift, sind Informationen, die sich auf eine identifizierbare, natürliche Person beziehen. Als „identifizierbar“ gilt eine Person dann, wenn sie direkt oder indirekt über eine Zuordnung mittels einer Kennung wie beispielsweise Name, Kennnummer oder Geburtsdaten identifiziert werden kann.
Daraus ergibt sich jedoch eine Masse an Daten, die in vielen Unternehmen nicht mehr bearbeitbar ist. Die Nachverfolgung der Wege, die diese Daten im eigenen Unternehmen durchlaufen haben oder woher die mitunter über Jahre vorgehaltenen Daten stammen, ist entsprechend schwer. Wie können Unternehmen also die gesetzlichen Anforderungen für eine solche Masse an Daten überhaupt bewerkstelligen?
Anonymisierung und Verschlüsselung
In einem ersten Schritt müssen Unternehmen ihre Testverfahren dahingehend prüfen, woher ihre Testdaten stammen und welche Rückschlüsse sie erlauben. IT-Professionals müssen dokumentieren und kritisch prüfen, ob es Sinn macht, wo und wie sensible Daten abgelegt sind, wer Zugriff auf welche Daten hat und wo ein Risiko für Datenverlust oder gar -missbrauch besteht.
Darauf aufbauend kann dann überlegt werden, wie diese Daten anonymisiert werden können. Möglich ist dies durch eine klassische Anonymisierung oder eine Verschlüsselung. Beide Verfahren bieten jedoch Stolpermöglichkeiten, die in Bezug auf die Einhaltung von GDPR gefährlich werden können. Damit anonymisierte Daten GDPR-konform als „pseudoanonymisiert“ gelten, dürfen sie sich auch bei einer vernetzten Verwendung von separat abgespeicherten Informationen nicht entschlüsseln lassen. Das heißt: Alle persönlichen Informationen, mit denen Testdaten demaskiert werden können, müssen ebenfalls anonymisiert werden. Das ist ein hochkomplexes und daher auch fehleranfälliges Verfahren.
Eine Erhöhung der Anonymisierungsstärke wird bei hochkritischen Datensätzen durch das Löschen von Datenbankschlüsseln – also Datenbeziehungen – erreicht. So ist eine Rückverfolgung von verfremdeten Personendaten fast unmöglich. Dabei kann es jedoch zu Inkonsistenzen und damit zu fehlerhaften Testergebnissen kommen. Wichtig ist zu beachten, dass sich Anonymisierung nicht ausschließlich auf Textdaten bezieht, sondern ebenso auf Multimediadaten wie Fotos und Filme. So können Bilder mit einer Art Milchglas-Effekt, schwarzen Balken oder Verpixelung unkenntlich gemacht werden.
GDPR-konform dank synthetischer Daten
Während bei den beiden Verfremdungsmethoden vorhandene Live-Daten maskiert werden, können Testdaten auch von Grund auf neu erstellt werden. Diese synthetisch generierten Testdaten können zum Beispiel in der Form „Vorname1, Nachname1, Strasse1“ mit aufsteigendem Index vorliegen. Der Vorteil dieser Methode der Testdatenerstellung ist, dass man sich keine Gedanken mehr über kritische oder sensible Dateninhalte machen muss.
Realistisch: ein hybrider Ansatz
Natürlich wird es nicht möglich sein, alle Daten in produktionsfremden Umgebungen auf einmal zu ersetzen. Auch mit leistungsfähigen Tools und Prozessen braucht das Maskieren einer Datenbank oder das Erzeugen von Daten von Grund auf Zeit. Eine Herausforderung für Test und Entwicklung: Wie kann eine Datenbank maskiert werden, wenn sich dieselben Daten in einem anderen, voneinander abhängigen Teil des Systems befinden? In einigen Fällen kann es hunderte oder tausende voneinander abhängige Systeme geben, deren Daten in unterschiedlichen Formaten gespeichert sind. Deshalb wird das realistische Szenario ein hybrider Ansatz sein. Dabei wird die Implementierungszeit dazu genutzt, eine Kombination aus maskierten und synthetischen Daten und letztlich vollständig synthetischen Daten zu entwickeln.
Entwicklungssysteme sollten wie Produktionssysteme behandelt werden, während die Benutzeraktivität simuliert und an verschiedenen Stellen eingebracht werden müsste. Auf diese Weise können fiktive, synthetische Daten, die wie Produktionsdaten agieren, in das System eingepflanzt werden. Synthetische Datengenerierung kann dabei auf verschiedene Weise genutzt werden. Beispielsweise könnten Datenbankdatensätze kopiert und eine separate Version davon erstellt werden, während Automatisierungs-Frameworks verwendet werden könnten, um fiktive Daten durch das Front-End zu pumpen. Ein anderer Ansatz kann darin bestehen, Nachrichten-Queues für die meisten Systeme zu simulieren, die Dateien oder Nachrichten zur Kommunikation verwenden.
Der Countdown läuft
Welches Verfahren am besten für das eigene Datenmanagement geeignet ist, muss jedes Unternehmen für sich selbst prüfen. Fakt ist jedoch, dass alle Unternehmen mit Stichtag zum 25. Mai 2018 in der Lage sein müssen, die Einhaltung der Vorschriften und entsprechende technische und organisatorische Maßnahmen zu deren Durchsetzung nachzuweisen. Und der Countdown läuft: Es bleibt nur noch weniger als ein halbes Jahr, um die nötigen Maßnahmen umzusetzen.
(ID:45094089)