Der Weg, dieses Problem zu lösen, ist die Verschleierung der Daten. Das bedeutet zunächst nicht mehr oder weniger, als sie entweder unlesbar zu machen oder aber bedeutungslos, so dass sie im Falle einer Verletzung für den Eindringling nicht nutzbar sind. Gegenwärtig gibt es zwei verbreitete Methoden für die Verschleierung von Daten, Verschlüsselung und Pseudonymisierung, auch Tokenisierung genannt.
Der Prozess zur Verschlüsselung von Daten ist hinreichend bekannt. Mittels eines mathematischen Algorithmus oder Schlüssel wird die Textinformation chiffriert. Praktischerweise werden zur sicheren Datenübertragung zwei verschiedene Schlüssel verwendet, ein öffentlicher und ein privater. Allerdings besteht immer eine eindeutige Beziehung zwischen dem Ursprungstext und der Chiffre, auch wenn diese bei komplexen Schlüsseln für Dritte schwer herzuleiten ist. Einige Datenschützer halten Verschlüsselung im Kontext der Public-Cloud allerdings für nicht akzeptabel, eben weil diese mathematisch reversibel ist und der NSA-Skandal bewiesen hat, dass auch mit entsprechendem Aufwand gearbeitet wird.
Die Tokenisierung ist dagegen ein Prozess der zufälligen Zuweisung eines Substitutionswertes – oder Tokens – der an Stelle der echten Daten genutzt wird. Der Token wird in keiner Weise aus den Originaldaten abgeleitet. Die am sinnvollsten anwendbare Form der Tokenisierung nutzt eine Beziehungstabelle, um die Beziehungen zwischen den echten Daten und den Substitutionswerten nachvollziehen zu können. Dieses Verfahren ist auch im Bundesdatenschutzgesetz bekannt, wo es im §3 Abs. 6a beschrieben wird.
Schlüssel oder Token
Weil Token vollständig zufällig zugewiesen werden, gibt es keine Relationen untereinander. Das zufällige Erraten eines Tokens versetzt einen Eindringling nicht in die Lage, Rückschlüsse auf ein anderes zu ziehen. Es gibt keinen Schlüssel oder keine Berechnung, die es erlauben würden, alle vorhandenen Token zu Entschlüsseln. Die Tokenisierung gilt deshalb als stärkste Methode, Klartext durch andere Werte zu ersetzen – irreversibel.
Inzwischen hat die weite Verbreitung von Cloud-Implementierungen zu verschiedenen Ansätzen der Cloud-Provider selber bei der Verschlüsselung geführt – von der gesamten Datenbank bis hin zu einzelnen Feldern. Diese Ansätze erfüllen die Erwartungen der Kunden in unterschiedlicher Weise, leider aber nach wie vor unter einigen Beschränkungen. So liegen oft die Schlüssel beim Cloud-Provider selber, sind einige Funktionalitäten trotzdem eingeschränkt oder werden durch 3rd-Party-Apps nicht unterstützt. Dabei ist immer auch auf die drei unterschiedlichen Stadien von Daten im Cloud-Kontext zu achten: Data-in-Transit, Data-in-Use und Data-at-Rest. Eine lokale Verschlüsselung beim Cloud-Provider sichert die Daten nur im Ruhezustand ab, jedoch nicht während des Transportes oder im Speicher der Cloud-Applikation.
Demgegenüber ist die Tokenisierung eine ausgereifte Technologie, die ursprünglich Anwendung im Electronic-Payment fand, um PCI-Compliance (Payment Card Industry) zu erzielen. In diesem Szenario speichern Händler Token anstatt realer Kreditkartennummern, so genannte Primary-Account-Numbers (PAN), die hochsensitiv sind und einfach in Geld verwandelt werden können, wenn sie gestohlen werden. Der Vorteil ist, dass die Tokenisierung jedwede Form der PAN aus der Kartendatenumgebung des Händlers entfernt. Dies erhöht die Sicherheit und reduziert die Audit-Anforderungen, ermöglicht aber weiterhin die Nutzung von Backend-Anwendungen wie Datenanalysen oder Marketing.