Gesichert alt werden

Langzeitarchivierung sensibler Daten

Die gesetzlich geforderte Langzeitarchivierung digitaler Daten wirft viele Probleme auf. Noch schwieriger wird es, wenn Sicherheitsaspekte hinzukommen. Die Aufbewahrungsfrist für geschäftsrelevante Daten beträgt meist sechs bis zehn Jahre, für Patientendaten 30 Jahre. Diesen Forderungen war in Papierform noch einfach nachzukommen. Doch mit der Digitalisierung lassen sich Daten unbemerkt, einfach und verlustfrei kopieren, allerdings auch verfälschen.

Autor:Dr. Reinhard Wobst/dp • 26.5.2009 • ca. 5:05 Min

Wenn zwei Versionen einer kritischen E-Mail auftauchen, muss jemand entscheiden, welche die
richtige ist. Und wer kann zehn Jahre alte Datenträger lesen und die dort verwendeten Formate
verstehen?

Angesichts unsicherer Haltbarkeit von Datenträgern sowie der rasanten Weiterentwicklung von
Datenträgern, Lesegeräten wie Schnittstellen muss man anerkennen, dass ohne regelmäßiges Umkopieren
und Konvertieren zwischen Datenformaten keine Langzeitarchivierung möglich ist. Genau dies wird zum
Knackpunkt, wenn es um sensible Daten geht, also geheime oder besonders relevante, die vor
Verfälschung geschützt werden müssen. Denn bei jeder Konvertierung könnten die Daten kopiert oder
verändert werden.

Die verlässlichste Methode gegen Ausspähen ist, die Daten zu chiffrieren. Wird der Schlüssel
getrennt von den Daten verwaltet, braucht man sich beim Umkopieren nur auf den Erhalt der Daten zu
konzentrieren. Allerdings wird dieser Gewinn mit zwei neuen Problemen erkauft: Zum einen ist das
nicht gerade triviale Key-Management zu implementieren, zum anderen ist ohne Dechiffrierung kein
Wandel des Darstellungsformats mehr möglich. Dies lässt sich durch die Wahl standardisierter
Formate mildern, wie PDF/A, Open Document, UTF-8, JPG (JFIF) oder TIFF. Allerdings ist zu bedenken,
dass die letzten 30 Jahre vermutlich nur ein einziges Format ungeschoren überlebte, nämlich
einfacher ASCII-Text ohne Umlaute. Ein "gesichertes Konvertieren" von Daten sollte also von Anfang
an in das Konzept einbezogen werden. Zudem droht Datenverlust bei geringsten Störungen: Tritt zum
Beispiel beim Umkopieren von im CBC-Mode chiffriertem Text ein Bitfehler auf, dann ergibt der
gesamte Text hinter dem fehlerhaften Bit bei der Dechiffrierung nur noch Zufallszahlen statt
Klartext. Der Chiffriermodus spielt also eine große Rolle.

Mindestens ebenso wichtig ist der Schutz der Integrität. Selbst chiffrierte Informationen können
noch verfälscht werden, insbesondere bei Stromchiffrierungen ohne kryptografische Prüfsummen.
Schließlich lassen sich Dateien beim Umkopieren entfernen oder durch andere ersetzen. Also müssen
auch die Verzeichnisse selbst mit geschützt werden.

Die technische Seite

Für Paranoiker, die selbst modernen Chiffrieralgorithmen wie AES nicht zutrauen, in zehn oder
gar 30 Jahren noch sicher zu sein, empfiehlt sich nur das One-Time-Pad als beweisbar sicheres
Verfahren. Es generiert hardwarebasiert einen Zufallsdatenstrom und verknüpft ihn per bitweisem XOR
mit dem Original. Zufallsdaten und Geheimtext bewahrt das Unternehmen getrennt auf. Ein erneutes
bitweises XOR beider Datensätze ergibt wieder das Original. Die Sicherheit des Verfahrens ist
gewährleistet, wenn beide Datensätze getrennt gehalten werden und niemand Kenntnis von zueinander
gehörenden Teilen der Daten erlangen kann. Der beim One-Time-Pad unerlässliche Integritätsschutz
lässt sich mit einer HMAC-Prüfsumme (Hashed Message Authentication Code) erzielen, die wiederum
getrennt gespeichert werden kann.

Der größte Nachteil dieses Verfahrens ist der doppelte Datenbestand. In der Praxis dürfte die
größte Gefahr sein, dass einer der beiden Datenträger verloren geht oder nicht mehr lesbar ist. Aus
diesem Grund sollte man das Ganze zweimal durchführen, also mit zwei Zufallsdatenströmen arbeiten
und insgesamt vier Datensätze erzeugen, was das Handling noch weiter erschwert. Der praktikablere
Weg liegt wohl doch in der Verwendung klassischer symmetrischer Verfahren wie AES. Eine
Schlüssellänge von 128 Bit wird auch in 30 Jahren noch sicher sein (dafür sorgen die Gesetze der
Physik). Wer neuartige algebraische Angriffe auf AES befürchtet, kann nacheinander mit AES und
Twofish verschlüsseln.

Der kritischste Punkt bei der Chiffrierung ist jedoch das Erzeugen, Speichern und Verwenden des
Schlüssels. Wird der Schlüssel in auslesbarer Form aufbewahrt, ist es nicht unwahrscheinlich, dass
er innerhalb von zehn oder gar 30 Jahren in unbefugte Hände gelangt. Ist er in einer Hardware
gesichert, bindet man sich an diese, einschließlich zukünftiger Ausfälle und Inkompatibilitäten.
Die Versuchung für Angreifer, den Schlüssel irgendwann einmal während seiner Verwendung
auszuspähen, ist sehr groß und nicht aussichtslos.

Secret Sharing

Vermutlich lassen sich derartige Probleme am einfachsten über ein Secret Sharing lösen. Der
Schlüssel wird auf zum Beispiel auf fünf Teilgeheimnisse "verteilt", und es ist mindestens die
Kenntnis von drei dieser fünf Geheimnisse erforderlich, um ihn zu rekonstruieren. Damit kann die
Wahrscheinlichkeit für erfolgreiches Social Engineering auf ein vernünftiges Maß gedrückt werden.
Außerdem lässt sich so auch das kritische Problem der Mitarbeiterfluktuation lösen: Der zum
Chiffrieren verwendete Schlüssel (Master Key) wird mit einem zufälligen Sitzungsschlüssel (Session
Key) chiffriert, und nur auf diesen Sitzungsschlüssel wird Secret Sharing angewandt. Fünf
Mitarbeiter bekommen die fünf Teilgeheimnisse zugeteilt. Verlässt einer von ihnen den Betrieb, so
rekonstruieren drei der restlichen vier den Sitzungsschlüssel und dechiffrieren den Master Key.
Dann generieren sie einen neuen zufälligen Sitzungsschlüssel und neue fünf Geheimnisse und
chiffrieren den Master Key mit dem neuen Sitzungsschlüssel. Bei richtiger Anwendung bekommt den
Master Key niemals jemand zu Gesicht, obwohl damit gearbeitet wird.

Prüfsummen

Bei alledem muss die Integrität von Daten und Metadaten (etwa von Verzeichniseinträgen) durch
gesonderte Prüfsummen abgesichert sein, am besten durch kryptografische Prüfsummen unter Verwendung
geheimer Schlüssel wie HMAC. Dies ist nicht schwer zu implementieren. Jede Prüfsumme sollte nicht
zu große Teile der Daten absichern, um den Verlust bei eventuellen Bitfehlern zu begrenzen.
HMAC-Summen besonders kritischer Daten könnten auch mit anderen Schlüsseln berechnet werden, auf
die die "Chiffrierer" keinen Zugriff haben. Weniger zu empfehlen sind traditionelle digitale
Signaturen und das Chiffrieren von Sitzungsschlüsseln mit Public-Key-Kryptografie. In 30 Jahren
könnte es Quantencomputer geben, die solche Kryptografie wirksam knacken können. Außerdem ist das
Berechnen eines HMAC wesentlich einfacher als digitales Signieren.

Kryptografie allein bleibt allerdings immer nur ein Hilfsmittel; entscheidend sind
organisatorische Maßnahmen, die einen langen Zeitraum mit unvorhersehbaren Ereignissen abdecken
müssen. Die Verantwortlichen sollten dabei beachten, dass innerhalb einer Einheit, die Zugriff auf
alle Schlüssel hat, Fälschungen jederzeit möglich sind. Ein Unterbinden durch spezielle Hardware
ist denkbar, doch wird diese in Zukunft gewiss inkompatibel zum Stand der Technik. Sinnvoller
erscheinen hier Konzepte, Datenspuren (wie Hash-Summen) weitläufig an viele Stellen zu verteilen,
um unbefugte Änderungen maximal zu erschweren. Allerdings erzeugt das wiederum Aufwand beim
notwendigen Wechsel des Datenformats.

Die praktische Seite

Bei der praktischen Umsetzung eines Konzepts sollte man zunächst davon ausgehen, dass ein
Angreifer immer den einfachsten Weg wählt. Wenn also Kryptografie den Datendiebstahl zu schwierig
macht, dann versucht er, an den Rechner heranzukommen, auf dem dechiffriert wird. Über Social
Engineering kommt ein Angreifer hier weiter.

Die zweite und vielleicht größte Schwierigkeit ist, dass über eine lange Zeit geplant werden
muss, hinweg über alle politische Instabilitäten und Finanzkrisen. Drittens bleibt das Problem der
Fälschungssicherheit. Wie könnte etwa ein Betrieb daran gehindert werden, nachträglich
verräterische E-Mails einfach zu löschen oder auszutauschen, wo doch die Schlüssel für alle
Prüfsummen bekannt sind? Hier können nur die Beteiligung einer Behörde und/oder das besagte "
Verteilen von Datenspuren" (inklusive Prüfsummen) helfen.

Nicht vergessen werden darf auch, dass sich immer mehr Daten aus anderen Kontexten
rekonstruieren lassen, weil wir immer breitere Datenspuren hinterlassen. Über einen Zeitraum von 30
Jahren kann sehr viel passieren. Was hätten wir 1979 zu diesem Thema gesagt?

Es bleibt also nur, Aufwand und Nutzen mit möglichst gesundem Menschenverstand abzuwägen. Denn
neuartige Angriffe lassen sich nicht vorausahnen. Kryptografie ist dabei vermutlich das kleinste
Problem.