Die Begriffe Backup und Archivierung werden häufig verwendet, ohne die genaue Art der Speicherung zu unterscheiden. Dabei stehen sie für durchaus verschiedene Aspekte der sicheren Aufbewahrung von Daten. Eine sinnvolle Archivierungsstrategie muss berücksichtigen, dass Unternehmen hier unterschiedliche Ziele verfolgen.
Beim Backup handelt es sich um eine kurz- bis mittelfristige zusätzliche Speicherung von zu
sichernden Daten. Backup-Strategien zielen darauf ab, aktuelle Daten zu sichern, die für die
Anwender noch mehr oder weniger regelmäßig zur Verfügung stehen müssen. Sollten Daten
beispielsweise durch Festplattenschäden oder aus anderen Gründen verloren gehen, können diese
kurzfristig wiederhergestellt werden. Somit lassen sich mit dem Backup aktive Daten vor einem
unbeabsichtigten Verlust wirksam schützen. Die Aufbewahrungszeit für diese Sicherungskopien des
Datenbestands beträgt oft nur einige Wochen oder Monate.
Bei der Archivierung stehen dagegen Daten im Fokus, die von einer aktiven Nutzung in einen "
statischen" Zustand übergegangen sind und auf die nur selten zugegriffen werden muss. Sie lassen
sich beispielsweise aus dem Backup entnehmen und in einem Archiv speichern. Diese Unterscheidung
aus technischer Sicht ist auch unter Kostenaspekten relevant: Für Archive mit entsprechend großem
Datenvolumen kommen in der Regel preisgünstige Medien mit hoher Speicherkapazität zum Einsatz, wie
beispielsweise Magnetbänder und optische Laufwerke. Etwa 60 bis 80 Prozent des Datenbestands sind
aus Erfahrung bei den meisten Unternehmen statisch und werden nicht mehr verändert.
Hinsichtlich der elektronischen Archivierung gelten für die meisten Unternehmen – teilweise auch
in Abhängigkeit der Branche – bestimmte gesetzliche oder auch unternehmensinterne Vorschriften.
Relevante nationale und internationale Compliance-Regelungen sind beispielsweise in diesem
Zusammenhang der Sarbanes-Oxley Act (SOX), die GDPdU, Basel II und der Code of Federal Regulations
CFR 17. In diesen Richtlinien finden sich klare Vorgaben zu Arten und Formaten der Aufbewahrung
bestimmter Daten und Informationen sowie zu den jeweiligen Fristen. Insbesondere sind hier auch die
sichere Aufbewahrung und Transparenz gefordert. Die Aufbewahrungsdauer kann von einigen Jahren bis
hin zu mehreren Jahrzehnten vorgegeben sein. Ein Beispiel für branchenspezifische Regularien stellt
das Federal Register CFR Part 11 dar, ein weltweit anerkanntes Regelwerk für standardisierte
Herstellungsmethoden im Pharma- und Lebensmittelbereich. Geeignete technische Lösungen und ein gut
konzipiertes Archiv unterstützen die Unternehmen bei der Erfüllung dieser Vorgaben. Ziel von
Archivsystemen ist es somit, archivierte Daten auch nach langen Zeiträumen für die Anwender
verfügbar zu machen.
Vor diesem Hintergrund müssen sich die Verantwortlichen in Unternehmen den Unterschied zwischen
Backup und Archivierung bewusst machen. Für die richtige Strategie und Auswahl der Technik sind
zunächst wichtige Fragen zu beantworten, wie zum Beispiel welche Daten überhaupt von dem Backup
oder der Archivierung betroffen sind sowie welche dieser Daten regelmäßig verwendet und gesichert
werden müssen. Lässt sich die Aktualisierung vereinfachen, wie ist die Verfügbarkeit zu erhöhen?
Ebenso relevant ist es festzulegen, zu welchem Zeitpunkt sich Daten nicht mehr im täglichen Zugriff
befinden müssen und in eine Langzeitarchivierung überführen lassen. Auch hinsichtlich der
langfristigen Speicherung und der Sicherheit der Daten sind Überlegungen anzustellen. Die klare
inhaltliche Unterscheidung zwischen Backup und Archivierung hilft dabei, diese Fragen individuell
für jedes Unternehmen zu beantworten.
Archivierung bezieht sich dabei nicht nur auf gedruckte oder elektronische Dokumente, sondern
auch auf Daten, die strukturiert in relationalen Datenbankmanagementsystemen gespeichert werden.
Auch diese sind langfristig zur Wiederverwertung aufzubewahren. Die Datenbankmanagementsysteme
betrachten Archivierung als Datensicherung und geben dann die Kontrolle über diese "archivierten"
Daten auf. Bei der Archivierung sind die Daten mindestens zehn Jahre, häufig aber auch über einen
weit längeren Zeitraum lesbar zu speichern. Typischerweise werden Daten, die archiviert sind und
für die in der Datenbank kein Bedarf mehr besteht, aus der Datenbank gelöscht. Dadurch ergibt sich
eine schlankere Datenbasis, und die Performance der Zugriffe auf die Datenbank steigt. Gleichzeitig
sinken die Kosten für Speicherplatz und Administration.
Eine wichtige Eigenschaft der Datenbankarchivierung ist die Beachtung relationaler
Abhängigkeiten und die Unterstützung veränderter Strukturen. Diese gewährleistet, dass Daten im
Archiv konsistent zum verwendeten Datenbankschema sind. Gerade weil Datenbanken über einen längeren
Zeitraum zum Einsatz kommen, sind Änderungen, beispielsweise in der Struktur oder auch in Bezug auf
die Semantik, fast unvermeidlich. In den meisten Unternehmen ändert sich die Datenbankstruktur über
einen Zeitraum von mehreren Jahren hinweg sogar recht häufig. Zu den strukturellen Änderungen
gehören beispielsweise umbenannte Tabellen oder neu hinzugefügte Spalten. Auch kann es immer wieder
vorkommen, dass vorhandene Spalten gelöscht werden. Bei den semantischen Änderungen fallen
Namensänderungen von Städten, Abteilungen oder Werken an. Solche speziellen Veränderungen erfordern
eine manuelle Unterstützung durch den Administrator. Jedoch lassen sich bei der Archivierung von
Datenbanken syntaktische und semantische Änderungen identifizieren und im Archiv
protokollieren.
Unterstützt die Datenbankarchivierung solche Anforderungen, kann die Datenbank beim Restore in
ein vom Anwender gewünschtes Datenbankschema geladen werden und ist so benutzerfreundlich und
schnell zu durchsuchen oder in eine aktuelle Anwendung importierbar. Um dies zu ermöglichen, müssen
die Archivdaten technisch von der Originalstruktur der eingesetzten relationalen Datenbank gelöst
und in einem offenen, textbasierenden Format gespeichert sein. Das offene Format lässt sich dabei
mit Standardalgorithmen komprimieren, um Plattenplatz zu sparen. Ein Datenbankmanagementsystem ist
dann nicht notwendig, um die Daten zu verwalten, sie zu recherchieren oder aufzurufen.
Damit ist ein einheitlicher Zugriff auf die archivierten Daten realisierbar, selbst wenn sich
die Datenbank über Jahre oder Jahrzehnte hinweg kontinuierlich verändert hat oder verändern wird.
Durch die Verwendung eines offenen Formats ist der Anwender langfristig unabhängig von einem
bestimmten Softwareanbieter. Die Daten stehen ihm uneingeschränkt und dauerhaft für Recherchen zur
Verfügung. Verwendet die Datenbankarchivierung dagegen ein proprietäres Format, besteht die Gefahr,
dass im Lauf der Jahre Produkte und Hersteller vom Markt verschwinden und die Software nicht mehr
weitergepflegt wird. In diesem Fall wäre der Zugriff auf die archivierten Datenbanken
möglicherweise nach einer gewissen Zeit nicht mehr gegeben.
Für die reinen Archivdaten eignet sich – wie erwähnt – ein textbasierendes Format. Die
Verwendung von XML ist empfehlenswert für die Metadaten, weil hier die anfallenden Datenmengen
nicht so groß sind und XML für die Anwender durch die selbstbeschreibende Eigenschaft leicht zu
lesen ist. Zu den Metadaten der archivierten Daten zählen Informationen über Tabellen und Spalten
sowie Constraints, Grants und Indizes, die sich somit wieder vollständig rearchivieren lassen.
Werden die archivierten Metadaten der Archive dazu genutzt, Änderungen in der Datenstruktur zu
beschreiben, sind die Daten auch über mehrere Datenbankentwicklungssprünge hinweg nutzbar.
Unterschiedliche Schemata lassen sich andernfalls nicht gemeinsam behandeln.
Die hinterlegten Metadaten bieten die Möglichkeit, das aktuelle Schema der Datenbank zu prüfen.
Bestehen Inkonsistenzen, sollte die Software automatisiert Vorschläge unterbreiten, wie sich die
Archivdaten in das neue Schema importieren lassen. In Bezug auf die Langzeitarchivierung stellen
die Architektur der Datenbankarchivierung und die Verwendung technischer Standards besonders
wichtige Kriterien dar. Die Datenkonsistenz bei Archivierungs- und Wiederherstellungsvorgängen muss
jederzeit gewährleistet werden, und auch das Wiederherstellen der Daten im Produktivsystem selbst
sollte realisierbar sein, um den Anwendern ein komfortables Arbeiten zu ermöglichen.
Von Vorteil ist es, die Datenbanken kontinuierlich und inkrementell zu archivieren. Dann stehen
beim Archivierungsvorgang nur die Daten zur Sicherung an, die seit dem letzten Archivlauf neu
hinzugekommen sind. Mit der inkrementellen Archivierung lässt sich zum einen Plattenplatz sparen,
zum anderen lassen sich bestimmte Daten auch schnell auswählen und flexibel wiederherstellen.
GDPdU, GoBS, Basel II und die FDA führen dazu, dass die in relationalen Datenbanken
vorzuhaltenden Datenmengen erheblich ansteigen. Zu speichern sind neben den steuerrechtlich
relevanten Daten auch Qualitätssicherungsdaten, Prozess- und Produktionsdaten sowie auch
Verwaltungsdaten von Drittsystemen wie die Indexdaten aus einem Content-Managementsystem. Die
Massendaten werden in den Produktivsystemen abgelegt, wodurch der Umfang der Datenbanksysteme mit
hoher Geschwindigkeit wächst. Nutzt der Anwender die üblichen Sicherungsmechanismen für Datenbanken
und legt Indizes für schnelle Zugriffe auf die Daten an, so erreicht der Speicherbedarf in vielen
Unternehmen schnell mindestens das Dreifache der eigentlichen Nutzgröße. Diese Daten lassen sich
bei der Datenbankarchivierung sichern und dann aus dem Produktivsystem entfernen, da sie sich nicht
mehr ändern.