Backup und Archivierung haben innerhalb der IT grundsätzlich unterschiedliche Funktionen. Die Archivierung soll Dokumente, Dateien und E-Mails so abgespeichern, dass sie auch nach mehreren Jahren schnell und mithilfe von Suchkriterien wieder auffindbar und vor allem lesbar sind Außerdem muss dabei die Echtheit der Dokumente sichergestellt sein. Mit einem Backup will ein Unternehmen Daten eines bestimmten Zeitpunkts möglichst schnell wieder verfügbar haben. Bei der Umsetzung von IT-Konzepten in diesen Bereichen ist deshalb auf ganz unterschiedliche Aspekte zu achten.
Bei Archivierungsprojekten sollte vorab feststehen, was damit mittel- und langfristig erreicht
werden soll. Ein Unternehmen kann damit zum Beispiel mehr Effizienz oder aber die Einhaltung
rechtlicher Vorschriften ("Compliance") bezwecken. So muss zum Beispiel ein Dokument oder eine
digitale Zeichnung aus dem Anlagenbau für einen Mitarbeiter an seinem Standort sofort verfügbar
sein, wenn er den Auftrag erhält, diese Anlage weiterzuentwickeln. Er benötigt dafür die aktuellste
Version dieser Datei und Informationen darüber, in welchen Punkten und durch wen die Zeichnung in
den letzten Jahren bearbeitet wurde. Wenn die Zeichnung nicht digitalisiert ist und nur in
Papierform an einem anderen Standort vorliegt, kann er nicht effizient arbeiten. Aber auch, wenn
sie in digitalisierter Form vorliegt, jedoch nicht nicht klassifiziert und mit eindeutigen
Merkmalen versehen ist, wird es schwierig, alle benötigten Informationen zusammenzustellen. Bei der
Suche auf Fileservern ist es meist nicht möglich, wenn mehrere Varianten einer Zeichnung vorliegen,
problemlos die aktuellste und zuletzt bearbeitete herauszufinden. Auch die Frage, wer an der Datei
gearbeitet hat, bleibt unbeantwortet.
Das Zusammenstellen von digitalem Content in einer logischen und systematischen Struktur führt
einerseits zu mehr Effizienz und Kosteneinsparungen und kann andererseits auch neue Geschäftsfelder
eröffnen.
Darüber hinaus muss ein Unternehmen Aufbewahrungsfristen für Dokumente berücksichtigen, wenn die
Archivierungslösung revisionssicher sein soll. Gemäß den Paragraphen 239 und 257 im
Handelsgesetzbuch und der Abgabenordnung Paragraph 147 gelten für kaufmännische Dokumente in
Deutschland Aufbewahrungsfristen von sechs bis zehn Jahren. Diese können sich aber in speziellen
Branchen auf 20 (Grundstückswirtschaft) und 30 Jahre (Patientenakten) ausweiten.
Die Grundsätze ordnungsmäßiger DV-gestützter Buchführungssysteme (GoBS) regeln die Behandlung
von Daten in einem "revisionssicheren" Archivsystem. Anhand der Verfahrensdokumentation nach GoBS
muss ein Unternehmen nachweisen, dass es die Anforderungen einhält. Hierbei beschreibt die
Verfahrensdokumentation den Prozess
– der Entstehung,
– der Indexierung,
– der Speicherung,
– des eindeutigen Wiederfindens,
– der Absicherung gegen Verlust und Verfälschung sowie
– der Reproduktion
der archivierten Information.
Hinzu kommen Compliance-Themen bestimmter Wirtschaftsbereiche. So ist beispielsweise in der
Finanzindustrie die Einhaltung der Richtlinien zu Sarbanes-Oxley (SOX), Basel II und Bafin
einfacher nachzuweisen, wenn man auf systematisch archivierten Content zurückgreifen kann.
Bei international operierenden Unternehmen stellt sich oft die Frage, ob es möglich ist, Daten
an einer Stelle zentral zu lagern, oder ob dies gegen jeweiliges Landesrecht oder die
Datenschutzrichtlinien des Landes verstößt. Dies ist ein generelles Problem der Datenspeicherung.
Handelt es sich um Daten, die aus reinen Effizienzgründen archiviert werden, steht einer zentralen
Speicherung nichts im Weg. Bei revisionssicheren Daten muss das Unternehmen Prüfmöglichkeiten
schaffen. Aufgrund unterschiedlicher Rechtslage des Datenschutzes zwischen und in den einzelnen
Ländern sowie der Sicherstellung von Prüfmöglichkeiten in den verschiedenen Ländern entscheiden
sich Unternehmen häufig dafür, geschäftssensible Daten im jeweiligen Land vorzuhalten.
Es gibt im Wesentlichen zwei Möglichkeiten, Dokumente digital zu archivieren. Bei WORM-Lösungen
(WORM: Write Once, Read Multiple Times) sind Jukeboxen, die mit DVDs bestückt werden, im Einsatz.
Die digitale Information ist auf DVDs gebrannt und kann nicht mehr verändert werden. Die zweite
Möglichkeit sind CAS-Systeme (Content Adressable Storage) mit spezialisierten Festplattensystemen.
Die digitalisierten Informationen erhalten hier zur eindeutigen Identifizierung einen Fingerprint,
ein eindeutiges Bitmuster, das der archivierten Datei zugeordnet wird. Dieses Bitmuster ermöglicht,
dass Änderungen sofort erkannt werden und dass dieselbe Datei nicht mehrmals gespeichert wird. Der
weit verbreitete Einsatz von Storage-Systemen, sei es als EInzelsystem oder in Form eines Cluster,s
sowie das ständig steigende Volumen und die Schnelligkeit von Festplattenlaufwerken zeigen, dass
den CAS-Systemen die Zukunft gehört.
Neben den IT-Anforderungen sind zunächst organisatorische Fragen der Archivierung zu klären:
Welche Dokumente sind zu archivieren? Ist auch eine Klassifizierung notwendig, und wenn ja, nach
welchen Merkmalen? Spezielle Archivierungssoftware für Dokumente unterstützt die Indexierung und
Informationsrecherche und vereinfacht die Erfassung mithilfe von Klassifizierungskonzepten.
Weiterhin sollte die Software Schnittstellen zu verschiedenen Standardapplikationen bereitstellen.
Es ist zum Beispiel sinnvoll, Dokumente innerhalb einer Portalanwendung auch mit Bezug auf diesen
Kontext zu archivieren. Allerdings muss die Dokumentarchivierungssoftware ebenfalls in der Lage
sein, das Dokument ohne Kontext bereitzustellen. Bei lange zu speichernden Dokumenten sollte der
Administrator berücksichtigen, dass die zugehörige Anwendung zu einem späteren Zeitpunkt eventuell
nicht mehr zur Verfügung steht. Dies bedeutet, dass er für die Dokumente entsprechende Konverter
oder Viewer benötigt. Konvertierungen in TIFF- und PDF-Formate gelten als zukunftssicher, wobei die
Konvertierung die Metadaten und Suchmöglichkeiten beibehalten sollte.
Für die Umsetzung eines Archivierungskonzepts identifizieren Unternehmen häufig zunächst
Teilbereiche des Unternehmens, in denen Archivierungsprojekte als erstes ausgerollt werden. Die
Archivierung könnte zum Beispiel erst einmal alle erhaltenen und gestellten Rechnungen, alle
Angebote oder die gesamte Eingangs- und Ausgangspost umfassen.
Der organisatorische Ansatz der E-Mail-Archivierung ist nicht so komplex wie bei der
Dokumentarchivierung. Das Volumen der gespeicherten E-Mails kann durch den Einsatz von
Archivierungssoftware um etwa 50 bis 90 Prozent sinken. Dies basiert auf der Annahme, dass das
E-Mail mit Anhang nicht nur an einen, sondern aufgrund von Verteilerlisten an viele Empfänger geht.
Die Archivierungssoftware lässt im Postfach eines jeden Einzelnen einen Verweis (auf die E-Mail)
und speichert die Mail und der Anhang nur einmal zentral ab. Darüber hinaus kann ein Unternehmen
festlegen, dass das System die archivierten E-Mails auf kostengünstigere Speichersysteme verlagert.
Damit verkürzt sich zudem das Backup-Fenster für die E-Mails entsprechend der Verringerung des
Volumens. Fasst man alle Punkte zusammen, rechnet sich bei größeren E-Mail-Anwendungen der Einsatz
von Archivierungssoftware. Hinzu kommt die Compliance-Anforderung, die notwendig macht, E-Mails
über einen entsprechenden Zeitraum zu archivieren.
Während die Archivierung den schnellen Informationsabruf adressiert, geht es beim Thema Backup
um die Speicherung und Wiederherstellung von Daten. Hierbei unterscheidet man technisch zwischen
Dateien und Datenbanken sowie organisatorisch zwischen Backup-Zyklus und Vorhaltung der Daten.
Der einfache Standardfall beschreibt ein volles Backup (Full Backup) pro Woche und zusätzliche
tägliche inkrementelle Backups, wobei der Anwender diese kumulativ oder differentiell ausführen
kann. Bei inkrementellen Backups erhöht sich das Datenvolumen bei einer vollständigen
Wiederherstellung der Daten. Der extreme Fall beschreibt eine Verdoppelung der wiederhergestellten
Daten. Somit eignet sich diese Arbeitsweise vor allem für kleinere Datenmengen. Bei größeren
Datenmengen bleibt aufgrund des limitierten zeitlichen Wiederherstellungsfensters nur ein täglicher
Full Backup. Die Anwendung von "synthetischen Backups" verhindert hierbei, dass täglich die
kompletten Daten vom Client auf die Backup-Landschaft übertragen werden müssen. Stattdessen
erstellen solche Lösungen nach einem initialen Full Backup nur noch inkrementelle Backups, die die
obsoleten Daten im Full Backup ersetzen. Diesen "synthetischen" Full Backup kopiert das System dann
aus dem Cache als physischen Full Backup auf Band. Somit hat der Anwender idealerweise den letzten
Full Backup im Disk-Cache oder den letzten, zeitnahen Full Backup auf Band inklusive aller
Informationen und Daten, die für eine komplette Wiederherstellung nötig sind. Der Weg der
Anwenderdaten in die Tape Libraries erfolgt über Disk-Caches, um so die Performance des
Backup-Vorgangs zu erhöhen. Neben den bandbasierten Systemen finden sich zunehmend reine
Disk-basierte Speichersysteme, die entsprechende Bandsysteme emulieren können (Virtuelle Tape
Libraries).
Beim Backup von Datenbanken muss die Lösung neben dem Erzeugen einer Remote-Kopie der Daten auch
auf deren Konsistenz achten. Typischerweise bringen Datenbanken große Datenmengen mit sich, die
dazu führen, dass der Backup-Lauf entsprechend lange dauert. Zur selben Zeit finden jedoch
Änderungen auf der Datenbank statt, die mit hoher Wahrscheinlichkeit dazu führen, dass
Datenbereiche, die bereits auf das Backup-Medium kopiert sind, geändert werden, während andere
Bereiche der Datenbank, die noch nicht gesichert wurden, bereits die aktuelleren Metadaten
enthalten. Ein solches Backup wäre nutzlos und könnte nicht zu einer funktionierenden Datenbank
wiederhergestellt werden. Um dem entgegenzuwirken, haben die Datenbankhersteller
Online-Backup-Schnittstellen wie den Oracle RMAN (Recovery Manager) entwickelt. Zusammen mit
Schnittstellen zur Backup-Client-Software ist es so möglich, die Daten direkt von der Datenbank auf
das Backup-Medium zu sichern und gleichzeitig durch die Mechanismen eines RMAN alle Daten
mitzusichern, die notwendig sind, um eine Konsistenz im Backup zu gewährleisten.
Möchte ein Unternehmen die Daten einer Woche im Onlinezugriff halten, kalkuliert man mit dem
siebenfachen Volumen des bereits existenten Datenbestands. Mit diesem langen Halten der Daten im
Onlinebestand wollen IT-Leiter logische Fehler einer Applikation oder Datenbank ausschließen oder
zumindest die Möglichkeit dazu schaffen, diese wieder zu beheben. Auch wöchentliche und monatliche
Backups lassen sich länger im Onlinezugriff halten. Häufig lagern Unternehmen aus
Disaster-Recovery-Gründen ihre Datenbänder (etwa des monatlichen Full Backups) in einem Safe an
einem entfernten Standort aus. Das schafft aber auf der anderen Seite Probleme, wenn ältere Daten
wieder benötigt werden, weil die Buchhaltung zum Beispiel auf den vollständigen Rechnungslauf vom
vorigen Jahr zurückgreifen muss. Für solche Fälle wäre eine Archivierungslösung vorteilhaft.
Archivierung adressiert den schnellen Informationsabruf, während beim Backup die
Wiederherstellung des Datenbestands zum Zeitpunkt X innerhalb eines möglichst kurzen Zeitfensters
im Vordergrund steht. Durch den konsequenten Einsatz von Archivierung kann man das Backup-Volumen
verringern. Allerdings steht vor einer sinnvollen Archivierung, die nicht nur zeitliche Aspekte
berücksichtigt, immer eine Klassifizierung der Daten. Ein langes Vorhalten von Backup-Medien
ersetzt nicht die Archivierung. Viele machen den Fehler, Backups über viele Jahre aufzubewahren und
von Archivierung zu reden.
Während heute das Thema Backup in den Unternehmen erfolgreich umgesetzt ist, liegt im Bereich
Archivierung erhebliches Potenzial, IT effizienter zu gestalten.