Kopal verhindert Datenschwund Wie digitale Daten über längere Zeiträume archiviert werden sollen, ist noch unklar. Das Projekt Kopal (Kooperativer Aufbau eines Langzeitarchivs digitaler Informationen) entwickelt derzeit sichere Verfahren.
Immer öfter sind digitale Objekte physisch nicht mehr greifbar oder können nicht für die aktuelle technische Arbeitsumgebung decodiert werden. Ziel des Projekts Kopal (Kooperativer Aufbau eines Langzeitarchivs digitaler Informationen, www.kopal.langzeitarchivierung.de) ist daher die Entwicklung eines kooperativ erstellten und betriebenen Archivsystems für digitale Dokumente als Lösung für ihre Langzeiterhaltung und Langzeitverfügbarkeit. Eine solche Lösung ist dringend nötig, denn das rasante Wachstum der elektronischen Veröffentlichungen hat die Aufgaben von Bibliotheken und Archiven massiv erweitert. Für die elektronischen Materialien werden geeignete Langzeit-Speichermöglichkeiten benötigt. Bisherige Systeme erfüllen die Anforderungen an vertrauenswürdige digitale Archive nicht oder nur teilweise. Ein geeignetes Archivsystem für Online-Publikationen muss vor allem zwei Anforderungen erfüllen: – Es muss die binären Daten erhalten, denn kein existierender Datenträger ist ewig oder auch nur langfristig genug haltbar. – Es muss den rasanten Technologiewechsel kompensieren oder abbilden, der den Zugriff auf alte Datenformate erschwert. Ständig kommen neue Formate auf, während bisherige obsolet werden. So entstehen komplexe Abhängigkeiten von aktueller Soft- und Hardware. Prinzipiell bieten sich dafür die Verfahren Migration und Emulation an. Bei der Migration konvertiert man periodisch alte Dateiformate rechtzeitig in aktuellere Formate. Problematisch bei diesem Verfahren ist ein möglicherweise nicht erkannter Verlust von Informationen. Die Migration eignet sich gut für große Datenmengen und dürfte vor allem für eher statische Formate die vernünftigste Strategie sein. Bei der Emulation werden auf einem aktuellen System Daten und Programme nachgestellt, die ursprünglich für ein anderes System bestimmt waren. Dies kann sehr aufwändig sein. Vorteil der Emulation ist jedoch, dass sie die Features komplexer Formate (z.B. Multimedia-Anwendungen oder Web-Sites) auf lange Zeit nutzbar halten kann. In der Praxis kombiniert ein Archivsystem zur Langzeiterhaltung und dauerhafte Verfügbarmachung digitaler Publikationen beide Verfahren.
Aufbau von Kopal
Kopal startete Mitte 2004. Das Projekt wird noch bis Mitte 2007 vom Bundesministerium für Bildung und Forschung (BMBF) gefördert. Den systemtechnischen Kern des Archivsystems bildet das von IBM in Zusammenarbeit mit der Königlichen Bibliothek der Niederlande (KB) entwickelte Digital Information Archiving System (DIAS), das wiederum auf Standardsoftwarekomponenten aufsetzt. Innerhalb des Projekts werden zum Teil sehr heterogene digitale Materialien der Deutschen Nationalbibliothek (DNB) und der Niedersächsischen Staats- und Universitätsbibliothek (SUB Göttingen) automatisch aufbereitet und in das Archiv eingestellt. Der technische Betrieb des Systems ist ausgelagert und bei der Gesellschaft für wissenschaftliche Datenverarbeitung Göttingen (GWDG) angesiedelt. Der Partner IBM Deutschland ermöglicht eine professionelle Anpassung der Software und bietet eine langfristig stabile Unterstützung. Im internationalen Rahmen arbeiten die Projektpartner eng mit der Königlichen Bibliothek der Niederlande zusammen und entwickeln gemeinsam Anforderungen an künftige Weiterentwicklungen von DIAS. Wie werden die Ansprüche an Nachnutzbarkeit und Nachhaltigkeit des Systems eingelöst? Grundsätzlich ist es darauf ausgerichtet, die langfristige Verfügbarkeit der eingespeisten Materialien durch Migrations- und Emulationsprozesse abzusichern. Es gibt keinerlei Einschränkungen für die Art des Materials, welches in das Archiv eingespielt werden kann (Text, Bilder, Audio, Video) und für die möglichen Dateiformate. Obwohl Kopal für den Projektzeitraum eine begrenzte Gesamtkapazität hat, ist die Größe des einzelnen Archivobjekts nicht begrenzt. Jeder der Partner ist völlig frei in der Auswahl und Regelfestlegung beim Einspielen der von ihm gesammelten Objekte. Anwender können das System als Mandant mit einem eigenen »Schließfach« nutzen, also mit abgesichertem Speicherplatz und eigener Verwaltung der Daten. Diese Lösung ist besonders geeignet für Institutionen mit geringerem Materialaufkommen. Andererseits sollen Anwender später selbst die Kopal-Lösung nutzen können, indem sie das DIAS-System installieren.
Standards sind entscheidend
Ein entscheidendes Element für die Nachnutzbarkeit ist der Einsatz von etablierten Standards, besonders für den Transfer der Objekte in das digitale Archiv über standardisierte Formate, Transportwege und Schnittstellen. Eine Voraussetzung dafür ist die persistente Adressierung der Objekte. Sie ist eine verpflichtende Voraussetzung für die Archivierung in Kopal. Für den Transfer selbst hat das Projekt das Universellen Objektformat entwickelt (siehe Bild), mit dem digitale Objekte zusammen mit Metadaten archiviert und zwischen Institutionen und Systemen ausgetauscht werden können. Das Format wiederum setzt auf anderen existierenden und weltweit akzeptierten Standards auf und sichert so die Nachnutzbarkeit der im Archivsystem gespeicherten Objekte. Außerdem wurde die DIAS-Software durch flexible Module erweitert, die bereits in einer Beta-Version als Kopal Library for Retrieval and Ingest (koLibRI) unter einer Open Source Lizenz veröffentlicht wurden. Aufgabe dieser Tools ist das Einspielen von Objekten in DIAS sowie der Zugriff auf die archivierten Objekte. Die Systementwicklung wird dabei so offen angelegt, dass eine Ausdehnung der kooperativen Nutzung auf weitere Nachnutzer aus dem Kreis aller Gedächtnisorganisationen wie Bibliotheken, Archive und Museen und darüber hinaus möglich ist.
Bisheriger Projektverlauf und Perspektive
Kopal befindet sich derzeit inmitten der Entwicklungs- und Implementierungsphase. 2006 wurde das aus den Parametern des erfolgreich getesteten Referenzsystems abgeleitete eigentliche Produktivsystem aufgesetzt. Bereits im ersten Durchgang haben die Projektpartner DNB und SUB über 30000 zu archivierende Dokumente in das bei der GWDG gehostete System eingespielt. Weitere Einspielungen (unter anderen auch CD-ROMs und DVDs als Images nach ISO 9660) sollen das System zunehmend an die Bedingungen des Echt- und Massenbetriebs heranführen. Zunächst werden anhand vieler Objekte in verschiedenen Formaten die Möglichkeiten der praxisnahen Nutzung von Kopal aufgezeigt. In einem nächsten Schritt werden die in Kopal entwickelten Arbeitsabläufe prinzipiell an die Erfordernisse eines künftig routinemäßig laufenden Einspielbetriebs in den Bibliotheken angepasst. Derzeit und bis zum Ende der Laufzeit des Projektes entstehen Komponenten für Administration und Prozessmonitoring im Archivsystem. Gleichzeitig werden die Voraussetzungen geschaffen, um in Kopal Migrations- und Emulationsprozesse durchzuführen, die eine langfristige Interpretierbarkeit der archivierten Dokumente sicherstellen.
Reinhard Altenhöner ist Abteilungsleiter Informationstechnik der Deutschen Nationalbibliothek in Frankfurt am Main und Gesamtprojektleiter für das Projekt Kopal.