Herkulische Anstrengungen nötig

Herkulische Anstrengungen nötig Seit 29.6.2006 muss die Deutsche Nationalbibliothek auch nicht, private digitale Veröffentlichungen langfristig archivieren und zugänglich machen. Ariane Rüdiger sprach mit Dr. Ute Schwens, Haus-Direktorin der Deutschen Nationalbibliothek in Frankfurt und Ständige Stellvertreterin der Generaldirektorin, über Stand und Zukunft des Mammutprojekts.

Autor: Redaktion connect-professional • 30.3.2007 • ca. 3:45 Min

Ute Schwens, Deutsche Nationalbibliothek, Frankfurt

Frau Schwens, wie weit ist bei der Deutschen Nationalbibliothek die Archivierung öffentlichkeitsrelevanter digitaler Inhalte, insbesondere des deutschen Web, gediehen?
Auf der Ebene der Gesetzgebung wird durch den Beauftragten für Kultur und Medien (BKM), Bernd Neumann, der Staatssekretär beim Bundeskanzleramt ist, gerade die nötige Verordnung erarbeitet, die das Gesetz konkretisieren soll. Im Januar lief der Abstimmungsdurchgang mit den involvierten Ministerien. Es folgt noch eine Anhörung der relevanten Verbände. Anschließend soll die Verordnung verabschiedet werden. Praktisch finden schon länger Detailarbeiten statt. Die Deutsche Nationalbibliothek sammelt schon seit dem Jahr 2000 elektronische Publikationen diverser wissenschaftlicher Verlage und bestimmter Universitäten. Zudem laufen diverse technische Entwicklungsprojekte. Um unsere Aufgabe wirklich zu erfüllen, brauchen wir aber erst die Verordnung. Sie wird dann in detaillierte Anweisungen, Satzungen oder Verfahren umgesetzt. Geplant ist ein Verfahrenskatalog mit aktiven Verfahren, bei denen wir beliefert werden, und passiven, bei dem der Lieferant der Daten uns nur Zugänge bereitstellt.

Was ist mit Publikationen, die als Printprodukt und online erscheinen, wobei sich das Online- und Printprodukt im Detail unterscheiden können?
Hier archivieren wir beides.

Gehen Sie davon aus, dass der Print-Input auf Dauer durch zunehmende Digitalisierung abnimmt?
Wir hoffen es, aber bisher ist davon wenig zu spüren. Unsere beiden Institute in Leipzig und Frankfurt archivieren jährlich rund 250000 gedruckte Stücke.

Der digitale Input dürfte gegenüber dem gedruckten wesentlich unübersichtlicher sein.
Das ist richtig. Wir befinden uns hier absolut am Anfang einer Entwicklung, weshalb wir auch noch keine Sanktionen verhängen, wenn ein Verlag seiner Lieferpflicht noch nicht genügt. Viele Fragen sind noch nicht geklärt.

Welche?
Zwei wichtige sind die Update-Zyklen und die Abgrenzung zwischen Publikationen mit und solchen ohne öffentliches Interesse. Hinsichtlich der ersten Frage sind wir vergangenen Herbst auf den Verlegerverband zugegangen. Wir haben verabredet, uns in diesem Jahr zusammenzusetzen. Bei Zeitungen möchten wir einen Harvest-Durchlauf pro Tag zu einer bestimmten Uhrzeit, wobei wir von den Verlagen entsprechende Zugriffsrechte bekommen müssen. Die Abgrenzung von privat und öffentlich ist sehr schwierig. Derzeit ist Konsens, dass alles, was ein Impressum hat, eher öffentlich als privat ist.

Was ist mit Blogs, etwa von Journalisten, oder mit Firmenwebsites, auf denen zum Beispiel Fachartikel publiziert werden?
Im Detail lässt sich das noch nicht beantworten. Was Firmenseiten angeht, haben wir vor, die dort vorhandenen redaktionellen Materialien zu archivieren, wenn sie so angeboten werden, dass das mit vertretbarem technischem Aufwand machbar ist. So ähnlich müsste man das wohl auch für Blogs beantworten. Wir haben allerdings keinerlei Möglichkeit, alles zu kontrollieren.

Also kein General-Harvest von .de?
Man kann durchaus daran denken, vor allem, wenn die Technik für das Handling des gesamten Web einfacher wird. Wenn man zum Beispiel zweimal im Jahr die komplette .de-Domain archivieren würde, gewänne man wenigstens einen Schnappschuss der aktuellen Entwicklungen im Web. Allerdings ist .de mit zehn Millionen Webadressen die zweitgrößte Domain der Welt. In den USA gibt es ja bereits ein großes Internet-Archiv, und die europäischen Staaten machen sich über das Thema Gedanken Am 20./21. April werden wir hier im Institut eine europaweite Tagung zum Thema Langzeitarchivierung digitaler Inhalte veranstalten.

Wie sammeln Sie heute die digitalen Daten?
Heute beschränken wir uns auf einige wichtige Publikationen, Universitäten und wissenschaftliche Gesellschaften als Quellen. Einige Verlage liefern uns Daten per ftp-Load auf unsere Server. Harvesting, also der gezielte Zugriff auf andere Server mit Zustimmung des Eigentümers, kommt irgendwann. Das wollen wir dann langsam ausweiten auf immer mehr Publikationen.

Wie viel Speichervolumen erwarten Sie für 2007?
Derzeit sammeln wir Daten nur im Rahmen des Kopal-Projekts, derzeit etwa 90 TByte. Eine Aufstockung um weitere 100 TByte wird diskutiert. Jährlich kommt, wenn man nur wissenschaftliche Texte nimmt, ein einstelliges Terabyte-Volumen zustande.

Was ist mit der Erschließung der gespeicherten Daten? Wird man sie zum Beispiel im Web recherchieren können?
Die Informationen über unsere Bestände sollten auf jeden Fall online im Internet recherchierbar sein. Was die Bestände selbst angeht, ist das nicht so sicher. Hier wird vieles zumindest vor Ort am Rechner zugänglich gemacht werden müssen. Wir arbeiten hart daran, Lösungen zu entwickeln, zum Beispiel kooperieren wir mit Wikipedia. Aber hier gibt es noch viele offene Fragen. So müssen die Daten immer mit allen nötigen Metadaten geliefert werden, damit man etwas mit ihnen anfangen kann. Wir arbeiten mit den großen Datenlieferanten wie Verlagen, Universitäten oder wissenschaftlichen Gesellschaften gerade an geeigneten Methoden der Datenlieferung. Die Zukunft wird wohl der Volltextrecherche gehören, ergänzt um weitergehende Mechanismen, die das Suchfeld eingrenzen. Ein Beispiel dafür ist Google Scholar. Das System sorgt dafür, dass Antworten, die nicht zur thematischen Ausrichtung der Anfrage passen, draußen bleiben.

Wie groß ist das Budget, das Ihnen zur Verfügung steht?
Für die nächsten fünf Jahre wurden uns jeweils zwei Millionen Euro zugesagt. Davon fließen jährlich rund 1,1 Millionen Euro in Personalmittel, der Rest in Technik und andere Ausgaben. Wir bekommen 21 Personalstellen, die wir mit Mitarbeitern unterschiedlicher Qualifikation füllen werden. Wir brauchen unter anderem Bibliothekare und Informatiker.

Das klingt eher spärlich.
Immerhin lässt sich so das Projekt auf eine solide personelle Basis stellen. Außerdem können wir zusätzlich Projektmittel für Kopal und andere Projekte beantragen.