IT in Zeitungshäusern (Fortsetzung)

Autor: Redaktion connect-professional • 25.5.2005 • ca. 2:00 Min

Inhalt

IT in Zeitungshäusern
IT in Zeitungshäusern (Fortsetzung)
IT in Zeitungshäusern (Fortsetzung)

225 Jahrgänge elektronisch archiviert
Mit einem anderen Kosten- und Performance-Problem hatte die NZZ zu kämpfen. Um den gesamten Artikelbestand aus 225 Jahren Verlagsgeschichte für Recherchen online verfügbar zu machen, benötigte das Unternehmen eine rundum neue Archivinfrastruktur. Seit der ersten Ausgabe im Jahr 1870 erschienen über zwei Millionen Zeitungsseiten. Das bedeutet immense Datenmengen. Rolf Brun, Informatik-Leiter der NZZ, schätzt den Speicherbedarf auf insgesamt fast zehn TByte.
Die vergleichsweise teuren Disk-Arrays, auf denen zum Beispiel das SAP-System der NZZ-Gruppe die Daten speichert, wären für ein solches Archiv nicht wirtschaftlich: Die Daten werden nach der Speicherung nur noch gelesen und nicht mehr verändert - ein direkter Schreibzugriff ist also unnötig. Bänder oder andere Wechselmedien waren ebenfalls ungeeignet: Eine brauchbare Online-Recherche braucht schnellen Lesezugriff auf die gesamte Datenbasis.
Dieser Herausforderung begegnet die NZZ mit dem Storage-System Centera von EMC. Die Lösung bietet hochverfügbaren, schnellen Online-Zugriff auf große Fixed-Content-Datenbestände bis zum Petabyte-Bereich. Brun: »Die Lösung trifft genau unser Problem - mit konventioneller Speichertechnologie wäre das Archiv wesentlich kostspieliger geworden.«
Da keine manuelle Nacherfassung älterer Ausgaben nötig war, setzte man bei der NZZ von Anfang an auf weitgehende Automatisierung. Die Geschäftsleitung der NZZ-Gruppe wie auch das Informatik-Team um Rolf Brun hatten bereits Kontakt zum Institut für Medienkommunikation (IMK) der Fraunhofer-Gesellschaft im nordrheinischen Sankt Augustin. Es bot der NZZ seine Unterstützung beim Aufbau einer Prozesskette für das Projekt »Archiv 1870« an. Gemeinsam mit dem Dienstleister Scanplex nahm das IMK-Kompetenzzentrum Netmedia im Herbst 2004 die vollautomatische Digitalisierung von 1503 Mikrofilmen in Angriff.

Alte Texte - Aufwändige Texterkennung
Zunächst mussten die eingescannten Seiten in maschinenlesbaren Text umgewandelt werden. Das wurde durch die schlechte Papier- und Druckqualität und die Frakturschrift, die bis 1946 als Zeichensatz zum Einsatz kam, erschwert. Letztere wird nur von wenigen Texterkennungsprogrammen (OCR) erkannt. Im Finereader XIX von Abbyy fand man schließlich eine geeignete Standard-Software. Die Erkennung einer Seite dauert zwei Minuten. Deshalb betreibt das IMK dafür einen Windows-Cluster mit 20 PCs.
Das IMK übernimmt auch die Programmierung der Web-Zugriffssoftware auf das Archiv. Es setzt dabei auf offene Standards und Open-Source-Software. Am Ende des Umstellungsprozesses werden sämtliche Seiten fertig aufbereitet als PDF zur Verfügung stehen - zunächst intern als Rechercheinstrument für die hauseigenen Redaktionen, in einem zweiten Schritt auch für die Öffentlichkeit.
Derzeit denkt die NZZ über neue Projekte zur effizienteren Datenverwaltung nach. Bruno Friedli, Leiter System-Support sagt: »Wir werden im Rahmen einer Migration von Exchange 5.5 auf Exchange 2003 ein E-Mail-Archiv mit EMC Email Xtender realisieren und als Zielsystem die Centera einsetzen. Mittelfristig sehen wir weitere Möglichkeiten: Seit 1999 scannen und speichern wir zum Beispiel alle Rechnungsbelege gesetzeskonform in einem Ixos-Archiv. Bisher setzen wir dafür optische Wechselmedien ein - auch diese ließen sich direkt auf die Centera abbilden.« Till Stüve ist freier Autor in Wiesbaden.