Überall XML
Um eine zukunftsweisende Technologie für die Erfassung, Verschlagwortung und Ablage der Patentdokumentation zu definieren, mussten einige Voraussetzungen erfüllt werden: Zum einen legten die IT-Verantwortlichen für die Beschreibung der textcodierten Dokumente die Metasprache XML (Extensible Markup Language) fest. Zum anderen mussten sie das Archivsystem auf die Umstellungen vorbereiten. Dazu zählte beispielsweise die Umwandlung der vorhandenen Volltextdaten aus dem Datimtex-Format in ein XML-Format. Über alle Funktionen des Archivsystems hinweg nahm der IT-Dienstleister eine Anpassung der Datenimport- und -exportverfahren vor. Nur so ließ sich die laufende Übernahme neuer Dokumente im Volltext sicherstellen. Im Rahmen dieser Umstellungen erweiterte das Implementierungsteam auch die Schnittstelle, über die Anwender aus dem Internet Patentdokumentationen recherchieren können, auf das XML-Format. »Für uns war es wichtig, alle Umstellungen ohne wesentliche Betriebsunterbrechung von Depatis durchzuführen«, betont Albertshofer. Gemeinsam mit dem IT-Dienstleister hat das Amt den kompletten Archiv-Bestand dann an nur einem Wochenende auf XML umgestellt.
OCR-Lösung
Millionen von Patentdokumentationen lagen nur als Bilddatei im Tiff-Format vor. Um diese Dokumente über die Volltextrecherche auffindbar zu machen, mussten sie ein OCR-Verfahren durchlaufen. Der Dienstleister entwickelte dieses auf der Basis der Zeichenerkennungs-Software Fine Reader des Herstellers Abbyy. Da diese Software mit einer Lösung für die automatische, intelligente Nachbearbeitung der OCR-Ergebnisse kombiniert ist, weisen die so verarbeiteten Patentdokumentationen eine sehr hohe Ergebnisqualität auf. Dies macht aufwändige und teuere manuelle Nachbearbeitung überflüssig. Zum Einsatz kommen dabei sieben Rechner des Typs HP Proliant DL320 Server mit einem Durchsatz von 4500 Seiten pro Stunde. Das entspricht einer Umwandlung von bis zu 40 Millionen Seiten pro Jahr. Aufgrund dieser leistungsfähigen Lösung konnte der komplette deutsche Dokumentenbestand bis Juni letzten Jahres vollständig erfasst werden.
Effiziente Prozesse
Zusätzlich zur Integration der per OCR umgewandelten Dateien wurden auch weitere Informationen in das System übernommen: Neben den Volltexten US-amerikanischer Patentdokumente und Veröffentlichungen der Welt-Patent-Organisation zählen dazu auch Datenbestände aus Großbritannien und Frankreich. Insgesamt profitieren heute die Anwender ? sowohl innerhalb als auch außerhalb des DPMAs ? von einer umfassenden und schnellen Suche in Millionen von Dokumenten.
Andrea Wiedemer ist Journalistin in München.