Intelligente Suchfunktionen für Dokumente

Klar erkannt

24. November 2007, 15:53 Uhr |

Recherchemechanismen haben einen generellen Nachteil: Sie operieren über Zeichen oder Zeichenfolgen, die zusammenhanglos nebeneinander stehen. Entsprechend dünn fallen die Ergebnisse aus. Schon kündigen sich intelligentere Such- und Erkennungsmethoden an. Sie liefern schneller deutlich bessere Resultate.

Das »Xerox Research Center Europe« in Grenoble arbeitet fieberhaft an einer intelligenteren Suche. Das Ziel der Wissenschaftler: per Software den Satzaufbau zu erkennen, um darüber die Bedeutung von Wörtern, Textelementen bis hin zu kompletten Sätzen aufzuschlüsseln. Eine Trefferquote von mehr als 90 Prozent wird schon erreicht.

Selbst eine Inhaltserkennung über mehrere Sätze funktioniert. Die softwaregestützte Textanalyse greift für Englisch, Deutsch, Französisch und Spanisch. Dafür wurden in den Programmen umfassende digitale Dictionaries in der jeweiligen Sprache hinterlegt. Sie sind Lexikon, Semantik-Wörterbuch und Grammatik in einem.

Die Trefferquote ließ sich sukzessiv über ein Spracherkennungs-/-ausgabemodul am Rechner erhöhen. Das System gibt Vorschläge aus und fragt auf »logisch« oder »nicht logisch« ab. Der Wissenschaftler antwortet, und das System lernt dazu. In gleicher Weise wird per Picture-Spotting Textstrukturen und Bildelementen zu Leibe gerückt.

Das System vergleicht das Gesehene mit den Mustern, Grafiken und Bildern, hinterlegt in einer Datenbank. Im Zweifel fragt es, und der Forscher antwortet. So kommen in der Datenbank immer wieder neue, noch feinere Strukturen hinzu. Das System kann Element für Element komplette Muster, Grafiken und Bilder zusammensetzen, dadurch immer verlässlicher ausweisen.

Die Perspektiven mit der neuen Software sind verheißungsvoll. Über sie wird die geschäftliche Korrespondenz für den Scan-Prozess exakt zugeordnet, anschließend das digitale Dokument automatisch in die richtige Bearbeitungsabfolge eingeordnet werden können. Im Verlauf der Bearbeitungsabfolge kann das Schriftstück gemäß dem Prinzip »see – sort – route« automatisch eingesteuert werden.

Das wird die Dokumentenbearbeitung in den Unternehmen nicht nur beschleunigen. Sie wird dadurch auch deutlich Kosten sparender und fehlerfreier als heute über die Bühne gehen. Auch Dokumentendienstleister werden solche Aufgaben schneller, professioneller, mit geringeren Fehlerquoten und zu niedrigeren Kosten erbringen können.

Diese Vorteile werden sie an ihre Kunden weiterreichen. Vor allem der Kosteneinsparungseffekt für die Unternehmen, die solche automatischen Dokumentenleistungen beziehen, dürfte hoch ausfallen. Die Dienstleister bedienen viele Kunden. Demzufolge werden hier die Investitionen in die intelligente Software deutlich geringer als beim Eigenbetrieb der Firmen zu Buche schlagen.

Daneben zeichnen sich mit der intelligenten Software im Hintergrund weitere Vorteile für die Dokumentenbe- und -verarbeitung ab. Werden Inhalte und Dokumente verlässlich interpretiert, können sie sicher einer bestimmten elektronischen Akte zugeordnet werden. Umgekehrt wird das über eindeutige Links die Suche nach einzelnen elektronischen Unterlagen erheblich beschleunigen. Auch ihre Archivierung könnte bald mit einer selbsttätigen Zuordnung des richtigen Speichermediums und -platzes vollständig automatisch ablaufen. Um sie bei Bedarf ebenso schnell wieder am PC-Bildschirm einzublenden.

Selbst das ist denkbar: Compliance-kritische Inhalte und Dokumente werden eindeutig identifiziert, gezielt abgelegt und bei Bedarf schnell aufgerufen. Inhalte und Dokumente werden automatisch erkannt, zeitgesteuert gespeichert und ebenso zeitgesteuert in laufende Bearbeitungsabfolgen eingespeist.

Bis es soweit ist, bleiben noch Fehlerquellen. Die Trefferquote bei der Erkennung und richtigen Interpretation von Inhalten sollte oberhalb der 98-Prozent-Marke liegen. Daneben bereiten den Wissenschaftlern unleserliche Handschriften, falsche Schreibweisen und eine mangelhafte Grammatik Kopfzerbrechen. Sie werden auch weiterhin eine schwer auszumerzende Fehlerquelle sein.

Gelingt es, die angestrebte Trefferquote zu erreichen, werden weitere Einsatzbereiche von der Software profitieren. Beispiele dafür sind E-Mail-Systeme, Web-Foren, News-Groups, Blogs bis hin zu Suchmaschinen für Business-Intelligence, Inter- und Intranet. Schon 2008 wird es erste Discovery-Lösungen und -Dienstleistungen geben.

So für Anwälte und Rechtsbehörden, die juristische Informationen aus Tausenden von Dokumenten herausfiltern. Die Suchanfragen werden gleich richtig gedeutet, damit nicht länger die sprichwörtliche Nadel im Heuhaufen gesucht werden muss.


Jetzt kostenfreie Newsletter bestellen!

Matchmaker+