Xerox entwickelt Datenspürhund
Die Suche nach Informationen, die in elektronischer Form vorliegen, erleichtert eine neuartige Suchmaschine von Xerox. Sie durchforstet Dokumente, und zwar unabhängig von der Sprache, in der sie verfasst wurden, und dem Format.
Frédérique Segond, Wissenschaftlerin am Xerox-Forschungszentrum in Grenoble: »Herkömmliche Suchtechniken haben nur eine Trefferquote von 40 Prozent.«
Entwickelt wurde die Technik namens »Factspotter« am Xerox Research Center Europe (XRCE) in Grenoble (Frankreich). »Unsere Suchmaschine arbeitet genauer als herkömmliche Verfahren«, sagt Frédérique Segond, Wissenschaftlerin am Xerox-Forschungszentrum. »Factspotter berücksichtigt nicht nur Schlüsselwörter, sondern den Kontext, in dem sie auftauchen.«
Ein Bespiel: Ein Nutzer such Informationen zur Schauspielerin Angelina Jolie und gibt deren Namen in die Suchmaske ein. Herkömmliche Search-Engines liefern als Resultat nur Dokumente und Bilder, in denen zumindest einer der beiden Begriffe (»Angelina« oder »Jolie«) auftaucht.
Factspotter listet auch Fundstellen auf, in denen Jolie nur mit dem Pronomen »sie« (die Actrice) benannt ist. Laut Frédérique Segond finden herkömmliche Suchmaschinen oder Data-Mining-Produkte nur etwa 40 Prozent aller relevanten Informationen, weil Key Words eine zu starke Limitierung darstellen.
Nur relevante Informationen werden dargestellt
Die Software von Xerox bietet jedoch noch eine Reihe anderer Vorteile, so zumindest die Entwickler. So kann der Nutzer Fragen in natürlicher Sprache formulieren. Er muss sich nicht mit Dingen wie Booleschen Operatoren abgeben.
Zudem liefert die Suchtechnik nur diejenige Passage eines Dokuments als Suchresultat, das die Suchkriterien erfüllt, nicht den gesamten Kontext beziehungsweise das komplette Dokument. Auch mit abstrakten Begriffen wie »Leute« oder »Gebäude« kann Factspotter umgehen.
Xerox wird Factspotter voraussichtlich im nächsten Jahr im Rahmen der »Xerox Litigation Services« anbieten. Sie offerieren Anwälten und Rechtsbehörden »Electronic-Discovery«-Services. Diese filtern spezielle Begriffe aus Tausenden von Dokumenten heraus.
Denkbar sind aber auch andere Einsatzszenarien, etwa in Behörden, Patentämtern oder Großunternehmen. Bekanntlich kommt es in Firmen häufig zu Parallelentwicklungen von Technologien oder Produkten, einfach deshalb, weil die eine Hand nicht weiß, was die andere gerade tut.