Smart-Semantic-Module klinken sich in das UIMA-Framework ein

IBM und Fraunhofer bauen semantische Suchmaschine für den Mittelstand

29. April 2009, 22:58 Uhr |

IBM und das Fraunhofer-Institut IAIS bündeln ihre Kräfte, um semantische Suchverfahren auf Basis maschinellen Lernens auch kleinen und mittelständischen Unternehmen zur Verfügung zu stellen.

Smart Semantics heißt die Technik, die am Fraunhofer-Institut für Intelligente Analyse und
Informationssysteme (IAIS) entwickelt wurde. Es handelt sich dabei um Softwarekomponenten, die
durch modellbasierte Inhaltsanalysen die Bedeutung unstrukturierter Daten wie etwa Webseiten oder
E-Mails erkennen können.

Im Gegensatz zu stichwort- oder regelbasierten Verfahren, wie sie die Internet-Suchmaschinen
klassischerweise nutzen, verwendet Smart Semantics lernende und mustererkennende Verfahren, sodass
nach einer Lernphase auch neuer Content mit einer hinreichend hohen Genauigkeit automatisch
klassifiziert werden kann.

Mehr zum Thema:

http://llschnuerer.cmpdm.de//sites/cz/articles/microsoft-visionaer_mundie_die_rolle_des_pcs_wird_sich_fundamental_wandeln:/2008039/31656996_ha_CZ.html?thes=">Microsoft-Visionär
Mundie: "Die Rolle des PCs wird sich fundamental wandeln"

http://llschnuerer.cmpdm.de//sites/cz/articles/das_internet_der_dienste_knuepft_lueckenlose_wertschoepfungskette:/2009007/31810718_ha_CZ.html?thes=">Das
Internet der Dienste knüpft lückenlose Wertschöpfungskette

http://llschnuerer.cmpdm.de//sites/cz/articles/microsoft_konstruiert_digitalen_assistenten_rund_um_den_nutzer:/2009007/31830114_ha_CZ.html?thes=">Microsoft
konstruiert digitalen Assistenten rund um den Nutzer

Um der Technik den Weg in Anwenderunternehmen zu ebnen, kooperiert das IAIS mit IBM. Deren
Such-Middleware UIMA (Unstructured Information Management Architecture) dient als Framework, in das
sich die Smart-Semantics-Container einklinken lassen.

UIMA ist ein offener Oasis-Standard und zudem als Open-Source-Implementierung auf Apache
verfügbar. "Für uns war die Offenheit, Integrationsfreundlichkeit sowie Zuverlässigkeit des
Frameworks ausschlaggebend", begründet Andreas Schäfer, Business Development Manager am IAIS die
Entscheidung für UIMA.

Thomas Hampp-Bahnmüller, Senior Software Engineer bei IBM Deutschland Research &
Development, sieht die Wahl des Fraunhofer-Instituts als Bestätigung für die Strategie, UIMA als
offene Plattform der Community zur freien Verfügung zu stellen. UIMA wurde maßgeblich im deutschen
IBM-Forschungszentrum in Böblingen entwickelt.

Ab Herbst sollen zunächst drei Smart-Semantics-Module verfügbar sein:

* Site Classifier: Er dient der maschinellen Klassifikation ganzer Dokumente wie etwa
Web-Seiten. Nach einer Trainingsphase kann die Software dann zum Beispiel Produkt- oder
Mitarbeiterseiten als solche erkennen und für eine Suche nutzbar machen ("Zeige alle Seiten, die
den Begriff X enthalten und als Produktseite klassifiziert wurden."). Gegenüber den herkömmlichen
Keyword-basierten Suchverfahren hat die Methode den Vorteil, dass auch neu hinzukommende Dokumente
mit alternativen Begrifflichkeiten aufgrund ihrer Ähnlichkeit zu einem erlernten Modell
klassifizierbar sind. Da auf diese Weise die Pflege von Stichwortlisten oder Heuristiken zur
Klassifikation entfällt, sparen Unternehmen stark an Wartungsaufwand.

* Named Entitiy Recognizer: Das Tool identifiziert benannte Entitäten wie Personen,
Organsisationen oder Orte und ermöglicht dadurch die entsprechende Filterung ("Zeige alle Seiten,
die X und zusätzlich Personennamen enthalten."). Im Gegensatz zu herkömmlichen Verfahren erkennt
die Smart-Semantics-Komponente durch eine Kontextanalyse aber Bedeutungsunterschiede
gleichlautender Begriffe, wie etwa den Unterschied zwischen "Vogel" als Tier und "Vogel" als
Nachname.

* Keyword Extractor: Das Modul extrahiert statistisch signifikante Wörter aus Dokumenten und
stellt diese etwa für Tag-Clouds, Wortvorschläge bei Suchanfragen oder als Zusatzinformation in der
Suchergebnisdarstellung bereit.

Als mächtige Beispielanwendung für maschinenlernende sematische Suchverfahren verweist
IAIS-Mitarbeiter Schäfer auf das Online-Emotionsradar, das vom IAIS auf der diesjährigen Cebit
gezeigt wurde. Der im Rahmen des Theseus-Leuchtturmprojekts entwickelte Demonstrator dient der
Analyse von Emotionen in Online-Foren, die eine zunehmend wichtige Rolle in den Kaufentscheidungen
von Kunden spielen.

Exemplarisch wurde eine mit dem Emotionsradar durchgeführte Analyse zur Automobilbranche
vorgestellt. Hierzu wurde aus etwa einer Million deutschsprachiger Online-Beiträge zu bekannten
Autoherstellern die Emotionalität zu deren Marken und Produkten ausgewertet. Ein typischer
Einsatzzweck des Online-Emotionsradars ist die Analyse zur Kundenzufriedenheit und
Markenwahrnehmung.

Peter Koller/wg


Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Lampertz GmbH & Co. KG

Matchmaker+