Forscher wollen versteckte Datenbanken im Web zugänglich machen
Neue Techniken sollen die Tiefen des Internets erforschen, um die Qualität der Online-Suche zu verbessern. Ein Ansatz dafür besteht darin, mittels Testanfragen herauszufinden, mit welchen Begriffen Datenbanken ihre gewaltigen Informationsmengen entlockt werden können.
Die Google-Suche erfasst inzwischen über eine Billionen Web-Adressen, doch dies ist nur ein
Bruchteil des gesamten Internets. In Datenbanken liegen riesige Informationsmengen von
Einkaufskatalogen bis hin zu wissenschaftlichen Forschungsergebnissen verborgen, die mit aktuellen
Methoden kaum erfasst werden können.
Suchmaschinen setzen zur Indizierung auf Crawler, die Links auf Web-Seiten folgen und so Daten
sammeln können, bei Datenbanken aber relativ schnell an ihre Grenzen stoßen. Einem Bericht der New
York Times zufolge strebt
das Projekt DeepPeep der University of
Utah an, sowohl Durchschnittsnutzern als auch Anwendungsentwicklern besseren Zugang zu den
Inhalten öffentlicher Web-Datenbanken zu bieten.
Um diese Quellen zu indizieren, setzt man darauf, zunächst mit einigen Begriffen Testanfragen an
die Datenbanken zu stellen und die Ergebnisse zu analysieren. Auf diese Weise wollen die Forscher
ein Verständnis der Datenbanken entwickeln und ermitteln, nach welchen Worten gezielt zu suchen
ist. Insgesamt könnten dann mit gezielten Anfragen mehr als 90 Prozent der Datenbankinhalte erfasst
werden, hofft man bei Deep Peep.
Ein Grundproblem ergibt sich dabei, denn um die verborgenen Inhalte der vielen Millionen
Datenbanken im Web sinnvoll zugänglich zu machen, müssen Suchmaschinen wissen, welche Datenbanken
am ehesten zu einer Anfrage passende Informationen enthalten, schreibt die Agentur Pressetext.
Außerdem muss klar sein, wie Fragen an die Datenbank zu stellen sind, um ihr auch tatsächlich
Inhalte zu entlocken. "Das ist das interessanteste vorstellbare Problem in Sachen Datenintegration"
, stellt Alon Halevy fest, Computerwissenschaftler und Leiter eines Google-Teams, das sich mit dem
Problem auseinander setzt. Googles Zugang zur Datenbankindizierung nutzt dabei ein Analyseprogramm.
Ähnlich wie DeepPeep setzt man darauf, mithilfe von Testanfragen ein Modell zur Vorhersage von
Datenbank-Inhalten zu erstellen.
Des Weiteren stellt sich auch die Frage der Präsentation, wenn Inhalte aus den Tiefen des Webs
in Suchergebnisse integriert werden sollen Der
Start-up Kosmix setzt darauf, eine
Art themenspezifische Web-Startseite zu generieren. Eine echte Herausforderung könnte die
Integration der zusätzlichen Inhalte in die Ergebnisse der Google-Suche werden. Das Unternehmen hat
gröbere Änderungen am Format der Suchergebnisse bislang eher vermieden.
Susanne Franke/CZ