Startseite > Netzwerke & IT-Infrastruktur > Datenbegleitender Suchspezialist

Docfetcher im Test

Datenbegleitender Suchspezialist

26. Januar 2015, 7:00 Uhr | Dr. Johannes Wiele/jos

Docfetcher ist ein Java-basierendes Such-Tool mit Indexerstellung. Es läuft unter Windows, Mac OS und Linux und kann in seiner portablen Version für alle drei Plattformen zugleich auf USB-Platten, in Netzwerkordnern oder in verschlüsselten Repositories arbeiten. Im LANline-Praxistext musste das Programm zeigen, ob es sich tatsächlich als installationsfreie Suchhilfe für die Dateiablage eignet.

Typischerweise passiert es, wenn man von einem PC auf den nächsten umsteigt: Der Inhalt des Dokumente-Ordners wird vom Altgerät auf ein USB-Laufwerk oder ein spezielles Netzwerklaufwerk kopiert. Anschließend holt man die wichtigsten Informationen auf den neuen Computer zurück, lässt aber Ordner mit "veralteten" Dateien außen vor. Irgendwann allerdings erinnert man sich dann doch wieder bestimmter abgelegter Daten vom Vorgänger-PC - etwa, weil der 2012 auf der Konferenz in Hamburg gehaltene Vortrag zu zwei Dritteln den Inhalt einer Präsentation für den neuen Kunden in München hergeben könnte. Spätestens beim Blick auf die ausgelagerten Daten fällt dann auf, dass man bei aller Ordnungsliebe genau in diesem Fall keinen Ordner "Konferenz_2012_Hamburg" angelegt hat. Wo also steckt das gesuchte Dokument?
Immerhin wissen Sie vielleicht noch, dass Sie damals das Wort "Datenschmutz" in Anspielung auf "Datenschutz" als kleinen Gag in Ihr Powerpoint-File eingebaut hatten. Also muss die Windows-Suchfunktion ran. Selbige teilt aber kaltlächelnd mit, dass der Zielordner nicht indiziert sei, dass die Suche somit länger dauern könne - und hüllt sich nach dieser erhellenden Konversation je nach Größe der Sicherungsplatte für nervtötend lange Zeit in Schweigen. Warum nur kann es keinen vom Betriebssystem unabhängigen Index geben?
So etwas gibt es sehr wohl, und zwar als Teil eines portablen und damit installationsfrei zu nutzenden Open-Source-Suchprogramms namens "Docfetcher". Der Anwender kann die Software unter Windows und Mac OS ganz normal installieren, die portable Version erscheint jedoch als potenzieller Dauerbegleiter von Dokumenten-Repositories interessanter - und dies umso mehr, als ihr Java-basierendes Hauptprogramm auf dem gleichen Datenträger und mit dem gleichen Index zugleich für Windows, Linux und Mac OS zur Verfügung stehen soll. Ein Team mit heterogener Computer-Ausstattung könnte damit also das gleiche externe Laufwerk oder den gleichen Netzwerkordner nutzen, ohne für Suchvorgänge jeweils neue Indizes erstellen zu müssen.

Index als Informations-Add-on
Darüber hinaus besteht die Möglichkeit, das Tool in verschlüsselte Datencontainer zu packen, die zur Benutzung erst explizit "aufgeschlossen" werden müssen und deren Inhalt normale Suchmaschinen vom Betriebssystem aus nicht erfassen. Selbst auf CDs oder DVDs lässt sich das Such-Tool zusammen mit Datenbeständen weitergeben.
Für den Test nutzen wir zunächst eine 1 TByte große, NTFS-formatierte "On-Memory-Core"-USB-2.0-Platte, die Dokumentensammlungen mit Dateitypen unterschiedlichster Art (Texte, Tabellen und Präsentationen aus Microsoft Office und Open Office, PDFs, Vektorgrafiken, Bitmaps etc.) von gleich mehreren Alt-PCs enthält. 286 GByte sind belegt, sie verteilen sich auf 448.429 Dateien in 34.735 Ordnern. Zu Beginn ignorieren wir tapfer den im Docfetcher-Einführungstext nachzulesenden Hinweis, man solle mit Ordnern überschaubaren Inhalts beginnen, und starten am Abend eine Gesamtindexierung der Platte. Nach etwa einer Stunde Wartezeit, in der sich das Tool zunächst durch eine Sammlung von umfangreichen PDF-Ausgaben der Süddeutschen Zeitung wühlt (große und komplexe Dokumentdateien), beschließt der Tester, die Software über Nacht allein zu lassen - und legt sich schlafen.
Der nächste Morgen um sechs Uhr bringt gleich vor dem Kaffee eine gründliche Ernüchterung: Direkt im Anschluss an den Ordner mit der Zeitungssammlung ist Docfetcher im nächsten Folder auf ein verschlüsseltes ZIP-Archiv gestoßen, hat nach dem Kennwort gefragt und ist deshalb, stupide auf Input wartend, stehengeblieben. Nichts war es also mit selbstständiger Arbeit des Rechensklaven in der Nacht. Gut dabei ist, dass Docfetcher auch innerhalb von gängigen Archiv-Formaten sucht, aber nach der Eingabe des ersten Kennworts findet das Tool noch weitere geschützte ZIPs, sodass zumindest bei dieser Platte ein unbeaufsichtigtes Indexieren ein Wunschtraum bleibt. Zwei Stunden später wird das Tool außerdem sichtlich langsamer und bleibt schließlich stehen - vermutlich mangels Speicherplatz. Es ist zwar nicht schwierig, mehr Speicher freizugeben - entsprechend vorkonfigierte Versionen der Such-Engine für Windows kommen sogar mit, in der Linux-Version hilft die Manipulation des Start-Skripts. Den gesamten Dateiwust in einem Durchgang wird das Programm wohl in keiner Variante schaffen.

Kampf mit dem Speicherplatz
Eine etwas intensivere Lektüre in der nicht wirklich benutzerfreundlich organisierten Dokumentation fördert die Erkenntnis zutage, dass das Tool später über mehrere Indizes hinweg suchen kann. Von dieser Warte aus gesehen hätte hat das Aufspalten des Indexierungsvorgangs also keinen Nachteil. Dafür muss man sich grundsätzlich darauf einrichten, als Anwender die Aktualität mehrerer Indizes stets im Blick zu behalten. Bei fest installierten Docfetcher-Versionen kann diese Aufgabe ein Daemon automatisch übernehmen und Neu-Indexierungen bei Veränderungen in den Ordnern anstoßen. Bei unserem Einsatzszenario müsste dazu auf jedem Nutzerrechner jedoch zumindest das Daemon-Modul direkt installiert sein - das passt nicht. Ganz so pflegeleicht wie erhofft ist Docfetcher für diesen Einsatzzweck also nicht. Dazu trägt auch ein weiteres kleines Detail bei: Bei jeder Neu-Indexierung muss man als Nutzer der portablen Version selbst darauf achten, die Option "relative Pfade speichern" anzuklicken, damit die Indizes unabhängig von festen Laufwerksbuchstaben an jedem PC funktionieren können.
Im nächsten Anlauf beschränken wir die Indexierung zunächst auf den knapp 24 GByte großen Zeitungsordner. Nach drei Stunden und eineinhalb Minuten ist der eher mager ausgestattete Test-PC (32-Bit-Windows-7, Athlon II X2 250, 3,00 GHz, 4 GByte RAM) damit fertig und hat einen 567 MByte großen Index angelegt - ein akzeptables Größen- und Zeitverhältnis (siehe Kasten auf Seite 42). Beim Anschluss der USB-Platte an einen zweiten Rechner (64-Bit-Windows-7, I5-4300 CPU, 1,9-2,5 GHz, 8 GByte RAM) lassen sich Programm, Daten und Index problemlos aufrufen. Zudem es gelingt auf Anhieb, noch einmal 245 MByte PDFs hinzuzufügen und binnen weiterer drei Minuten zusätzlich zu indexieren. Versuche mit Netzwerkordnern ergeben anschließend ein ähnlich positives Bild.

Praxisgerechte Suchfunktionen
Richtig Spaß macht die Suche in den indexierten Dokumenten. Der Dateibestand lässt sich vorab nach Dateitypen und -größen filtern. Docfetcher verarbeitet Dateien von Microsoft Office (doc, xls, ppt), Microsoft Office 2007 und Folgeversionen (docx, xlsx, pptx, docm, xlsm, pptm), Microsoft Outlook (pst), Openoffice.org (odt, ods, odg, odp, ott, ots, otg, otp, somit auch Libre Office), Dateien im Portable Document Format (pdf), EPUB (epub), HTML (html, xhtml etc.), Textdateien (anpassbar), Rich Text Format (rtf), AbiWord (abw, abw.gz, zabw), Microsoft Compiled HTML Help (chm), MP3-Metadaten (mp3), FLAC-Metadaten (flac), JPEG-Exif-Metadaten (jpg, jpeg), Microsoft Visio (vsd) und Scalable Vector Graphics (svg).
Für die Suche nach Dateinamen stehen die sogenannten regulären Ausdrücke zur Verfügung. Beim Suchen innerhalb von Dokumenten geht das Arsenal weit über die bekannten Booleschen Operatoren (OR, AND, und NOT) und Wildcards hinaus: Phrasensuche und mandatorische Suche (feste Abfolgen von Wörtern, Wörter, die teilweise vorhanden sein müssen und teilweise dürfen), Fuzzy-Suche mit Ähnlichkeitsschwellwert (Suche nach ähnlichen Wörtern), Nachbarschaftssuche (Texte, bei denen Wörter innerhalb einer flexiblen Distanz beieinander liegen), Boosting (Gewichtung von Ergebnissen), Suche in Feldern (wenn anwendbar) und Bereichssuche (Suche nach Wörtern, die sich im Lexikon zwischen zwei anderen Wörtern befinden).
Der Autor dieser Zeilen muss zugeben, dass er als Ex-Journalist über den Anwendungsversuchen auf den erwähnten Zeitungsbereich fast den Abgabetermin für den Test vergessen hätte - all dies funktioniert, zusammen mit den Sortierfunktionen für die Ergebnisse prächtig. Man muss allerdings die Suchsyntax lernen, denn "zusammenklicken" lassen sich die Suchanfragen nicht. Da Docfetcher ein eingebautes Vorschaufenster hat, lassen sich die Ergebnisse zum Glück auch vor dem Öffnen der Ergebnisdokumente in großen Dateien lokalisieren, andernfalls würde eine Suche wie "Merkel und Putin maximal zehn Stellen entfernt" im Zeitungsordner Ende November 2014 wohl schlicht alle Ausgaben zutage fördern und den Anwender beim Auffinden der konkreten Stellen mittels PDF-Viewer allein lassen.

Plattformübergreifende Misserfolge
Nach den überaus erfolgreichen Suchexperimenten widmet sich der Test dem plattformübergreifenden Einsatz von Docfetcher. Leider dämpft das Ergebnis die Rechercheeuphorie erheblich: Unter Mac OS 10.8.5 zuckt die portable Version nur kurz und blendet das Docfetcher-Icon ein. Danach verabschiedet sich das Programm kommentarlos ins virtuelle Nirvana. Ein Java-Problem? Vermutlich nicht, denn die gegengetestete Installationsversion von Docfetcher läuft auf demselben Macintosh anstandslos, greift aber nicht ohne manuelles Einwirken auf den bereits angelegten Index zu. Mit einem schnellen Zugriff auf die bereits unter Windows aufbereiteten Daten ist es also nichts.
Unter Linux auch kein Erfolg. Im Test nutzen wir Systeme unter Cent OS 6.5, Ubuntu 14.04 LTS und unter Easy Peasy Linux, einem Ubuntu-Derivat für Notebooks und Netbooks. Unter Cent OS klappt zumindest die notwendige Java-Runtime-Installation einwandfrei, aber das zum Docfetcher-Start mitgelieferte sh-Skript ist nach dem Auspacken des Programmarchivs nicht einmal als ausführbar gekennzeichnet. Das lässt sich schnell ändern, aber Docfetcher streikt weiter.
Bei den Ubuntu-Derivaten ist das sh-Skript sofort ausführbar, startet aber ebenfalls ins Leere. Beim Original-Ubuntu scheitert bereits die vorsichtshalber vorgenommene Nachinstallation der Java-Runtime, weil offizielle Softwarequellen gerade nicht erreichbar sind. Bei Easy Peasy gelingt zwar dieser Schritt, aber Docfetcher wird deshalb noch lange aktiv. Ein Startversuch im Terminal zeigt anhand der Fehlermeldungen, dass Docfetcher nicht korrekt mit der Java-Implementierung zusammenarbeitet und darüber hinaus diverse Ordner nicht findet.
Um keine Missverständnisse aufkommen zu lassen: All diese Probleme unter Mac OS und Linux lassen sich lösen und dürften für einen Kenner der Systeme keine großen Hürden darstellen. In unserem Testszenario aber verhinderten diese Schwierigkeiten die einfache, plattformübergreifende Ad-hoc-Nutzung des Werkzeugs zusammen mit den Daten.

Fazit
Vielleicht haben wir mit unseren Mac-OS- und Linux-Testsystemen einfach Pech gehabt, aber im Test hat sich Docfetcher als installationfreies Indexierungs- und Suchsystem nur unter Windows bewährt. In diesem Ökosystem allerdings lässt es sich problemlos auf einen Datenträger, in ein Netzlaufwerk oder in ein verschlüsseltes Archiv packen und hilft dann bei schnellen Recherchen - und in dieser Disziplin ist es als kostenlose Software mehr als empfehlenswert!