Nach dem Indexierungs-und Suchwerkzeug "Docfetcher" in der Januar-Ausgabe testet LANline nun ein Dateifahndungs-Tool, das auf das Anlegen von Indizes verzichtet. Find-it ist ein ausgefeilter Recherchehelfer, wartet wie sein indexierendes Pendant jedoch mit einigen Hürden für den Anwender auf.
Seltsam - portable Desktop-Suchmaschinen, die auch innerhalb gängiger Dokumente nach Informationen fahnden, sind zumindest in den üblichen Internet-Softwarequellen offenbar Mangelware. Nach "Docfetcher" (siehe LANline 1/2015, Seite 40), das mit Indizes arbeitet, sollte diesmal ein indexfreier Suchhelfer im Testlabor auf den Prüfstand kommen. Wir fanden Find-it, ein Tools aus deutscher Produktion. Zur Erinnerung: Mit Indizes lässt sich rasend schnell suchen, aber das Anlegen und permanente Pflegen der Indizes selbst kostet Zeit, reklamiert durchaus nennenswerten zusätzlichen Plattenplatz und verlangt darüber hinaus vom Anwender eine gewissen Akribie und Hingabe (zu den Details siehe Kasten in LANline 1/2015, Seite 42). Suchen ohne Index hingegen fordert beim eigentlichen Suchen jedes Mal Geduld, erzeugt aber keinen Overhead an Plattenspeicher und täglichem Aufwand.
Für portable Suchwerkzeuge haben wir uns entschieden, weil uns eine ganz bestimmte Idee vorschwebt: Wir wollen Daten-Repositories wie große USB-Platten, NAS-Speicher, Personal-Cloud-Laufwerke oder Netzwerkordner mit Suchmaschinen ausstatten, die jeder Besucher des Speichers ohne viel Federlesens aufrufen kann, um den Informationsbestand für sich zu filtern.
PDF nur mit Zusatz-Tool
Find-it lässt sich als Shareware aus dem Internet laden und 30 Tage kostenlos ausprobieren, danach erinnert das Tool mit einer täglich zunehmenden Startverzögerung an seinen Kaufpreis für die Dauernutzung (Einzellizenz: 29 Euro, Firmenlizenzen günstiger). Das Programm ist - anders als Docfetcher - ausschließlich für Windows-Systeme gedacht. Die portable Version erzeugt der Anwender, indem er das Programm zunächst ganz normal auf einem Computer installiert und die installationsfreie Variante dann aus dem System heraus auf einen Datenspeicher kopieren lässt.
All dies hört sich einfach an, baut jedoch auch ein paar Hürden auf. Wer etwa auch PDF-Dateien durchsuchen will - und wer will das nicht? - muss erfahren, dass genau dies ohne einen weiteren Implementierungsschritt nicht möglich ist. Find-it fordert dazu den zusätzlichen Einbau des Freeware-Dienstprogramms "pdftotext". Auf den ersten Blick sieht es so aus, als könne man die Nachinstallation aus Find-it heraus einfach starten, aber die entsprechende Funktion verweist nur auf eine Download-Seite, die ein ZIP-Archiv mit einer ganzen Reihe verschiedener PDF-Werkzeuge zur Verfügung stellt. Das Archiv will dann heruntergeladen sein, muss geöffnet werden, der Anwender hat das gewünschte Tool zu finden und manuell ins Find-it-Programmverzeichnis zu kopieren.
Erschwerend kommt hinzu, dass pdftotext in zwei getrennten Versionen für 32-Bit- und 64-Bit-Windows-Systeme existiert. Ein normaler Anwender kommt mit der korrekten Auswahl schnell an seine Grenzen. Der Aspekt hat außerdem Konsequenzen für den portablen Einsatz - aber dazu gleich mehr.
Im Test wurde Find-it zuerst auf einem 32-Bit-Windows-7-Netbook von Gigabyte und einem 64-Bit-Windows-7-Notebook von Lenovo installiert (siehe Kasten "Testhardware"). Auf beiden Systemen lief das System zunächst einwandfrei und ließ sich sofort für kleine Suchen auf den lokalen Festplatten einsetzen.
Dann allerdings kam die schon bei Docfetcher verwendete 1-TByte-USB-2-Platte als eigentliches Rechercheobjekt hinzu. Auch hier schien zunächst alles problemlos zu laufen, aber der schon für Docfetcher herangezogene Ordner mit mehreren Jahrgängen an PDF-Ausgaben der Süddeutschen Zeitung ließ das Programm auf beiden Rechnern nach ein paar Minuten komplett "einfrieren". Die pure Größe der Einzeldateien - bis zu 52 MByte - kann nach Angaben des Herstellers nicht der Grund sein, eher, so der Anbieter, haben vielleicht einige Dateien Inkonsistenzen. Mit PDF-Viewern ließ sich dies nicht verifizieren, aber die Tatsache, das auch Docfetcher die eine oder andere derselben Dateien beim Indexieren mit Fehlermeldungen einfach übersprang, stützt diese Annahme. Schade nur, dass nicht auch Find-it in solchen Fällen einfach aufgibt und das nächste Dokument in Angriff nimmt. Das Gespann pdftotext-Find-it arbeitet dazu vielleicht nicht eng genug zusammen.
Intensivere Suchtests sollten mit der portablen Version stattfinden. Der T440 diente als Ausgangsgerät und legte auf der USB-Testplatte einen Find-it-Ableger an. Das Programm kopiert pdftotext dabei automatisch mit - im Testfall natürlich in der 64-Bit-Version. Deshalb kopierten wir den Zielordner auf der Testplatte anschließend ein weiteres Mal und statteten die Zusatzversion mit der 32-Bit-Variante des PDF-Werkzeugs aus, um auch mit den 32-Bit-Systemen im Test arbeiten und PDFs durchsuchen zu können.
Und dann unternahmen wir etwas, das anschließend leider erhebliche Probleme bereitete: Wir deinstallierten Find-it auf den Test-PCs 1 und 2 (siehe Kasten), um auch hier fortan mit der portablen Version zu arbeiten. Genau das klappte jedoch nicht. Nach dem Aufruf der Exe-Datei auf der Festplatte erschienen bei beiden Computern maximal noch die Fenster zur Sprachauswahl und mit den Hinweisen zur Probephase, aber nie mehr das Programmfenster selbst - auch, nachdem wir mithilfe des Herstellers zumindest die meisten Registry-Einträge auf den Testgeräten manuell gelöscht hatten, die die Deinstallationsroutine übrig ließ. Bis zum Redaktionsschluss ließ sich dies leider nicht mehr beheben. Auf bislang unbeteiligten Rechnern dagegen liefen die portablen Versionen sofort.
Mit dem Zeitungsarchiv war auch in dieser Konstellation nicht viel anzufangen, aber bei einer nicht minder herausfordernden Datenkopie von einem aufgegebenen Macbook (12,6 GByte unterschiedlichster Office-Formate, ZIPs und PDFs, 14 GByte, 47.283 Dateien in 1.454 Ordnern) zeigte Find-it seine Qualitäten: Eine einfache Wortsuche ("SIEM") war auf dem Lenovo T61p mit 456 MByte/min nach 31 Minuten und 47 Sekunden erledigt und brachte ein ebenso plausibles wie umfassendes Ergebnis (Bild Seite 39).
Finden macht Freude
Wie bei Docfetcher gilt: Läuft das System erst einmal so, wie es soll, macht es richtig Spaß und erfüllt seinen Zweck mit Bravour. Find-it muss mit einiger Praxiserfahrung in Sachen Informationsrecherche programmiert worden sein. So kann man nicht nur direkt mit Kombinationen aus Platzhaltern, Zeiträumen und den üblichen logischen Operatoren "und", "oder" und "nicht" (geschrieben als "+", "?" und "/") samt Klammerausdrücken spielen, sondern auch Suchergebnisse erst einmal mit einfachen Suchbefehlen in Angriff nehmen und in den Ergebnissen dann erneut verfeinert suchen. Diese Situation tritt in der Praxis häufig auf - vor allem dann, wenn man im ersten Anlauf die Menge der Fundstellen unterschätzt hat.
Aus den Ergebnislisten lassen sich die Dokumente direkt aufrufen, aber es ist auch möglich, Verknüpfungen zu den herausgefilterten Dateien in Ordnern oder auf dem Desktop anzulegen oder die gefundenen Dateien gemeinsam zu kopieren, zu verschieben oder in ein ZIP-Archiv zu packen, um damit weiterzuarbeiten. Die Listen lassen sich mit Kommentaren versehen, als HTML- oder Textdateien exportieren und später etwa zu Vergleichszwecken wiederverwenden. Bei Fragen steht eine sehr gute Hilfefunktion mit Tipps zu Verfügung, für die man allerdings bei Windows-Versionen nach XP erst einmal die "alte" Windows-Hilfe-Engine nachinstallieren muss (aus dem Programm heraus kostenlos direkt von Microsoft, es lohnt sich).
Einer der vielen Versuche mit Find-it richtete sich auf einen 170 GByte großen Ordner mit etwas über 380.000 Dateien in mehr als 31.000 Ordnern auf der USB-Platte, der offenbar die Sicherheitskopie eines alten Home-Servers aus dem Elternhaus des Autors enthielt. Ich wollte tatsächlich wissen, welche der teils aus den 90ern stammenden Dateien dort meinen Vor- und Nachnamen enthielten, weil ich an diesen Informationsbestand tatsächlich keinerlei Erinnerungen mehr hatte.
Das Ergebnis: Nach etwa 200 Minuten fanden sich lang vermisste Dokumente aus der späten Studienzeit und aus ersten Gehversuchen als freier Redakteur. Die Daten steckten eben nicht nur in korrekt bezeichneten Dateien und Ordnern, wo ich sie früher schon gesucht hatte. Irgendwann hatte ich wohl einmal ein Rescue-Programm auf eine mir damals schon unbekannte, defekte Festplatte angesetzt, aber nur Unzahlen an durchnummerierten und nicht typisierten Dateien geerntet. Das Resultat hatte ich deshalb nicht weiter untersucht, aber zum Glück nicht gelöscht, sondern auf den Server kopiert und dann vergessen.
Erst Find-it verhalf nun dazu, zumindest ein paar der interessanteren Dokumente zu identifizieren, aus dem Wust herauszukopieren und wieder so zu benennen, dass ich sie jederzeit lesen kann. Ein typischer Beispielfall, der zeigt, warum sich die Installation guter Suchwerkzeuge lohnt.
Während seiner Arbeit stöberte Find-it auch uralte Malware auf und schreckte damit das heimlich mitschnüffelnde Content-Security-Programm von F-Secure auf, das auf einem der Testrechner installiert ist. Probleme traten dadurch nicht auf, auch wenn das Security-Tool gefundene Dokumente nebenher in Quarantäne verschob, blockierte oder löschte.
Fazit
Find-it ist eine empfehlenswerte Software für die indexfreie Suche von Inhalten in Dateien unterschiedlichster Typen. Kleine Probleme gibt es sehr wohl: Die Installation macht ein paar Umstände, defekte PDF-Dateien können Probleme verursachen, und bei Excel ist es schade, dass die neuesten Dateitypen nicht unterstützt werden. Der Nutzen aber überwiegt bei Weitem, und der Preis stimmt. Als portables Tool auf einem USB-Datenträger oder einen Netzwerklaufwerk würde sich Find-it auch neben Docfetcher gut machen.