TITEL DocFetcher © Le Moal Olivier, 123RF © Le Moal Olivier,

Der Desktop-Indexierer DocFetcher Gut indexiert ist

Martin Loschwitz halb gefunden

DocFetcher erstellt einen Index, enn Sie Ihren Computer regel- Abo kündigen wollen – obwohl ähnliche mäßig nutzen, um Textdoku- Briefe bereits existieren, die man einfach der eine schnelle Suche im Inhalt W mente – etwa für Ihre private kopieren und entsprechend anpassen Korrespondenz – zu verfassen, kennen Sie könnte. Ebenso verhält es sich mit aus Ihrer Dateien erlaubt. Was das Pro- vielleicht das Problem: Mit der Zeit wächst dem Netz heruntergeladenen PDF-Dateien: der Berg vorhandener Dokumente auf Ih- Die finden oft den Weg auf die Platte, weil gramm leistet und wodurch es rer Festplatte, und es wird zusehends man sie einmal gesucht und gefunden hat schwieriger, den Überblick zu behalten. – später erinnert man sich dann oft nicht sich von den KDE-Bordmitteln un- Dabei sind Textdateien nicht die einzigen mehr daran, wo genau die Datei abgelegt Dokumente, die zum Datenchaos beitra- ist und wie sie heißt. Die Folge: Viele Nut- terscheidet, verraten wir in diesem gen – in den Home-Verzeichnissen der An- zer suchen sie im Netz erneut und laden wender stapeln sich auch Grafikdateien, sie ein weiteres Mal herunter. Im Down- Artikel. digitale Bücher (E-Books), Musikdateien, loads-Ordner findet sich oft dieselbe Datei PDF-Dokumente und viele andere Dateity- etliche Male, zu erkennen am verräteri- pen. Das führt zu schrägen Effekten: Viele schen, vom Browser beim Herunterladen Nutzer fangen von vorne und mit einem angehängten Zahlensuffix (Dokument- frischen Dokument an, wenn sie etwa ein name (1). ).

46 www.easylinux.de EasyLinux 05/18 – 07/18 DocFetcher TITEL

Wenn Ihnen dieses Problem bekannt Festplatte oder einen vorkommt, gehören Sie zur Zielgruppe Teil von dieser, etwa der Desktop-Indexierer (seltener auch Ihr persönliches Ver- ­Indizierer genannt). Der Ansatz dieser zeichnis. Besonders Programme ist nicht neu: Apple sorgte effizient ist das aber vor etlichen Jahren mit in auch nicht, und ob- mac­OS erstmals dafür, dass diese Art von wohl moderne Desk- Programm Verbreitung fand. Desktop-In- topsysteme und Lap- dexierer arbeiten anders als ein klassi- tops heute oft mit sches Suchwerkzeug wie locate, das bis sehr schnellem Flash- vor wenigen Jahren auf -Systemen Speicher ausgestattet der Standard für die Suche war. sind, dauert eine sol- che Suche lange. Abb. 1: So sieht DocFetcher direkt nach der Installation aus: Es Indexierer durchforsten die Platte Desktop-Indexierer fehlen noch die Verzeichnisse, die DocFetcher indexieren soll. locate ist ein Beispiel für einen sehr simp- erweitern das Kon- len Suchdienst: Das Tool legt eine Liste zept um eine Datenbank, in der sie als Er- Da es Java-Versionen für Windows, aller Dateien des Systems an, die es gebnis eines einmaligen Scans aller unter- macOS und Linux gibt, läuft DocFetcher durchforstet, wenn der Nutzer auf der stützten Dokumente deren Inhalte spei- auf all diesen Betriebssystemen: Solange Kommandozeile via chern. Damit das System nützlich bleibt, eine Java-Laufzeitumgebung vorhanden aktualisieren sie diesen Index zudem re- ist, funktioniert das Programm vollkom- locate Name gelmäßig. Tippen Sie nun einen Begriff in men problemlos. Lediglich die Startme- eine Datei sucht. Dabei ist das einzige das Suchfeld ein, sucht das Programm thode unterscheidet sich: Wer DocFetcher Kriterium, das locate bei der Suche be- nicht mehr in den Dateien auf Ihrer Fest- unter Windows nutzen möchte, klickt rücksichtigt, der Dateiname: Den Inhalt platte, sondern nur noch in seiner eige- dort auf DocFetcher.exe. Unter macOS der Dateien kennt locate nicht, so dass es nen Datenbank. Das Einlesen der gesam- kommt das Application Bundle DocFet- unmöglich ist, damit nach Inhalten zu su- ten Festplatte geschieht nur, wenn der In- cher.app zum Einsatz und unter Linux chen. Hier kommen Tools wie das Pro- dexierer seine Datenbank anlegt oder ak- eben das schon erwähnte Shell-Skript gramm DocFetcher [1] ins Spiel, das Sie tualisiert (und dann auch nur für neue DocFetcher-GTK3.sh. Das GUI sieht auf al- auch auf der Heft-DVD finden: Die durch- oder geänderte Dateien), jedoch nicht len Systemen gleich aus. forsten in regelmäßigen Abständen Ihre mehr bei jeder Suche. Aus der Plattformunabhängigkeit er- Festplatte und legen eine lokale Daten- Mittlerweile gibt es mehrere Werk- gibt sich ein interessantes Anwendungs- bank mit Informationen zu den vorhande- zeuge, die versprechen, die Indexierung szenario: Formatieren Sie z. B. einen nen Dateien und deren Inhalten an. Su- der Festplatte unter Linux zuverlässig, gut USB-Stick mit dem FAT32-Dateisystem, chen Sie dann nach einer bestimmten Zei- und schnell zu erledigen. Alle gängigen ist er unter Linux, macOS und Windows chenkette, liefert DocFetcher Ihnen nicht Distributionen bringen einen entspre- les- und schreibbar. Wenn er Ihre private nur die Dateien, deren Dateiname mit der chenden Dienst mit; bei KDE heißt er Ba- Briefkorrespondenz enthält, können Sie Suchzeichenkette übereinstimmt, sondern loo [2]. DocFetcher ist eine sehr be- von allen Betriebssystemen aus darauf auch Dateien, in deren Inhalt der gesuch- kannte, desktopunabhängige Alternative. zugreifen. Wenn Sie DocFetcher in einem te Begriff vorkommt. Wir stellen DocFetcher im Detail vor, Verzeichnis auf dem USB-Stick ablegen Das ist viel effektiver als die Suche auf beschreiben seine besonderen Funktionen und es nutzen, um in diesem Ordner den Basis der Dateinamen. Wenn Sie Ihren und gehen auf die Unterschiede zum Inhalt des USB-Sticks zu indexieren, ha- Computer auch nur einigermaßen regel- KDE-Tool Baloo ein, das sehr ähnliche ben Sie einen portablen Dokumenten- mäßig verwenden, sind Werkzeuge wie Ziele verfolgt. speicher mit eingebauter Suchmaschine. DocFetcher effektiv die einzige Variante, Egal, ob Sie diesen an einen Computer um nicht den Überblick zu verlieren. Simpel dank Java mit Windows, Linux oder macOS an- Sie finden DocFetcher auf der Heft-DVD – schließen, sobald Sie dort die jeweilige Wie Indexierer funktionieren nicht als Distributionspaket in einem der DocFetcher-Version starten, können Sie Der Vergleich von Indexierern mit locate gängigen Formate .rpm oder .deb, son- den Index für schnelle Suchen nutzen. hinkt ein wenig: Dass Werkzeuge, die Da- dern in Form einer .-Datei. Wenn Sie Auch Index-Updates können Sie jederzeit teien rein auf Basis ihres Dateinamens die .zip-Datei auf Ihr Linux-System ko- (unabhängig vom gerade laufenden Sys- finden, nur eingeschränkt nützlich sind, piert haben, entpacken Sie sie mit ark in tem) anstoßen. haben Softwareentwickler bereits vor Jah- Ihrem Home-Verzeichnis und starten das ren erkannt. Bald kamen erste Tools auf Java-Programm DocFetcher anschließend Das DocFetcher-GUI den Markt, die nicht nur die Namen von per Klick auf DocFetcher-GTK3.sh. KDE Nach der DocFetcher-Installation und Dateien, sondern auch deren Inhalte un- wird Ihnen anbieten, die Datei zu öffnen dem ersten Start des Programms zeigt die- tersuchen konnten. Das Prinzip ist sim- oder auszuführen – bei diesem Dialog ses sein Hauptfenster (Abbildung 1). Das pel: Sobald Sie einen Begriff in das Such- wählen Sie Ausführen. Kurze Zeit später ist in vier Bereiche unterteilt: Links oben feld eingeben, läuft das Tool los und erscheint das GUI von DocFetcher auf ist eine Auswahlliste der Dateitypen auf- durchforstet den gesamten Inhalt Ihrer dem Bildschirm (Abbildung 1). gelistet, innerhalb derer eine Suche beim

EasyLinux 05/18 – 07/18 www.easylinux.de 47 TITEL DocFetcher

einfach alle Unterverzeich- nisse Ihres Home-Verzeich- nisses indexieren, fiele auch jenes mit den VMs darunter. Die Analyse dieser Dateien würde lange dauern, wäre aber zwecklos: Auf Dateien innerhalb der VMs können Sie aus Ihrem Hauptsystem heraus ohnehin nicht direkt zugreifen. Welche Ordner DocFet- cher untersuchen soll, legen Sie in den Einstellungen fest. Dazu klicken Sie im unteren linken Teil Suchbereich des DocFetcher-Fensters mit der rechten Maustaste einmal in den weißen Bereich und Abb. 2: Eine Suche bringt nach wenigen Sekunden eine Vielzahl von Ergebnissen, die DocFetcher wählen im erscheinenden nach Relevanz sortiert. In der Textvorschau wird der gefundene Suchbegriff hervorgehoben. Kontextmenü den Eintrag In- dex erstellen aus / Ordner nächsten Mal stattfindet. Indem Sie hier Weitere Felder in der Anzeige der Such- aus. Danach öffnet sich ein Häkchen vor Einträge setzen oder entfer- ergebnisse sind nützlich: Als Prozentwert Auswahldialog, in dem Sie das Verzeich- nen, schließen Sie die entsprechenden gibt DocFetcher an, wie hoch die Wahr- nis angeben, das Sie indexieren möchten. Dateitypen von der Suche aus oder ein. scheinlichkeit ist, dass ein Ergebnis in der Am Anfang der DocFetcher-Nutzung Direkt darüber geben Sie zudem an, ob Liste genau das enthält, was Sie suchen. steht also Konfigurationsarbeit. Haben Sie bei der Suche Dateien eingeschlossen sein Haben Sie etwa ein LibreOffice-Dokument sich für einen Ordner entschieden, zeigt sollen, die eine bestimmte Größe über- mit der Betreffzeile „Kündigung meines DocFetcher Ihnen noch ein weiteres Fens- oder unterschreiten. Abos“ auf Ihrer Platte und suchen dann ter an, in dem Sie festlegen, welche Datei- Darunter (unten links) können Sie nach „Kündigung meines Abos“ in DocFet- typen DocFetcher untersuchen soll. Das Pfade angeben, die DocFetcher bei seiner cher, zeigt das Programm das LibreOffice- Fenster unterteilt sich in zwei Bereiche: Suche einschließen oder auslassen soll. Dokument mit einem hohen Prozentwert Oben gibt DocFetcher Dateiendungen an, Das kann dann besonders sinnvoll sein, an. Dateien, in denen zwar die Worte die zu Formaten gehören, die DocFetcher wenn Sie sehr viele Dateien auf der Platte „Kündigung“, „meines“ und „Abos“ vor- unterstützt. Darunter haben Sie auch die und damit auch einen großen Such-Index kommen, jedoch nicht als zusammenhän- Möglichkeit, über so genannte reguläre haben. Denn dann kann sogar die gende Zeichenkette, erhalten einen niedri- Ausdrücke anzugeben, welche Dateien im schnelle DocFetcher-Suche viel Zeit benö- geren Prozentwert (Abbildung 2). Index enthalten oder von diesem ausge- tigen. Schließen Sie unten links einen Teil Der größte Teil des Fensters unten Ihres Dateisystems mit vielen Dateien rechts schließlich zeigt eine Vorschau des aus, wird die Suche deutlich schneller. Suchergebnisses, das Sie in der Treffer- Der rechte Teil des DocFetcher-Fens- liste oben auswählen. Bei HTML-Doku- ters ist der Suche gewidmet. Oben haben menten lässt sich zwischen einer reinen Sie zunächst ein Eingabefeld – hier geben Textvorschau und der Darstellung wie im Sie einen beliebigen Begriff an, nach dem Browser wählen, wobei im Browsermo- Sie in Ihrem Index suchen möchten. Die dus die Treffer nicht angezeigt werden. Anzeige ist ausgefeilt: Bei den Resultaten gibt DocFetcher links den Titel an, den Ordner bestimmen eine Datei trägt, in der es den Suchbegriff DocFetcher folgt dem Prinzip, dass es nur gefunden hat. Haben Sie etwa eine lokale relevante Teile der Festplatte in den Index Kopie eines Wikipedia-Artikels im aufnimmt. Dazu ein Beispiel: Wenn Sie HTML-Format auf der Platte, in dem Doc- Werkzeuge wie VirtualBox oder VMware Fetcher bei einer Suche den gewünschten nutzen, um auf Ihrem System virtuelle Begriff findet, würde es in diesem Feld Systeme zu betreiben, liegen deren virtu- den Titel der Wikipedia-Seite anzeigen. elle Festplatten vielleicht im Ordner VMs Ähnliches gilt für Textdokumente. Weil in Ihrem Home-Verzeichnis. Je nach Art DocFetcher diese komplett analysiert, und Zustand einer solchen VM kann ein Abb. 3: Welche Dateien DocFetcher beim legt es die entsprechenden Informationen Platten-Image etliche Gigabyte Speicher- Anlegen des Indexes beachten soll, legen ebenfalls in seiner Datenbank ab. platz belegen. Würde DocFetcher ab Werk Sie in den Einstellungen fest.

48 www.easylinux.de EasyLinux 05/18 – 07/18 DocFetcher TITEL

Abb. 4: Ein sehr großes Dokumentenverzeichnis erst- Abb. 6: MP3-Dateien enthalten ID3-Tags, die etwa Titel und Künstler fest- mals zu indexieren, kann durchaus Stunden dauern. legen – die Abbildung zeigt den ID3-Tag-Editor Kid3. schlossen sein sollen (Abbildung 3). Der Unterstützte Dateitypen Zusätzlich beherrscht DocFetcher auch Eintrag .*\.vmwarevm mit der Aktion Eine der wichtigsten Eigenschaften eines den Umgang mit Grafikdateien: Es wertet Überspringen würde etwa dazu führen, Desktop-Indexierers ist die Liste der un- enthaltene EXIF-Tags aus und nimmt dass DocFetcher virtuelle Maschinen von terstützten Dateitypen. Nur Dateien, de- diese in den Index auf. Suchen Sie Fotos VMware explizit von der Suche aus- ren Format DocFetcher versteht, kann es auf Ihrer Festplatte, die Sie mit einer be- schließt. Für VirtualBox-VM-Container in den Index aufnehmen. Mit den Mi- stimmten Blendeneinstellung oder an ei- mit Dateiendung .ova erreichen Sie den- crosoft-Office-Formaten (.doc, .xls und nem bestimmten Ort aufgenommen ha- selben Effekt, indem Sie .ppt) und deren XML-basierten ben, wird DocFetcher sie in den Sucher- .*\.ova als Filter mit der Nachfolgern (.docx, .xlsx, .pptx) gebnissen anzeigen. Aktion Überspringen kommt DocFetcher ebenso zu- Hinzu kommt Unterstützung für Vek- angeben. (Der Back- recht wie mit den freien Alternati- torgrafiken im SVG-Format und schemati- slash \ vor dem Punkt ven von LibreOffice (.odt, .ods so- sche Zeichnungen etwa aus Microsoft Vi- ist jeweils nötig, weil in wie .odp). Digitale Bücher im sio. Beide Formate eint, dass in ihnen regulären Ausdrücken EPUB-Format, HTML- und Text- Text vorkommen kann – wenn Sie etwa ein Punkt für ein belie- dateien sowie RTF-Dokumente einen Schaltplan als SVG-Datei gespei- biges Zeichen steht; um () kann DocFet- chert haben und diesen nun suchen, ge- nach Dateinamen mit cher ebenfalls analysieren. Auch nügt es, ein Wort aus dem Schaltplan an- einem Punkt vor der PDF-Dateien bereiten dem Tool zugeben, und schon fördert DocFetcher Endung zu suchen, keine Probleme (Abbildung 5). die entsprechenden Dateien zu Tage. muss dieser Punkt als \. DocFetcher beherrscht nicht nur angegeben werden.) die gängigen Office-Dokument- Mächtige Suchfunktion Bei der Auswahl der Formate, sondern versteht sich Besonders stolz sind die DocFetcher-Ent- Ordner, die DocFetcher auch auf den Umgang mit anderen wickler auf den Suchdialog. Die ein- für Sie analysieren soll, Dateitypen. Bei seiner Suche fachste Option, ihn zu nutzen, ist, einfach ist Augenmaß nötig, Abb. 5: DocFetcher schaut sich das Programm etwa eine beliebige Zeichenkette einzugeben um genau die richtigen versteht eine Vielzahl auch MP3-Dateien an. Zwar kann und danach durch die Trefferliste zu Verzeichnisse und Da- aktueller Dateifor- es hinterher nicht Lieder anhand ­scrollen. Diese Form der Nutzung bleibt teien in den Index auf- mate. einzelner Textzeilen finden, die allerdings weit hinter den Fähigkeiten zu- zunehmen. darin vorkom- Ein Klick auf Start setzt die Indexie- men, nimmt aber die rung in Gang (Abbildung 4). Wenn sich ID3-Tags (Abbildung 6) im angegebenen Ordner viele Dateien be- der Dateien mit in den finden, nimmt das erste Mal einige Zeit in Index auf. Wer also in Anspruch. Das gilt besonders dann, wenn DocFetcher nach einem Sie eine klassische Festplatte und keine Song- oder Albumtitel schnelle SSD verwenden. Wollen Sie den sucht, findet MP3-Da- Index später aktualisieren, genügt es, auf teien mit passenden Ein- den jeweiligen Eintrag im Suchbereich- trägen im ID3-Tag (Ab- Fenster zu klicken und dort Aktualisieren bildung 7). Dasselbe gilt Abb. 7: Wer seine MP3-Sammlung mit indexiert, kann in auszuwählen. für FLAC-Dateien. DocFetcher auch nach Interpret, Album oder Titel suchen.

EasyLinux 05/18 – 07/18 www.easylinux.de 49 TITEL DocFetcher

temeinstellungen. Hinter nen, erhalten Sie unmittelbaren Zugriff dem Eintrag Suchen verste- auf die Baloo-Suche (Abbildung 9). Doc- cken sich dort die zu Baloo Fetcher hingegen ist ein externes Zusatz- gehörenden Parameter. programm, das Sie als solches auch expli- Vorsicht: Das Untermodul zit starten müssen und das in den KDE- Plasma-Suche hat mit Baloo Desktop nicht integriert ist. nichts zu tun – es gehört zu KRunner, einem Pro- Fazit: Klein, aber oho gramm, das diverse KDE- Die Arbeit mit DocFetcher macht gerade Abb. 8: Die KDE-Suche Baloo lässt sich über die KDE- eigene Dienste indexiert, dann Spaß, wenn man auf einem nicht Systemeinstellungen konfigurieren. etwa die vorhandenen Mi- ganz aktuellen System mit wenigen Res- niprogramme. Wollen Sie sourcen und langsamer Festplatte unter- rück, die das unscheinbare Suchfeld ver- die Baloo-Konfiguration aufrufen, klicken wegs ist. Denn hier spielt das Tool seine birgt. Es unterstützt auch boolesche Ope- Sie links auf Dateisuche. Stärken voll aus: Es sucht nur dort nach ratoren, allerdings nur in englischer Spra- Dass man beim KDE-Projekt dem ei- Inhalten, wo Sie es explizit vorgeben – che. Die bekanntesten Operatoren sind genen Suchwerkzeug nur bedingt ver- alle anderen Bereiche der Festplatte lässt OR (oder), AND (und) und NOT (nicht). traut, wird nicht zuletzt dadurch deut- DocFetcher in Ruhe. Dass das DocFet- Eine Suche mit diesen Operatoren könnte lich, dass die Analyse der Dateinhalte cher-GUI intuitiv nutzbar ist und die Doc- etwa sein: „Aber bitte mit Sahne“ OR (Also index file content) ab Werk deak- Fetcher-Konfiguration leicht fällt, macht „Vielen Dank für die Blumen“. tiviert ist (Abbildung 8). DocFetcher zu einem empfehlenswerten Eine vollständige Übersicht in deut- Will man Ordner oder Dateien aus Suchprogramm. scher Sprache über die Möglichkeiten dem Baloo-Index entfernen, geht das Attraktiv ist der DocFetcher-Einsatz des Suchfelds erhalten Sie, indem Sie auf zwar per KDE-Kontrollzentrum oder al- auch, wenn Sie USB-Sticks indexieren das Icon mit dem Fragezeichen neben ternativ über eine Konfigurationsdatei. wollen, denn das Programm läuft auf al- der Suchleiste und dann auf Suchanfra­ Dazu öffnen Sie in einem Texteditor len gängigen Betriebssystemen. Sie kön- ge-Syntax im unteren Teil der geöffneten ~/​.config/​baloofilerc. Leider ist das die nen DocFetcher also einfach mit den zu Hilfe klicken. einzige Konfigurationsoption, die das indexierenden Dateien auf den USB-Stick GUI unterstützt. Andere Baloo-Einstel- kopieren – fertig. Das haben wir auch für Wo DocFetcher Baloo aussticht lungen lassen sich also nur über die den Index der EasyLinux-Archiv-DVD Am Ende der DocFetcher-Vorstellung stellt Konfigurationsdatei vornehmen, was genutzt. (hge) n sich die Frage, warum Sie sich als Nutzer nicht annähernd so komfortabel ist wie mit dem Programm überhaupt beschäfti- bei DocFetcher – wo Sie sämtliche Ein- INFOS gen sollen – es gibt in KDE schließlich mit stellungen per GUI er­reichen. [1] DocFetcher: http://​­docfetcher.​ Baloo einen Dienst, der ganz ähnliche ­sourceforge.​­net/​­de/​­index.​­ Funktionen bietet oder sie zumindest ver- … und wo nicht (http://​­ezlx.​­de/​­k2g1) spricht. Und anders als DocFetcher gehört Einen großen Vorteil hat Baloo gegenüber [2] Baloo: https://​­community.​­kde.​­org/​­Baloo Baloo fest zu einer KDE-Standardinstalla- DocFetcher jedoch: Das Programm ist (http://​­ezlx.​­de/​­k2g2) tion. Richten Sie also einen KDE-Desktop nahtlos in die KDE-Oberfläche integriert. ein, ist Baloo schon mit dabei. Theoretisch Drücken Sie also im KDE-Dateimanager SOFTWARE AUF DVD: ist in Sachen Datei-Indexierung bei KDE Dolphin [Strg-F], um ein Suchfeld zu öff- DocFetcher 1.1.19 also alles in bester Ordnung. Praktisch sieht es anders aus. Bei Google etwa türmen sich die Suchanfra- gen, wie man Baloo abschaltet. Denn viele Nutzer und gerade jene mit langsa- meren Festplatten sind von dem Dienst vorrangig genervt. Baloo indexiert grundsätzlich das gesamte persönliche Verzeichnis des Nutzers, wenn dieser die Einstellungen nicht explizit ändert. Wenn der Indexierer von Baloo losläuft, um den Index zu aktualisieren (und das tut es ab Werk in regelmäßigen Abstän- den), leistet die Festplatte Schwerstar- beit. Auch über die CPU-Last, die der Dienst hervorruft, gibt es viele Be- schwerden in den KDE-Nutzerforen. Immerhin: Baloo bietet mittlerweile ein Abb. 9: Anders als DocFetcher ist Baloo in KDE integriert und lässt sich aus Dolphin he­ funktionierendes Modul für die KDE-Sys- raus aktivieren – es ist kein Start einer zusätzlichen Anwendung nötig.

50 www.easylinux.de EasyLinux 05/18 – 07/18