Recoll/Xapian - EZiente Dokumenten- / Desktopsuche
Total Page:16
File Type:pdf, Size:1020Kb
Recoll/Xapian - eziente Dokumenten- / Desktopsuche Michael Schwipps 26. Januar 2016 Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Übersicht I Recoll ist ein Google für zu hause I Motivation / Warum? I Features I Erweiterungsmöglichkeiten und Grenzen Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Motivation, Eigenschaften klassischer Unix-Tools I Unix-Tool: Xgrep, ctags, cscope I zuverlässig, stabil, sicher, schnell aber I nur textbasierte Dateiformate, keine Binärformate I RegEx, boolesche Verknüpfung über etwas Shell-Magie I sehr gute Vim-Integration Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Recoll I Unterstützt direkt die üblichen Dokumenten- und Containerformate I Container multilevel, z.B. tgz in Email I boolesche Ausdrücke in der üblichen Suchmaschinen-Notation, Wildcard* I die Textextraktion erfolgt mit Linux-Standardtools(z.B. pdftotext) I leicht erweiterbar I fuzzy-Suche, mehrsprachiges Stemming während der Suche (z.B. deutsch und englisch), Stammformbildung: iegen, iege, og I Priorisierung/Ranking I aspell-basiertes Meinten Sie-Feature / Anti-Tippfehlervorschlag Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Recoll 2, Xapian I gibt's fertig als CLI-Tool und X-Programm I Integration in Web-Tools (z.B. MediaWiki, redmine) häug leicht durch fertig Plugins möglich I Datenbank-Indizierung via Sprachintegration python, php I Indizierungstrigger erfolgt über expliziten Aufruf (z.B. cronjob) oder via FAM/inotify I Xapian ist das Speicher-Backend (Search Engine Library) I in C++ geschrieben und mit noch mehr Sprachbindung für Perl, Python, PHP, Java, Tcl, C#, Ruby, Lua, Erlang and Node.js I Indizierung via Recoll und Suche via Xapian möglich Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Erweiterbarkeit bei der Textextraktion I Beispiel: vermailte Pdf-Dateien aus einem Kopierer indizieren I Besonderheit dabei: der Textinhalt steht nicht unmittelbar in der Datei I OCR/Tesseract-Integration (Idee/Bug/Issue von mir) I Anhänge kann kein (mir) bekannte MUA durchsuchen, der IMAP-Standard kann das imho auch nicht I Container mbox / Email auf Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Integration in mutt I Voraussetzung: Speicherung der Email in Maildir I Indizierung erfolgt wie üblich I Suche über ein Shellskript das eine Maildir mit gesymlinkten Sucherergebnissen generiert Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Querverweise auf vergleichbare Tools I Solr (fett, nur Web-Interface, Erweiterbarkeit nur mit java?), hat dafür noch weitere fuzzy-Methoden (z.B. Levenshtein) und ist clusterfähig, skaliert besser Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Fragen und Quellen I Fragen? I http://www.lesbonscomptes.com/recoll I http://xapian.org Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche.