Recoll/Xapian - eziente Dokumenten- / Desktopsuche
Michael Schwipps
26. Januar 2016
Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Übersicht
I Recoll ist ein Google für zu hause
I Motivation / Warum?
I Features
I Erweiterungsmöglichkeiten und Grenzen
Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Motivation, Eigenschaften klassischer Unix-Tools
I Unix-Tool: Xgrep, ctags, cscope
I zuverlässig, stabil, sicher, schnell aber
I nur textbasierte Dateiformate, keine Binärformate
I RegEx, boolesche Verknüpfung über etwas Shell-Magie
I sehr gute Vim-Integration
Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Recoll
I Unterstützt direkt die üblichen Dokumenten- und Containerformate
I Container multilevel, z.B. tgz in Email I boolesche Ausdrücke in der üblichen Suchmaschinen-Notation, Wildcard*
I die Textextraktion erfolgt mit Linux-Standardtools(z.B. pdftotext)
I leicht erweiterbar I fuzzy-Suche, mehrsprachiges Stemming während der Suche (z.B. deutsch und englisch), Stammformbildung: iegen, iege, og
I Priorisierung/Ranking I aspell-basiertes Meinten Sie-Feature / Anti-Tippfehlervorschlag
Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Recoll 2, Xapian
I gibt's fertig als CLI-Tool und X-Programm
I Integration in Web-Tools (z.B. MediaWiki, redmine) häug leicht durch fertig Plugins möglich
I Datenbank-Indizierung via Sprachintegration python, php
I Indizierungstrigger erfolgt über expliziten Aufruf (z.B. cronjob) oder via FAM/inotify
I Xapian ist das Speicher-Backend (Search Engine Library)
I in C++ geschrieben und mit noch mehr Sprachbindung für Perl, Python, PHP, Java, Tcl, C#, Ruby, Lua, Erlang and Node.js
I Indizierung via Recoll und Suche via Xapian möglich
Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Erweiterbarkeit bei der Textextraktion
I Beispiel: vermailte Pdf-Dateien aus einem Kopierer indizieren
I Besonderheit dabei: der Textinhalt steht nicht unmittelbar in der Datei
I OCR/Tesseract-Integration (Idee/Bug/Issue von mir)
I Anhänge kann kein (mir) bekannte MUA durchsuchen, der IMAP-Standard kann das imho auch nicht
I Container mbox / Email auf
Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Integration in mutt
I Voraussetzung: Speicherung der Email in Maildir
I Indizierung erfolgt wie üblich
I Suche über ein Shellskript das eine Maildir mit gesymlinkten Sucherergebnissen generiert
Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Querverweise auf vergleichbare Tools
I Solr (fett, nur Web-Interface, Erweiterbarkeit nur mit java?), hat dafür noch weitere fuzzy-Methoden (z.B. Levenshtein) und ist clusterfähig, skaliert besser
Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Fragen und Quellen
I Fragen?
I http://www.lesbonscomptes.com/recoll
I http://xapian.org
Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche