/Xapian - eziente Dokumenten- / Desktopsuche

Michael Schwipps

26. Januar 2016

Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Übersicht

I Recoll ist ein Google für zu hause

I Motivation / Warum?

I Features

I Erweiterungsmöglichkeiten und Grenzen

Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Motivation, Eigenschaften klassischer Unix-Tools

I Unix-Tool: Xgrep, ctags, cscope

I zuverlässig, stabil, sicher, schnell  aber

I nur textbasierte Dateiformate, keine Binärformate

I RegEx, boolesche Verknüpfung über etwas Shell-Magie

I sehr gute Vim-Integration

Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Recoll

I Unterstützt direkt die üblichen Dokumenten- und Containerformate

I Container multilevel, z.B. tgz in Email I boolesche Ausdrücke in der üblichen Suchmaschinen-Notation, Wildcard*

I die Textextraktion erfolgt mit -Standardtools(z.B. pdftotext)

I leicht erweiterbar I fuzzy-Suche, mehrsprachiges Stemming während der Suche (z.B. deutsch und englisch), Stammformbildung: iegen, iege, og

I Priorisierung/Ranking I aspell-basiertes Meinten Sie-Feature / Anti-Tippfehlervorschlag

Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Recoll 2, Xapian

I gibt's fertig als CLI-Tool und X-Programm

I Integration in Web-Tools (z.B. MediaWiki, redmine) häug leicht durch fertig Plugins möglich

I Datenbank-Indizierung via Sprachintegration python,

I Indizierungstrigger erfolgt über expliziten Aufruf (z.B. cronjob) oder via FAM/inotify

I Xapian ist das Speicher-Backend (Search Engine Library)

I in C++ geschrieben und mit noch mehr Sprachbindung für , Python, PHP, , Tcl, C#, Ruby, Lua, Erlang and Node.js

I Indizierung via Recoll und Suche via Xapian möglich

Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Erweiterbarkeit bei der Textextraktion

I Beispiel: vermailte Pdf-Dateien aus einem Kopierer indizieren

I Besonderheit dabei: der Textinhalt steht nicht unmittelbar in der Datei

I OCR/Tesseract-Integration (Idee/Bug/Issue von mir)

I Anhänge kann kein (mir) bekannte MUA durchsuchen, der IMAP-Standard kann das imho auch nicht

I Container mbox / Email auf

Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Integration in mutt

I Voraussetzung: Speicherung der Email in Maildir

I Indizierung erfolgt wie üblich

I Suche über ein Shellskript das eine Maildir mit gesymlinkten Sucherergebnissen generiert

Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Querverweise auf vergleichbare Tools

I Solr (fett, nur Web-Interface, Erweiterbarkeit nur mit java?), hat dafür noch weitere fuzzy-Methoden (z.B. Levenshtein) und ist clusterfähig, skaliert besser

Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Fragen und Quellen

I Fragen?

I http://www.lesbonscomptes.com/recoll

I http://xapian.org

Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche