Recoll/Xapian - EZiente Dokumenten- / Desktopsuche

Recoll/Xapian - EZiente Dokumenten- / Desktopsuche

Recoll/Xapian - eziente Dokumenten- / Desktopsuche Michael Schwipps 26. Januar 2016 Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Übersicht I Recoll ist ein Google für zu hause I Motivation / Warum? I Features I Erweiterungsmöglichkeiten und Grenzen Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Motivation, Eigenschaften klassischer Unix-Tools I Unix-Tool: Xgrep, ctags, cscope I zuverlässig, stabil, sicher, schnell aber I nur textbasierte Dateiformate, keine Binärformate I RegEx, boolesche Verknüpfung über etwas Shell-Magie I sehr gute Vim-Integration Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Recoll I Unterstützt direkt die üblichen Dokumenten- und Containerformate I Container multilevel, z.B. tgz in Email I boolesche Ausdrücke in der üblichen Suchmaschinen-Notation, Wildcard* I die Textextraktion erfolgt mit Linux-Standardtools(z.B. pdftotext) I leicht erweiterbar I fuzzy-Suche, mehrsprachiges Stemming während der Suche (z.B. deutsch und englisch), Stammformbildung: iegen, iege, og I Priorisierung/Ranking I aspell-basiertes Meinten Sie-Feature / Anti-Tippfehlervorschlag Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Recoll 2, Xapian I gibt's fertig als CLI-Tool und X-Programm I Integration in Web-Tools (z.B. MediaWiki, redmine) häug leicht durch fertig Plugins möglich I Datenbank-Indizierung via Sprachintegration python, php I Indizierungstrigger erfolgt über expliziten Aufruf (z.B. cronjob) oder via FAM/inotify I Xapian ist das Speicher-Backend (Search Engine Library) I in C++ geschrieben und mit noch mehr Sprachbindung für Perl, Python, PHP, Java, Tcl, C#, Ruby, Lua, Erlang and Node.js I Indizierung via Recoll und Suche via Xapian möglich Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Erweiterbarkeit bei der Textextraktion I Beispiel: vermailte Pdf-Dateien aus einem Kopierer indizieren I Besonderheit dabei: der Textinhalt steht nicht unmittelbar in der Datei I OCR/Tesseract-Integration (Idee/Bug/Issue von mir) I Anhänge kann kein (mir) bekannte MUA durchsuchen, der IMAP-Standard kann das imho auch nicht I Container mbox / Email auf Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Integration in mutt I Voraussetzung: Speicherung der Email in Maildir I Indizierung erfolgt wie üblich I Suche über ein Shellskript das eine Maildir mit gesymlinkten Sucherergebnissen generiert Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Querverweise auf vergleichbare Tools I Solr (fett, nur Web-Interface, Erweiterbarkeit nur mit java?), hat dafür noch weitere fuzzy-Methoden (z.B. Levenshtein) und ist clusterfähig, skaliert besser Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche Fragen und Quellen I Fragen? I http://www.lesbonscomptes.com/recoll I http://xapian.org Michael Schwipps Recoll/Xapian - eziente Dokumenten- / Desktopsuche.

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    9 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us