SuMa-eV Praxis Workshop: YaCy

Einführung in die Installation eigener Suchmaschinen-Software

mit YaCy

Features + Demo

hier zum Nachlesen im Anschluss zum mitmachen

SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Zielgruppe und Anwendungen

•Anwendungsbereiche alle Zielgruppen

Suchmaschinen-Dezentralisierung: Software für Software für Peer-to-Peer Websuche Suchportal im Internet Suchmaschine im Intranet

•Mögliche Datenquellen: unterstütze Protokolle jede Datenquelle Web-Standards HTTP, HTTPS, FTP anzapfen Filesystem Filesystem, SMB-Shares, Indexdateien (Dublin Core / XML) Datenbanken Import aus Wikimedia-Dumps, Retrieval aus Datenbanken Harvesting RSS-Feed Client, OAI-PMH Import

für •Integrationsmöglichkeiten des Suchinterfaces Entwickler interessant APIs Opensearch (Suchergebnisse per RSS), JSON, AJAX-Tools Tools Such-Widget, fertige Code-Snippets für eingebettete Suche

SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Beispiel: Suchportale mit YaCy

linuxtag.org

-club.de geoclub.de

fsfe.org

+ metager2

YaCy ist schnell!

SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Beispiel: Open Access Repository Harvesting 2000 Open Access Repositories

OAI-PMH Import

Dublin Core OA-Suche; ca. 8.800.000 Metadaten eBooks in demo-Suche auf http://oai.yacy.net

Anleitung um diesen (web) Suchindex Dienst selber zu erstellen: http://yacy.net/oai.html

Datenquellen zu OAI Servern: Anwendungen: http://roar.eprints.org • dezentrale OAI Repository Suche http://www.openarchives.org/Register/ListFriends • Suche für Virtuelle Fachbibliotheken

SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Beispiel: Suchseite SRU

API für Suchergebnis als RSS bzw. Opensearch, auch JSON

Navigatoren: Domänen, Autoren

,besser‘

G**gle-ähnliche Darstellung der Suchergebnisse

SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Suchappliance: Funktionsreichtum, einfach zu bedienen

•Verschiedenste Datenquellen einfach nutzen Crawler

Harvester komfortabel Datenbanken

•Integrierte Parser für Dateiformate Web-Standards HTML, XHTML, RSS, RDF, XHTML+RDFa, FOAF, vCard, Flash Office PDF, PS, Word, Excel, Visio, Powerpoint, OpenOffice, RTF, csv Archive gzip, zip, tar, rar, bzip2, 7zip reichhaltig andere torrent, images(EXIF)

•Automatische Steuerung und Index-Administration Scheduler automatische Indexerneuerung, jeder Vorgang kann zeitgesteuert werden Monitoring Index-Erzeugung und Linkstrukturen visualisieren und editieren

produktions- SuMa-eV-Kongress 2010 Praxis Workshop: Michaelreif Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Funktionsweise: Crawler und Indexierer

YaCy Application: retrieval, indexing, storage and search components overview

Depth = 0 Start-URL Text Analysis Indexing

@

links words Depth = 1

Double Link Stopwords

Crawler Check Check Depth = 2 URL Reverse Crawl Stack Word Index

Word URL References

YaCy has an Database integrated NoSQL Database. The database stores a Reverse Word Index, Metadata

Search and the source

Interface documents.

YaCy Peer-to-Peer Network

SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Funktionsweise: Peer-to-Peer Netzwerk

The YaCy Network: a distributed hash table

Peer

Peer Peer This peer (as an A peer which example) fetches searches information some Web pages and can access directly distributes index Peer Peer peers holding the fragments to other corresponding index peers.

Peer Peer

DHT-Store Peer DHT-Read

YaCy peers store index fragments according to a ,folded‘ ordering on word-hashes and url- hashes in a distributed hash table (DHT). The index is distributed redundantly to save the index when some peers are not available. The redundancy also helps to increase search performance.

SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Für Entwickler: Suchergebnisse per RSS oder JSON

> curl http://localhost:8080/yacysearch.rss?query=foaf&maximumRecords=10 einfach Friend of a Friend (FOAF) project http://www.foaf-project.org/ Die Dublin-Core Datensätze Fri, 23 May 2008 02:00:00 +0200 passen perfekt auf das RSS Format. Die Suchergebnisausgabe von YaCy ist kompatibel mit dem FOAF - Wikipedia Opensearch Standard http://de.wikipedia.org/wiki/FOAF Tue, 08 Jan 2008 01:00:00 +0100 Als leichtgewichtige Alternative http://microformats.org/wiki/xfn-to-foaf steht JSON als Exportformat für Fri, 09 May 2008 02:00:00 +0200 die Einbindung mit AJAX zur Verfügung. Info über Opensearch Standard: Als Erweiterung von Opensearch http://www.opensearch.org werden Navigatoren ausgeliefert. Info über SRU Standard für Queries: http://www.loc.gov/standards/sru/specs/search-retrieve.html SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Für Entwickler: Dateneingabe per XML (Dublin Core)

YaCy kann Dublin Core Medata XML Dateien als verarbeiten http://de.wikipedia.org/wiki/Alan_Smithee de 2009-04-14T00:00:00Z einfach integrierbar Damit YaCy eine Dublin Core XML Datei verarbeitet, muss diese lediglich in einem Übergabeverzeichnis (DATA/SURROGATES/in/) abgespeichert werden. Info über Dublin Core Standard: http://dublincore.org/documents/dc-xml-guidelines/

SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Installation

•Download von http://yacy.net

YaCy für Windows YaCy für Mac YaCy für YaCy für Linux / generisch (tar.gz)

Lizenz: GPL •Auspacken, starten freie Software Packages: Je nach Betriebssystem den Anweisungen des Installers folgen, oder tarball: tar.gz auspacken und Startscript starten •Administration über Webinterface YaCy ist eine Webapplikation. Die gesamte Administration erfolgt über den Browser. Einfach http://localhost:8080 im Browser öffnen. Dann den Use Case (P2P Websuche, Portal, Intranet) wählen und Index erstellen. •Support Bei Fragen und/oder Problemen einfach im Forum posten: http://forum.yacy.de Eine gewisse Hilfe bietet auch das YaCy Wiki: http://wiki.yacy.de Anfragen für professionellen Support und kommerzielle Erweiterungen an Michael Christen, [email protected] SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Demo: Überblick

zur Auswahl stehen:

•Portalsuch im Internet wie bei http://yacy.net und bei http://geoclub.de

•Alert-Service für Nachrichten per RSS einen News-Feed aus Suchergebnissen in News-Feeds erstellen

•Intranetindexierung lokale Webserver und Fileshares

•Virtuelle Fachbibliothek aus OAI-PMH Import die eigene Buchsuche

SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Demo: Portalsuche im Internet

Vorbereitung: • Datenquellen zusammenstellen (einzelne URLs) oder • Linkliste als html-Datei erstellen und im Internet hochladen

Beispiel für Liste von URLs für Portalsuche von YaCy: • http://yacy.net wird als sitemap erfasst: http://yacy.net/sitemap.xml • http://forum.yacy.de/ wird über eine sitemap erfasst: http://forum.yacy-websuche.de/sitemap.php • Updates von http://forum.yacy.de/ werden als rss-feed erfasst http://forum.yacy-websuche.de/feed.php • Das Wiki http://www.yacy-websuche.de/wiki/ wird über den Wiki-Crawler erfasst: http://www.yacy-websuche.de/wiki/

Beispiel für Crawlen einer Linkliste bei der Geocaching-Suche auf geoclub.de: • Einen Site-Crawl für eine Link-Liste starten: http://news.geocaching-portal.com/yacy-urls.php

SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Demo: Alert-Service für Nachrichten per RSS

Ziel: • bestimmte Datenquellen regelmäßig in den Index ziehen • mit einer speziellen Suchabfrage einen RSS-Feed zu einem Topic als Ergebnis einer Suche erhalten

Schritte: • RSS feeds mit dem RSS feed reader in YaCy importieren • jedes Feed kann individuell im Scheduler mit einer anderen Updatefrequenz versehen werden • Suchanfrage in Suchmaske eingeben und mit dem Schlüsselwort ,RECENT‘ ergänzen • Die URL Suchergebnisseite bearbeiten: filetype ,html‘ einfach durch ,rss‘ ersetzen • Diese URL kann dann in einem feed-reader als feed importiert werden und präsentiert dann immer die aktuellen Nachrichten zu einem Topic

Beispiel-Feeds: • Tagesthemen http://www.tagesschau.de/xml/rss2 • Heise http://www.heise.de/newsticker/heise-atom.xml • Gulli http://ticker.gulli.com/rss

SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Demo: Intranetindexierung

Vorbereitung: • repository1 über Apache frei geben • repository2 als smb-share frei geben

über Web-Server freigeben

als smb-share freigeben

Schritte: • YaCy in Intranet-Modus schalten • Einen Site-Crawl starten mit http://localhost und smb://localhost/repository2/

SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Demo: Virtuelle Fachbibliothek aus OAI-PMH Import

Vorbereitung: • OAI-PMH Server-Adressen der Einzelnen Bibliotheksquellen zu einem Fachgebiet sammeln, oder • OAI-PMH Server-Adressen aus der in YaCy vorrätigen Liste auswählen (>2000 Quellen verfügbar)

Schritte: • OAI-PMH Importer wählen • alle Server-Adressen entweder einzeln angeben oder • alle Server-Adressen aus der Liste gleichzeitig anwählen und den Import starten

Ergebnis: • Die YaCy Portalsuche präsentiert eine Themensuche zu den ausgewählten Quellen • Autoren-Navigatoren sind verfügbar • Updates aus den Imports sind wie bei der Demo zu Alerts verfügbar • Die Suche kann sehr einfach über das Widget in andere Webseiten eingebunden werden

SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net