SuMa-eV Praxis Workshop: YaCy
Einführung in die Installation eigener Suchmaschinen-Software
mit YaCy
Features + Demo
hier zum Nachlesen im Anschluss zum mitmachen
SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Zielgruppe und Anwendungen
•Anwendungsbereiche alle Zielgruppen
Suchmaschinen-Dezentralisierung: Software für Software für Peer-to-Peer Websuche Suchportal im Internet Suchmaschine im Intranet
•Mögliche Datenquellen: unterstütze Protokolle jede Datenquelle Web-Standards HTTP, HTTPS, FTP anzapfen Filesystem Filesystem, SMB-Shares, Indexdateien (Dublin Core / XML) Datenbanken Import aus Wikimedia-Dumps, Retrieval aus Datenbanken Harvesting RSS-Feed Client, OAI-PMH Import
für •Integrationsmöglichkeiten des Suchinterfaces Entwickler interessant APIs Opensearch (Suchergebnisse per RSS), JSON, AJAX-Tools Tools Such-Widget, fertige Code-Snippets für eingebettete Suche
SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Beispiel: Suchportale mit YaCy
linuxtag.org
linux-club.de geoclub.de
fsfe.org
metager + metager2
YaCy ist schnell!
SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Beispiel: Open Access Repository Harvesting 2000 Open Access Repositories
OAI-PMH Import
Dublin Core OA-Suche; ca. 8.800.000 Metadaten eBooks in demo-Suche auf http://oai.yacy.net
Anleitung um diesen (web) Suchindex Dienst selber zu erstellen: http://yacy.net/oai.html
Datenquellen zu OAI Servern: Anwendungen: http://roar.eprints.org • dezentrale OAI Repository Suche http://www.openarchives.org/Register/ListFriends • Suche für Virtuelle Fachbibliotheken
SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Beispiel: Suchseite SRU
API für Suchergebnis als RSS bzw. Opensearch, auch JSON
Navigatoren: Domänen, Autoren
,besser‘
G**gle-ähnliche Darstellung der Suchergebnisse
SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Suchappliance: Funktionsreichtum, einfach zu bedienen
•Verschiedenste Datenquellen einfach nutzen Crawler
Harvester komfortabel Datenbanken
•Integrierte Parser für Dateiformate Web-Standards HTML, XHTML, RSS, RDF, XHTML+RDFa, FOAF, vCard, Flash Office PDF, PS, Word, Excel, Visio, Powerpoint, OpenOffice, RTF, csv Archive gzip, zip, tar, rar, bzip2, 7zip reichhaltig andere torrent, images(EXIF)
•Automatische Steuerung und Index-Administration Scheduler automatische Indexerneuerung, jeder Vorgang kann zeitgesteuert werden Monitoring Index-Erzeugung und Linkstrukturen visualisieren und editieren
produktions- SuMa-eV-Kongress 2010 Praxis Workshop: Michaelreif Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Funktionsweise: Crawler und Indexierer
YaCy Application: retrieval, indexing, storage and search components overview
Depth = 0 Start-URL Text Analysis Indexing
@
links words Depth = 1
Double Link Stopwords
Crawler Check Check Depth = 2 URL Reverse Crawl Stack Word Index
Word URL References
YaCy has an Database integrated NoSQL Database. The database stores a Reverse Word Index, Metadata
Search and the source
Interface documents.
YaCy Peer-to-Peer Network
SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Funktionsweise: Peer-to-Peer Netzwerk
The YaCy Network: a distributed hash table
Peer
Peer Peer This peer (as an A peer which example) fetches searches information some Web pages and can access directly distributes index Peer Peer peers holding the fragments to other corresponding index peers.
Peer Peer
DHT-Store Peer DHT-Read
YaCy peers store index fragments according to a ,folded‘ ordering on word-hashes and url- hashes in a distributed hash table (DHT). The index is distributed redundantly to save the index when some peers are not available. The redundancy also helps to increase search performance.
SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Für Entwickler: Suchergebnisse per RSS oder JSON
> curl http://localhost:8080/yacysearch.rss?query=foaf&maximumRecords=10 einfach
YaCy kann Dublin Core Medata XML Dateien als
SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Installation
•Download von http://yacy.net
YaCy für Windows YaCy für Mac YaCy für Debian YaCy für Linux / generisch (tar.gz)
Lizenz: GPL •Auspacken, starten freie Software Packages: Je nach Betriebssystem den Anweisungen des Installers folgen, oder tarball: tar.gz auspacken und Startscript starten •Administration über Webinterface YaCy ist eine Webapplikation. Die gesamte Administration erfolgt über den Browser. Einfach http://localhost:8080 im Browser öffnen. Dann den Use Case (P2P Websuche, Portal, Intranet) wählen und Index erstellen. •Support Bei Fragen und/oder Problemen einfach im Forum posten: http://forum.yacy.de Eine gewisse Hilfe bietet auch das YaCy Wiki: http://wiki.yacy.de Anfragen für professionellen Support und kommerzielle Erweiterungen an Michael Christen, [email protected] SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Demo: Überblick
zur Auswahl stehen:
•Portalsuch im Internet wie bei http://yacy.net und bei http://geoclub.de
•Alert-Service für Nachrichten per RSS einen News-Feed aus Suchergebnissen in News-Feeds erstellen
•Intranetindexierung lokale Webserver und Fileshares
•Virtuelle Fachbibliothek aus OAI-PMH Import die eigene Buchsuche
SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Demo: Portalsuche im Internet
Vorbereitung: • Datenquellen zusammenstellen (einzelne URLs) oder • Linkliste als html-Datei erstellen und im Internet hochladen
Beispiel für Liste von URLs für Portalsuche von YaCy: • http://yacy.net wird als sitemap erfasst: http://yacy.net/sitemap.xml • http://forum.yacy.de/ wird über eine sitemap erfasst: http://forum.yacy-websuche.de/sitemap.php • Updates von http://forum.yacy.de/ werden als rss-feed erfasst http://forum.yacy-websuche.de/feed.php • Das Wiki http://www.yacy-websuche.de/wiki/ wird über den Wiki-Crawler erfasst: http://www.yacy-websuche.de/wiki/
Beispiel für Crawlen einer Linkliste bei der Geocaching-Suche auf geoclub.de: • Einen Site-Crawl für eine Link-Liste starten: http://news.geocaching-portal.com/yacy-urls.php
SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Demo: Alert-Service für Nachrichten per RSS
Ziel: • bestimmte Datenquellen regelmäßig in den Index ziehen • mit einer speziellen Suchabfrage einen RSS-Feed zu einem Topic als Ergebnis einer Suche erhalten
Schritte: • RSS feeds mit dem RSS feed reader in YaCy importieren • jedes Feed kann individuell im Scheduler mit einer anderen Updatefrequenz versehen werden • Suchanfrage in Suchmaske eingeben und mit dem Schlüsselwort ,RECENT‘ ergänzen • Die URL Suchergebnisseite bearbeiten: filetype ,html‘ einfach durch ,rss‘ ersetzen • Diese URL kann dann in einem feed-reader als feed importiert werden und präsentiert dann immer die aktuellen Nachrichten zu einem Topic
Beispiel-Feeds: • Tagesthemen http://www.tagesschau.de/xml/rss2 • Heise http://www.heise.de/newsticker/heise-atom.xml • Gulli http://ticker.gulli.com/rss
SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Demo: Intranetindexierung
Vorbereitung: • repository1 über Apache frei geben • repository2 als smb-share frei geben
über Web-Server freigeben
als smb-share freigeben
Schritte: • YaCy in Intranet-Modus schalten • Einen Site-Crawl starten mit http://localhost und smb://localhost/repository2/
SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net Demo: Virtuelle Fachbibliothek aus OAI-PMH Import
Vorbereitung: • OAI-PMH Server-Adressen der Einzelnen Bibliotheksquellen zu einem Fachgebiet sammeln, oder • OAI-PMH Server-Adressen aus der in YaCy vorrätigen Liste auswählen (>2000 Quellen verfügbar)
Schritte: • OAI-PMH Importer wählen • alle Server-Adressen entweder einzeln angeben oder • alle Server-Adressen aus der Liste gleichzeitig anwählen und den Import starten
Ergebnis: • Die YaCy Portalsuche präsentiert eine Themensuche zu den ausgewählten Quellen • Autoren-Navigatoren sind verfügbar • Updates aus den Imports sind wie bei der Demo zu Alerts verfügbar • Die Suche kann sehr einfach über das Widget in andere Webseiten eingebunden werden
SuMa-eV-Kongress 2010 Praxis Workshop: Michael Christen Einführung in die Installation eigener Suchmaschinen-Software mit YaCy http://yacy.net