Suchmaschinensoftware
Total Page:16
File Type:pdf, Size:1020Kb
YaCy Besonderheiten Suchmaschinensoftware ‣ Unzensierbare Suche im P2P-Verbund Dezentrales Netz ‣ Dein eigenes Suchportal, deine Inhalte Im freeworld-YaCy Netz ist jeder ‣ Intranet- und Filesystemsuche Teilnehmer gleichberechtigt, es gibt keinen zentralen Server. ‣ API zur Integration (xml/json über http) Rechts: Darstellung der an- geschlossenen und aktiven YaCy Wer viele Daten hat oder Daten des World Wide Web indexieren will, braucht Rechner im freeworld-Netz. eine eigene Suchmaschine. YaCy ist die Software für ein öffentliches oder Die pulsierenden Punkte zeigen privates Suchportal bei der Du entscheidest was im Suchindex ist. Weil dies dann Crawlende Peers. Dein Suchportal ist, ist jede Suche für dich anonym und unzensierbar. Web-Visualisierung Technologie Peer-to-Peer Einzelinstallation YaCy kann die durchsuchten Web- seiten und deren Verlinkung als Grafik darstellen. Anwendungen Data Mining Verlinkungsstrukturen (forward-/ backlinks), Linklisten und Domain- listen können als xml über http alternative das eigene Intranet Web -Suche Web-Portal Web-Suche exportiert werden. Performance - Leistungssteigerungen gegenüber vorherigen Versionen: Web-Suche im P2P-Netz Suchmaschine für deine Daten • nahezu keine IO-Last mehr. Man kann YaCy im Hintergrund betreiben. Deine YaCy-Instanz kann sich mit Du hast viele Dokumente und willst diese • Der Crawler erfasst und parst 2000 Web-Seiten pro Minute; der Indexierer denen der anderen YaCy-Betrei- entweder öffentlich anbieten oder im verarbeitet bis zu 30.000 Dokumente pro Minute (aus XML, Surrogate). ber verbinden. Jede Web-Suche Intranet durchsuchen können: • Bis zu 30 Suchanfragen pro Sekunde sind möglich. in deinem Peer nutzt dann auch • Starte einen Web-Crawl für dein eigenes • Ein Peer kann 20 Millionen Dokumente erfassen bei einem RAM- den Web-Index der anderen Suchportal. Wenn du ein Forum oder Bedarf von 2GB. Im Peer-to-Peer - Verbund kann eine unbegrenzte Zahl von Peers – und umgekehrt. Diese Wiki hast: YaCy bietet spezialisierte Dokumenten erfasst werden, dabei skaliert YaCy dynamisch mit neuen Peers. Funktion ist beim Programmstart Erfassungsfunktionen. des Standard-Releases bereits • Im Intranet kannst du das eigene voreingestellt. Die Installation ist Filesystem oder ein Netzlauferk erfassen Download http://yacy.net sehr einfach: nur herunterladen, und über die YaCy-Suchseite für alle im Free Software - Open Source / GPL-Lizenz - Support über forum.yacy.de auspacken, starten. Intranet zugänglich machen. YaCy Indexierer und Suche YaCy Anwendungen Der Such-Index in YaCy wird durch einen Web/File-Crawl, durch Import Suchportalbetreiber nutzen YaCy als Content-Lieferant: von Texten in XML (Surrogate) oder durch direkten Export aus einer SQL • MetaGer betreibt YaCy-Peers und feeded Such- Datenbank gefüllt. Parser: doc/ppt/xls/pdf/rss/swf/rtf/odt etc. werden gelesen. resultate in die Metasuchergebnisse – metager.de Daten-Eingabe: verschiedene Möglichkeiten um den Such-Index aufzubauen • Fireball realisiert eine Expertensuche mit YaCy durch Web-Crawler Import aus XML SQL-Export den Aufbau von spezialisierten Suchindexen – fireball.de • Das Forschungszentrum Karlsruhe betreibt ein YaCy- Dublin Core Metadata (Surrogate) phpBB3 <?xml version="1.0" encoding="utf-8"?> Netz aus 30 Rechnern zur Erfassung universitärer und <!-- YaCy surrogate using dublin core notion --> mediaWiki <surrogates wissenschaftlichen Webseiten weltweit – sciencenet.fzk.de xmlns:dc="http://purl.org/dc/elements/1.1/"> Start-URL vBulletin <record> <dc:title><![CDATA[Alan Smithee]]></dc:title> Integration in Wikis, Foren, Blogs mit einem Such-Widget: <dc:identifier>http://de.wikipedia.org/wiki/ ... Alan_Smithee</dc:identifier> YaCy bietet hierzu vorge- <dc:description><![CDATA[Der als Filmregisseur oft genannte '''Alan Smithee''' ist ein Anagramm ... von „The Alias Men“.]]></dc:description> fertigte Code-Snippets. Zur <dc:language>de</dc:language> <dc:date>2009-04-14T00:00:00Z</dc:date> ... Erfassung der Content- <!-- date is in ISO 8601 --> </record> Systeme (Blogs, Wikis, Foren) </surrogates> mehr Exporte in Arbeit mehr Exporte in ... sind spezialisierte Harvester vorhanden. Die YaCy-Suche Die Suche steht über den in YaCy integrierten Webserver als ,normale‘ dient dann als Meta-Suche Websuche, als Such-Widget und in Form einer RSS Ausgabe entsprechend über die verschiedenen opensearch.org zur Verfügung. Die Funktionen des APIs können als XML und Quellen und bietet dazu > curl http://localhost:8080/yacysearch.rss?query=foaf&maximumRecords=10 JSON abgefragt und spezifische Navigatoren. <?xml version="1.0" encoding="UTF-8"?> in eigene Programme <?xml-stylesheet type='text/xsl' href='/yacysearch.xsl' version='1.0'?> > curl http://localhost:8080/api/webstructure.xml?about=yacy.net <rss version="2.0" eingebunden werden. Die Analysefunktion zur xmlns:yacy="http://www.yacy.net/" <?xml version="1.0"?> xmlns:opensearch="http://a9.com/-/spec/opensearch/1.1/" Verlinkungsstrukur ist für <webstructure maxhosts="20000"> <!-- stark verkürztes Beispiel! --> <references direction="out" count="1" maxref="300"> Webdesigner interessant: <domain host="yacy.net" id="Fh1hyQ" date="20090618"> <item> <reference id="VRAHIA" count="5">suma-ev.de</reference> <title>Friend of a Friend (FOAF) project</title> über das http-API können <reference id="EMaLDQ" count="3">www.kit.edu</reference> <link>http://www.foaf-project.org/</link> <reference id="sX4ozA" count="15">liebel.fzk.de</reference> <pubDate>Fri, 23 May 2008 02:00:00 +0200</pubDate> XML-Dokumente mit in- </domain> </item> </references> <references direction="in" count="1"> <item> und out-Links zu beliebigen <domain host="yacy.net" id="Fh1hyQ" date="20090618"> <title>FOAF - Wikipedia</title> <reference id="a_bYbR" count="32">de.wikipedia.org</reference> <link>http://de.wikipedia.org/wiki/FOAF</link> Domänen abgefragt werden. <reference id="DWDqhA" count="1">hwiki.fzk.de</reference> <pubDate>Tue, 08 Jan 2008 01:00:00 +0100</pubDate> <reference id="4JR9RA" count="1">wiki.yacy.de</reference> </item> <reference id="wqcWfA" count="1">www.itgrl.de</reference> YaCy enthält ausserdem ein <reference id="P290EA" count="128">www.heise.de</reference> <item> <reference id="z4bRCA" count="1">blog.suma-ev.de</reference> <link>http://microformats.org/wiki/xfn-to-foaf</link> Bookmark-System mit <reference id="sX4ozA" count="5">liebel.fzk.de</reference> <pubDate>Fri, 09 May 2008 02:00:00 +0200</pubDate> <reference id="FXg39Q" count="3">www.yacy.net</reference> </item> sharing-Funktionen und ent- </domain> </rss> </references> sprechendem XBEL-API. </webstructure>.