Abfragesprachen und erweiterte Funktionen von WWW-Suchmaschinen*

Dirk Lewandowski Universität Düsseldorf Informationswissenschaft [email protected]

Zusammenfassung gerecht werden, die letztlich ja auch in Konkurrenz zu den Der vorliegende Artikel stellt die erweiterten Suchmög- Alltagsnutzern stehen, die von sich behaupten, „in lichkeiten in den wichtigsten Suchmaschinen vor. Dabei alles finden zu können.“ handelt es sich um Google, Alta Vista, Hotbot (), In diesem Aufsatz sollen die Kommandos und Einschrän- und . Die Qualität von Suchmaschinen wird kungsmöglichkeiten der wichtigsten Suchmaschinen erläu- in der Regel durch Retrievaltests verglichen. Vor dem tert und auf ihre Besonderheiten hingewiesen werden. Hintergrund professioneller Ansprüche an die Recherche- Dabei werden nur die Möglichkeiten der Recherche nach fähigkeiten der Suchmaschinen müssen aber zusätzlich Texten behandelt; auf die Suche nach Multimedia-Inhalten auch deren Abfragemöglichkeiten betrachtet werden. Nur wird nicht eingegangen. ausgereifte Abfragesprachen erlauben komplexe Suchan- fragen, wie sie im professionellen Umfeld gestellt werden. Retrievaltests Üblicherweise werden Suchmaschinen durch Retrieval- Abstract tests miteinander verglichen (vgl. u.a. Gries- This article presents the extended search possibilities in baum/Rittberger/Bekavac 2002, Veritest 2003). Dabei the most important search engines. It concerns Google, werden die gleichen Suchanfragen an unterschiedliche Alta Vista, Hotbot (Inktomi), Teoma and Fireball. The Suchmaschinen gestellt und die zurückgegebenen Ergeb- quality of search engines is usually compared by retrieval nisse verglichen. In der Regel werden dazu die jeweiligen tests. Against the background of professional demands on Top-Platzierungen der einzelnen Suchmaschinen ausge- the abilities of search engines however their query lan- wertet (in der Regel die ersten zehn oder 20 Treffer). guages must be regarded additionally. Only perfected Bei den Retrievaltests können allerdings nur relativ unprä- query languages permit complex retrieval as placed in a zise Suchanfragen gestellt werden, da sich die Suchspra- professional shere. chen der einzelnen Suchmaschinen zu weit voneinander unterscheiden, um die Ergebnisse präziser Anfragen ver- gleichbar zu machen. Auch für den Nutzer ausgesprochen hilfreiche Methoden, um die Suchanfrage nach dem ersten Ansehen der Trefferliste weiter einzuschränken, können Einleitung bei Retrievaltests nicht berücksichtigt werden. Es ist also Als beliebte und weit verbreitete Angebote werden Such- festzustellen, dass Retrievaltests den Möglichkeiten ein- maschinen vor allem von den „gewöhnlichen Nutzern“ des zelner Suchmaschinen nicht gerecht werden können. Internet benutzt. Bisher vorliegende Untersuchungen Vielmehr müssen die Tests sich mit relativ einfachen haben gezeigt, dass diese nicht dazu bereit sind, sich mit Suchanfragen begnügen. Ihre Ergebnisse sind daher eher Operatoren und erweiterten Suchformularen auseinander für die Anfragen der gewöhnlichen Nutzer aussagekräftig; zu setzen (ausführlich in Sil- dass eine Suchmaschine einfache Anfragen in hoher Quali- verstein/Henzinger/Marais/Moricz 1998). Die Suchma- tät beantworten kann, macht sie jedoch noch nicht zur schinen haben darauf reagiert, indem erweiterte Suchfor- ersten Wahl des Information Professionals. mularen nicht mehr oder nur noch eingeschränkt weiter- Insbesondere die Suchmaschine Google erfreut sich größ- entwickelt werden. Während die „klassische“ Suchma- ter Beliebtheit und belegt in (vor allem populärwissen- schine Alta Vista sich bei ihrem Start im Jahr 1995 noch an schaftlichen) Retrievaltests in der Regel den ersten Platz. den Möglichkeiten professioneller Retrievalsysteme aus Offensichtlich gelingt es dieser Suchmaschine, einfache dem Bereich der Hosts orientierte, stellen neuere Suchma- Suchanfragen mit hoher Präzision zu beantworten. Oder – schinen oft nur wenige Kommandos zur Verfügung. um der Anlage der Retrievaltest gerecht zu werden – es Dies lenkt auf die Frage hin, in wie weit heutige Suchma- gelingt ihr, irrelevante Dokumente aus der Top-10 bzw. schinen den Anforderungen der Information Professionals Top-20 herauszuhalten. In den vorliegenden Retrievaltests sind allerdings die aktuellen Entwicklungen hin zu einem

* erscheint in: IWP Information Wissenschaft und Praxis, 55(2004)

1 massiven Spamming des Google-Index noch nicht berück- sichtigt. (Karaunikat 2003) For this operation Try this on Google Interessanterweise ist es allerdings gerade die Suchma- schine Google, die wenig Wert auf präzise Abfragemög- x AND y x y lichkeiten durch die Suchsprache oder erweiterte Such- x OR y x OR y formulare legt. Auch bei anderen Suchmaschinen lässt sich x AND (y OR z) x y OR z feststellen, dass die Abfragesprachen oft zu wünschen übrig lassen. Als Argument wird seitens der Suchmaschi- (x AND y) OR (z AND q) not yet possible nen-Betreiber angeführt, dass diese erweiterten Funktionen (x OR y) AND (z OR q) x OR y z OR q nur selten genutzt würden. Allerdings gibt es keine Erhe- x AND (y OR z OR q) x y OR z OR q bungen zu der Frage, ob diese nicht etwa von einer kleinen Gruppe von Nutzern intensiv genutzt werden. x AND (y OR z) AND q x y OR z q Tabelle 1: Showdown Analysis: Boolean Searching on Google (Notess 2000) Untersuchte Suchmaschinen Für diese Untersuchung wurden die Suchmaschinen Google, All The Web, Alta Vista, Hotbot (Inktomi), Teoma Proximity-Operatoren und Fireball ausgewählt. Hierbei handelt es sich um die Die Suche mit dem Abstandsoperator NEAR ist bei Alta Suchmaschinen mit den weltweit größten Indizes (vgl. Vista und Fireball möglich. Der voreingestellte Wortab- Sullivan 2003) bzw. im Fall von Fireball um die führende stand beträgt dabei maximal zehn Wörter. Mit dem deutsche Suchmaschine mit eigenem Index. Portalangebo- WITHIN-Operator bei Alta Vista lässt sich der maximale te wie Yahoo oder T-Online wurden nicht berücksichtigt, Wortabstand auch selbst bestimmen. Die Syntax lautet da diese ihre Suchergebnisse in nahezu allen Fällen von hier: {Suchbegriff 1} within {Wert} {Suchbegriff 2}. einer der genannten Suchmaschinen beziehen. (vgl. Clay Dabei ist auf das Leerzeichen zwischen within und dem 2002; für den deutschen Markt vgl. Suchfibel 2003) Wert zu achten. Hotbot wurde ausgewählt, da diese Suchmaschine (bzw. Die anderen untersuchten Suchmaschinen unterstützen Suchoberfläche) den komplexesten Zugriff auf den Inkto- keinerlei Abstandsoperatoren, abgesehen von (wenigstens mi-Index erlaubt. Die Firma Inktomi bietet keine eigene manchmal brauchbaren) Hilfsmitteln wie dem Platzhalter Suchmaschine an, sondern lizensiert ihre Technologie an in der Phrasensuche bei Google (siehe „Phrasensuche“). Seitenbetreiber. Dabei können diese natürlich auch über die Komplexität der Abfragemöglichkeiten entscheiden. Phrasensuche In den von allen Suchmaschinen angebotenen erweiterten Alle genannten Suchmaschinen unterstützen die Phrasen- Suchformularen sind in der Regel die gängigsten Ein- suche durch das Setzen von Anführungszeichen. Sowohl schränkungsmöglichkeiten aufgeführt. Um die volle Funk- Google als auch Alta Vista erlauben eine Art Trunkierung tionalität der jeweiligen Suchmaschine nutzen zu können, innerhalb der Phrasensuche: wird ein Platzhalten (in bei- ist es jedoch nötig, die Kommandosprachen zu verwenden. den Fällen: *) gesetzt, so ersetzt dieser genau ein Wort. Im weiteren Text werden die einzelnen Funktionen vorge- Nützlich ist diese Funktion vor allem für Suchanfragen, stellt, eine Übersicht, welche auch die Kommandos in den bei denen entweder ein Wort nicht bekannt ist, gleichzeitig unterschiedlichen Abfragesprachen enthält, gibt die Tabel- nach alter und neuer Rechtschreibung gesucht werden soll le am Ende des Textes. oder aber bewusst Schreibfehler mit in die Anfrage einge- schlossen werden sollen.

Es besteht auch die Möglichkeit, den Platzhalter - getrennt Boolesche Operatoren durch Leerzeichen - mehrmals hintereinander zu setzen, Bei allen untersuchten Suchmaschinen werden Mehrwort- wobei jeder Stern für genau ein Wort steht. anfragen automatisch mit AND verknüpft. Die Verknüp- fung von Suchbegriffen mittels des OR-Operators ist durchweg möglich. Synonyme Der NOT-Operator wird in der Regel durch das Minuszei- Allein bei Google besteht die Möglichkeit, eine Suchan- chen vor einem Wort ausgedrückt. Bei All The Web, Alta frage um Synonyme zu erweitern (vgl. Lewandowski Vista, Hotbot und Fireball kann der Operator auch in 2003). Dazu wird dem jeweiligen Suchbegriff das Tilde- Worten eingegeben werden, was insbesondere bei der Zeichen (~) vorangestellt. Die Synonyme werden bei Klammerung innerhalb von Suchargumenten von Bedeu- Google automatisch generiert. Man sollte sich also trotz tung ist. der teilweise nützlichen Ergebnisse nicht allein auf diese Funktion verlassen, sondern sie eher als Anregung für die Eine volle Unterstützung der Booleschen Operatoren, also eigenständige Suche nach weiteren Synonymen betrach- auch die Möglichkeit, komplexe Suchargumente mit Hilfe ten. von Klammersetzung zu bilden, bieten All The Web, Alta Vista, Hotbot und Fireball. Bei Google und Teoma sind komplexe Suchanfragen nur schwer möglich, lassen sich Trunkierung aber teils durch nicht regelkonforme Syntax simulieren Die einzigen Suchmaschinen, die eine Trunkierung anbie- (vgl. Tabelle 1). ten, sind Alta Vista und Fireball. Mit dem Sternchen wer- den beliebig viele Zeichen am Ende des Worts ersetzt. Es

2 müssen allerdings mindestens drei Zeichen vor dem Trun- schen Regierungsseiten leicht durch die Beschränkung auf kierungszeichen stehen. Bei Alta Vista ist ebenso eine die Top-Level-Domain .gov einschränken. Eine vergleich- Binnentrunkierung möglich. bare Möglichkeit für deutsche Seiten gibt es nicht. Es wäre zu wünschenswert, dass auch andere Suchmaschi- Alle genannten Suchmaschinen bieten die Möglichkeit, die nen eine Trunkierungsfunktion einführen, da ihr Wert Suche auf eine Domain oder einen Server zu beschränken. unbestritten ist und sie zur Standardausstattung professio- Die Auswahl eines bestimmten Servers ist beispielsweise nelle Information-Retrieval-Systeme zählt. dann sinnvoll, wenn die Seiten einer Fakultät einer Uni- versität durchsucht werden soll, dabei aber alle anderen Fakultäten derselben Universität ausgeschlossen werden Feldbeschränkungen sollen. Die Einschränkung könnte also in diesem Fall Oft lohnt es sich, die Suche auf bestimmte Felder einzu- lauten: site:phil-fak.uni-duesseldorf.de. schränken. Insbesondere eine Suche im Titel des Doku- Alle Suchmaschinen außer Teoma bieten auch die Mög- ments ist oft erfolgversprechend. Zu beachten ist aller- lichkeit, gezielt Seiten eines bestimmten Servers auszu- dings, dass bei Webseiten die vergebenen Titel oft nicht schließen. Diese Funktion wird allerdings nur noch selten aussagekräftig sind oder schlicht vergessen wurde, den benötigt, da nahezu alle Suchmaschinen inzwischen die Titel in das dafür vorgesehene Feld einzutragen. Einige Ergebnisse eines Servers clustern, d.h. in der Trefferliste Web-Content-Management-Systeme setzen den Titel auch nur zwei Ergebnisse des gleichen Servers anzeigen, aller- automatisch, und zwar für alle Seiten einer Website gleich. dings die Möglichkeit bieten, sich durch Anklicken eines Alle untersuchten Suchmaschinen unterstützen die Ein- Links auch die restlichen Ergebnisse dieses Servers anzei- schränkung der Suche auf den Titel des Dokuments, ent- gen zu lassen. weder über eine entsprechende Funktion in der erweiterten All The Web, Alta Vista und Fireball bieten auch die Mög- Suche oder in der Abfragesprache über den Befehl title: lichkeit, mehrere Domains oder Server in einer Anfrage Weitere Einschränkungsmöglichkeiten sind die Beschrän- durch OR zu verbinden. So lassen sich beispielsweise mit kung auf die URL der Seite oder einen enthaltenen Link- wlan AND (host:heise.de OR host:golem.de) alle bei den text. Als einzige Suchmaschine bietet Fireball die Mög- Newsdiensten Heise und Golem veröffentlichten Nach- lichkeit, die Suche auf den Inhalt der Metatags Schlagwör- richten zum Thema WLAN finden. Eine solche Ein- ter, Autor und Herausgeber einzuschränken. schränkung ist bei Google, Teoma und Hotbot nicht mög- In manchen Fällen kann auch die Einschränkung der lich. Suchanfrage auf den eigentlichen Text der Seite sinnvoll Eine weitere Besonderheit bietet All The Web: hier lässt sein, wobei der in den seitenbeschreibenden Elementen sich die Suchanfrage auch auf eine bestimmte IP-Adresse vorkommende Text ausgeschlossen wird. Diese Möglich- oder einen Adressraum einschränken. keit bieten Google, All The Web, Alta Vista und Fireball.

Datumsbeschränkung Einschränkung nach der Herkunft der Die Erfassung des tatsächlichen Datums eines Dokuments Seiten durch Suchmaschinen ist als ausgesprochen unzuverlässig anzusehen. Datumsangaben in den Metainformationen Einschränkung nach Sprache eines Dokuments können nicht nur leicht manipuliert Alle hier vorgestellten Suchmaschinen unterstützen die werden, sondern ändern sich in vielen Fällen bei der Gene- Einschränkung auf eine bestimmte Sprache. Die Doku- rierung der Dokumente aus Content-Management- mente werden im Indexierungsprozess automatisch einer Systemen oder beim Neu-Aufspielen auf den Server. Sprache zugeordnet; dabei sind die Verfahren unterschied- Dennoch sollten die Möglichkeiten, die Treffermenge lich, so dass die Zuordnung von unterschiedlicher Zuver- mittels der Datumseingabe wesentlich zu beschränken, lässigkeit ist. nicht unterschätzt werden. Nützlich ist die Spracheinschränkung insbesondere bei der Prinzipiell bieten alle Suchmaschinen die Möglichkeit der Suche nach Begriffen, die in mehreren Sprachen gebräuch- Datumsbeschränkung. Dabei ist zu unterscheiden zwi- lich sind sowie bei Akronymen. Sinnvoll kann auch die schen der Beschränkung auf aktuelle Dokumente („Doku- Einschränkung auf mehrere Sprachen sein, in der Regel mente der letzen vier Wochen“, „des letzten Jahres“, usw.) auf alle die Sprachen, die man selbst versteht. Diese Mög- und einer genauen Bestimmung des Datums. lichkeit bieten Alta Vista und All The Web. Bei beiden ist Google bietet nur die erste Möglichkeit. Der Zeitraum lässt die Voreinstellung Englisch und Deutsch; weitere Spra- sich auf die letzten drei, sechs oder 12 Monate einschrän- chen können beliebig hinzugefügt werden. ken. Tara Calishain beschreibt ein Verfahren, auch mit Google nach genauen Zeiträumen zu suchen (Calis- Einschränkung auf eine Top-Level-Domain oder einen hain/Dornfest 2003, 37), dieses ist allerdings sehr um- Server ständlich und für den regulären Gebrauch damit nur Oft ist es notwenig, die Suche auf Dokumente einzu- schlecht geeignet. schränken, die auf einem bestimmten Server liegen, aus Auch Alta Vista und Fireball bieten vorgegebene Zeiträu- einem bestimmten Land stammen oder (bei US- me an, dazu allerdings auch die Möglichkeit der genauen amerikanischen Domains) einem bestimmten Bereich wie Angabe des gewünschten Zeitraums. Bei allen Suchma- etwa der Regierung oder dem Hochschulbereich zugehörig schinen außer Google lassen sich Dokumente finden, die sind. So lässt sich eine Suche nach Seiten von amerikani-

3 entweder vor, nach oder während eines bestimmten Zeit- Domain liegen. Hier ist die Einschränkung nach der Spra- raums erstellt bzw. aktualisiert wurden. che sinnvoller. Ist man auf der Suche nach Dokumenten, die einer größe- ren geographischen Einheit zugehörig sind, so sollte man Dokumenttypen Teoma, All The Web oder Hotbot nutzen: Hier werden unterschiedliche Regionen (z.B. Europa, Asien) zur Ein- Dateiformate schränkung angeboten. Sinnvoll ist dies beispielsweise, Eine Einschränkung auf PDF- oder Microsoft-Office- wenn man sich über neuere Entwicklungen im Bereich der Dokumente lässt sich bei Google, All The Web und Hotbot Mobilkommunikation in Asien informieren möchte. vornehmen. Will man nur Postcript-Dateien oder RTF-

Dokumente angezeigt bekommen, helfen Google oder All The Web. Nur All The Web bietet eine Einschränkung auf Verlinkungskontrolle StarOffice, Word Perfect und Flash-Dateien. Der Befehl Um zu überprüfen, wer auf die eigene Website / die eige- für die Einschränkung auf einen Dateityp ist in der Regel nen Seiten linkt, ist es bei den meisten Suchmaschinen filetype:, bei Hotbot muß das Dateiformat über Ankreuz- möglich, eine solche Suche auszuführen. Gerade in der felder im erweiterten Suchformular gewählt werden. Dafür momentanen Situation, in der Linkanalyse eines der be- können hier (wie auch bei All The Web) mehrere Datei- deutendsten Rankingkriterien für Suchmaschinen ist, sind formate ausgewählt werden. Dies ist bei Google nicht solche Recherchen von enormer Bedeutung. Auf der Basis möglich. der Ergebnisse können Site-Betreiber gebeten werden, ihre Teoma und Fireball unterstützen generell keine Ein- Linktexte gemäß den eigenen Wünschen anzupassen und schränkungen nach Dateiformaten. solche Anbieter identifiziert werden, die von einem thema- tischen Standpunkt her einen Link setzen könnten oder Eingebettete Inhalte sollten, dies aber bisher noch nicht getan haben. Unter eingebetteten Inhalten werden solche Inhalte ver- Die Syntax lautet in der Regel link: und wird von allen standen, auf die von einer HTML-Seite aus verwiesen behandelten Suchmaschinen außer Teoma und Hotbot wird, die selbst jedoch keine HTML-Dokumente sind. So unterstützt. Bei diesen Suchmaschinen besteht keine Mög- handelt es sich in diesen Fällen beispielsweise um zum lichkeit einer solchen Suche. Text zugehörige Video- oder Audiodateien. Diese Such- funktion wird sicher nicht oft benötigt werden; allerdings lässt sich damit beispielsweise schnell und unkompliziert Kombinierbarkeit der Einschränkungen ein Tonbeispiel für den Gesang des Rotkehlchens finden. Anders als bei den bei kommerziellen Datenbanken ge- Diese Suche ohne die entsprechende Einschränkung wäre wöhnten Retrievalsystemen lassen sich bei Suchmaschinen äußerst mühevoll, da eine Große Menge von Seiten exis- oftmals die Operatoren nicht beliebig kombinieren. tiert, die sich zwar mit dem Gesang des Rotkehlchens Nur Alta Vista, All The Web und Fireball erlauben die beschäftigen, aber keine Tonbeispiele liefern. beliebige Kombination von Operatoren und Feldbeschrän- Die Möglichkeit, die Suche auf Seiten, die eingebetteten kungen. Da solche Kombinationsmöglichkeiten eine Inhalt enthalten, einzuschränken, bietet All The Web. Alta Grundvoraussetzung für die professionelle Recherche sind, Vista bietet diese Möglichkeit nur für Java-Applets. lässt sich sagen, dass sich diese Suchmaschinen – trotz anderweitig bestehender Defizite – als einzige für komple- Dateigröße xe Recherchen eignen. Als einzige Suchmaschine unterstützt All The Web eine Suche nach Dokumenten einer bestimmten Länge. Die Dokumentlänge wird hier in Kilobyte bestimmt und die Verbesserung von Suchanfragen Einschränkung ist möglich nach Dokumenten, die größer oder kleiner als eine bestimmte KB-Zahl sind; außerdem Rechtschreibkontrolle lässt sich die exakte Länge eines Dokuments angeben. Ein wichtiges Tool für die Recherche ist die automatische Dabei sagt die KB-Zahl natürlich nur eingeschränkt etwas Rechtschreibkontrolle, die von Google, All The Web und über die tatsächliche Länge des Dokuments aus, da natür- Teoma angeboten wird. Leicht vertippt man sich einmal, lich auch die auf der Seite vorhandenen Navigationsele- insbesondere bei komplexen Suchargumenten. Vor allem mente, etc. die KB-Zahl erhöhen. wenn einzelne Wörter mit OR verknüpft werden, werden Schreibfehler oft nicht bemerkt, verkleinern aber die Er- Bei der Recherche ist generell zu beachten, dass Google gebnismenge. Dokumente nur bis zu einer Länge von 100 KB indexiert. Begriffe, die erst nach dieser Grenze im Dokument vor- Die Korrekturvorschläge, die die Suchmaschinen anbieten, kommen, sind über Google nicht suchbar. werden automatisch generiert, was einerseits den Vorteil hat, dass auch Wörter, die nicht in einem Wörterbuch

hinterlegt sind, verbessert werden können. Dafür kommt es Geographische Einschränkungen aber manchmal auch zu unsinnigen Vorschlägen (Bspw. Alle Suchmaschinen bieten die Einschränkung auf ein Eingabe: filetype:msword, Vorschlag: „meinten Sie: filety- bestimmtes Land durch die Beschränkung auf eine be- pe:sword ?“). In allen Fällen werden die Eingaben des stimmte Top-Level-Domain. Allerdings werden hier Sei- Nutzers aber nicht automatisch verbessert, sondern es ten ausgeschlossen, die zwar in einem bestimmten Land werden erst die Suchergebnisse aufgrund der (inkorrekt) erstellt wurden, beispielsweise aber auf einer .com-

4 Teoma Google All The Web Alta Vista Hotbot (Inktomi) Fireball URL www.teoma.com www.google.de www.alltheweb.com www.altavista.de www.hotbot.de www.fireball.de Operatoren AND ja ja ja ja Über Auswahlme- ja nü OR ja eingeschränkt ja ja Über Auswahlme- ja nü AND NOT ja (mit -) ja (mit -) Ja: ja Über Auswahlme- ja andnot nü Proximity-Operatoren NEAR nein nein nein ja (Standard- Nein ja (Abstand: 10 Abstand bei Wörter) NEAR: 10 Wörter) Within: {Wert}:1 maximaler Abstand zwischen den Wörtern bestimm- bar Phrasensuche ja ja ja ja ja Ja Trunkierung - - Nur im Domainnamen Rechts- und - Rechtstrunkierung mit * Binnentrunkierung mit * mit * Kombinationsmöglichkeiten Vollständige Unterstützung durch nein nein ja ja nein ja Klammerung Einschränkung auf Text... … im Titel der Seite intitle: Intitle: Title: Title: ja (über Menü) Title: ... im Hauptteil der Seite (Fließtext) - (über Auswahl- (über Auswahlmenü) Text: - Text: menü) ... in der URL der Seite Inurl: Inurl: url: url: - url: ... in einem Link auf die Seite - Link: Link: Link: - Link: ... im Metatag Keyword - - - - - Keyword: ... im Metatag Author - - - - - Author: ... imMetatag Publisher - Publisher: Einschränkung nach Herkunft der Seiten Sprachauswahl Lang: (eine Spra- einzelne Einzelne; mehrere Einzelne, mehrere Einzelne, mehrere Einzelne che) Language: Domain Einschließen Einschließen, Einschließen, aus- Einschließen, Einschließen, Einschließen, Site: ausschließen schließen ausschließen, ausschließen ausschließen, Mehrere einschließen mehrere mehrere möglich Domain: Host: Host: IP-Adresse - - Einschließen - - - Ähnliche Seiten - ja - Like: - - Geographische Einschränkungen Länderauswahl Über Sprache oder Über Sprache Über Sprache oder Über Sprache oder ja; wenige Länder Über Sprache oder TLD oder TLD TLD TLD TLD Einschränkung auf größere geogra- Geoloc: - ja - ja - phische Einheiten Datumsbescchränkungen Periodisch last: 3 Monate, 6 1 Woche, 2 Wo- 1 Tag, 1 Woche, 2 Monate, 1 Jahr chen, 1 Monat, 4 Wochen, 1 Monat Monate, 8 Monate, 1 Jahr Exakt Vor / nach / Vor / nach / zwischen Vor / nach / Vor / nach / Vor / nach / zwischen: afterdate zwischen zwischen zwischen / beforedate / betweendate Einschränkung nach Dokumenttypen Dateiformate - Filetype: Filetype: PDF HTML - PDF PDF, Flash, PDF PS MSWORD, RTF, TEXT DOC POWERPOINT, WORD XLS EXCEL, POSTCRIPT, EXCEL PPT WORDPERFECT, PPT RTF STAROFFICE Eingebettete Inhalte - - Einschließen / aus- Java - - schließen: Bilder, Applet: Audio, Video, Audio- Object: /Video-Streams, Flash, Java, Javascript, VB Script Dateigröße - - Größer / kleiner / - - - gleich Filesize:>{Wert} Filesi- ze:[{Wert1},{Wert2}] Tabelle 2: Abfragemöglichkeiten in den Suchmaschinen Teoma, Google, All The Web, Alta Vista, Hotbot und Fireball

1 Zwischen dem Operator und dem Wert muß ein Leerzeichen stehen. Within funktioniert nur in der erweiterten Suche im Feld „Boolescher Ausdruck“.

5 gestellten Anfrage ausgegeben. Die Rechtschreibkontrolle dient also nur als Vorschlag. Clay, Bruce (2003): Search Engine Relationship Chart. http://www.bruceclay.com/searchenginechart.pdf [14.11.2003] Vorschläge zur Verbesserung der Suchanfrage Eine wichtige Methode, Suchanfragen einzuschränken, Griesbaum, Joachim; Rittberger, Marc; Bekavac; Bernhard kann in Retrievaltests nicht berücksichtigt werden: die (2002): Deutsche Suchmaschinen im Vergleich: Alta- Einschränkung in der Treffermenge in einem zweiten Vista.de, Fireball.de, Google.de und .de. In: Infor- Schritt, also nach der Anzeige der Trefferliste. Dazu wer- mation und Mobilität. Optimierung und Vermeidung von den von der jeweiligen Suchmaschine automatisch Begrif- Mobilität durch Information. Proceedings des 8. Internati- fe gefunden, die auf vielen der gefundenen Webseiten onalen Sysmposiums für Informationswissenschaft. vorkommen und sich eventuell dazu eignen, das Thema Hammwöhner, R., Wolff, C., und Womser-Hacker, C. weiter einzuschränken. Solche Verfahren werden von (Hrsg.), 201-223 Teoma und Alta Vista („Alta Vista Prisma“) verwendet. Oft lässt sich mit ihrer Hilfe in einem iterativen Prozess (auch in Kombination mit den oben beschriebenen Ein- Hock, Ran: Web Search Engines: (More) features & com- schränkungsmöglichkeiten) die Anfrage so weit ein- mands. Online 24(2000)3. schränken, dass eine überschaubare Treffermenge übrig http://www.findarticles.com/cf_0/m1388/3_24/61640524/ bleibt, die dann tatsächlich vollständig gesichtet werden print.jhtml [14.11.2003] kann. Ein ähnliches Verfahren ist die Clusteranalyse. Hier wer- Karzaunikat, Stefan (2003): Google zugemüllt: Spam den die Ergebnisse in Klassen gruppiert, die aufgrund überschwemmt die Suchergebnisse. In: c’t (2003)20, 88- gewisser Gemeinsamkeiten der Dokumente gebildet wer- 92 den. Vorreiter dieses Verfahrens im Suchmaschinen- Bereich war die inzwischen eingestellte Suchmaschine Northern Light, (eingeschränkt) angewendet wird das Lewandowski, Dirk (2003): Bessere Suchmöglichkeiten Verfahren bei All The Web. Allerdings gibt es auch Such- durch neuen Operator? In: Password (2003)9, 36 maschinen, deren Stärken gerade bei diesem Verfahren liegen, die jedoch aufgrund der o.g. Auswahlkriterien im Notess, Greg (2003): Unusual Power Web Searching Rahmen dieses Aufsatzes nicht behandelt werden (z.B. Commands. In: Online 27(2003)6, 40-42 und Kartoo).

Eine weitere Besonderheit bietet Teoma: diese Suchma- schine ist aufgrund eines besonderen Algorithmus in der Notess, Greg (2000): Search Engine Showdown Analysis: Lage, hochwertige zur Suchanfrage passende Linksamm- Boolean Searching on Google. lungen zu identifizieren („link collections from experts and http://www.searchengineshowdown.com/features/google/g enthusiasts“). Durch diese Funktion wird man oft auf die oogleboolean.html [14.11.2003] wichtigsten Quellen in einem Themenfeld gelenkt, ohne als Nutzer einen großen Aufwand betrieben zu haben. Silverstein, Craig; Henzinger, Monika; Marais, Hannes; Moricz, Michael: Analysis of a Very Large Alta Vista Query Log. Digital Systems Research Center Technical Schlussbemerkung Note 1998-014 Die Qualität von Suchmaschinen lässt sich nicht allein durch die Überprüfung von Ein- und Mehrwortanfragen messen. Aus diesem Grund ist bei Retrievaltests stets zu Suchfibel (2003): Das Beziehungsgefecht der Suchma- fragen, ob die aus ihnen gewonnenen Aussagen auch dann schinen. Gültigkeit besitzen, wenn komplexe Suchanfragen be- http://www.suchfibel.de/5technik/suchmaschinen_beziehu trachtet werden. Die Antwort lautet, dass diejenige Such- ngen.htm [14.11.2003] maschine, die in Retrievaltests als „die Beste“ identifiziert wird, für manche Suchanfragen schlicht ungeeignet sein kann oder aber, dass bestimmte Suchfragen mit einer Sullivan, Danny (2003): Search Engine Sizes. anderen Suchmaschine schneller bzw. effizienter gelöst http://www.sewatch.com/reports/article.php/2156481 [14.11.2003] werden können.

Veritest (2003): Inktomi Corp.: Web Search Relevance Literatur Test. Calishain, Tara; Dornfest, Rael: Google Hacks: 100 Indus- http://www.veritest.com/clients/reports/inktomi/inktomi_w trial-Stregth Tips & Tools. Sebastopol [u.a.], 2003 eb_search_test.pdf [14.11.2003]

6 Der Autor Dirk Lewandowski ist bei der NRW Medien GmbH in Düsseldorf als Researcher tätig sowie als Lehrbe- auftragter an der Universität Düsseldorf und der FH Köln. Er betreut die Rubrik „Suchmaschinen-News“ der Zeitschrift Password und forscht im Rahmen seines Dissertationsvorhabens an Verbesserungsmöglich- keiten für algorithmische Suchmaschinen. Anschrift Dirk Lewandowski, Merkurstrasse 66, 40223 Düsseldorf E-Mail: [email protected]

7