Suchmaschinen. Abfragesprachen Und Erweiterte Funktionen
Total Page:16
File Type:pdf, Size:1020Kb
Abfragesprachen und erweiterte Funktionen von WWW-Suchmaschinen* Dirk Lewandowski Universität Düsseldorf Informationswissenschaft [email protected] Zusammenfassung gerecht werden, die letztlich ja auch in Konkurrenz zu den Der vorliegende Artikel stellt die erweiterten Suchmög- Alltagsnutzern stehen, die von sich behaupten, „in Google lichkeiten in den wichtigsten Suchmaschinen vor. Dabei alles finden zu können.“ handelt es sich um Google, Alta Vista, Hotbot (Inktomi), In diesem Aufsatz sollen die Kommandos und Einschrän- Teoma und Fireball. Die Qualität von Suchmaschinen wird kungsmöglichkeiten der wichtigsten Suchmaschinen erläu- in der Regel durch Retrievaltests verglichen. Vor dem tert und auf ihre Besonderheiten hingewiesen werden. Hintergrund professioneller Ansprüche an die Recherche- Dabei werden nur die Möglichkeiten der Recherche nach fähigkeiten der Suchmaschinen müssen aber zusätzlich Texten behandelt; auf die Suche nach Multimedia-Inhalten auch deren Abfragemöglichkeiten betrachtet werden. Nur wird nicht eingegangen. ausgereifte Abfragesprachen erlauben komplexe Suchan- fragen, wie sie im professionellen Umfeld gestellt werden. Retrievaltests Üblicherweise werden Suchmaschinen durch Retrieval- Abstract tests miteinander verglichen (vgl. u.a. Gries- This article presents the extended search possibilities in baum/Rittberger/Bekavac 2002, Veritest 2003). Dabei the most important search engines. It concerns Google, werden die gleichen Suchanfragen an unterschiedliche Alta Vista, Hotbot (Inktomi), Teoma and Fireball. The Suchmaschinen gestellt und die zurückgegebenen Ergeb- quality of search engines is usually compared by retrieval nisse verglichen. In der Regel werden dazu die jeweiligen tests. Against the background of professional demands on Top-Platzierungen der einzelnen Suchmaschinen ausge- the abilities of search engines however their query lan- wertet (in der Regel die ersten zehn oder 20 Treffer). guages must be regarded additionally. Only perfected Bei den Retrievaltests können allerdings nur relativ unprä- query languages permit complex retrieval as placed in a zise Suchanfragen gestellt werden, da sich die Suchspra- professional shere. chen der einzelnen Suchmaschinen zu weit voneinander unterscheiden, um die Ergebnisse präziser Anfragen ver- gleichbar zu machen. Auch für den Nutzer ausgesprochen hilfreiche Methoden, um die Suchanfrage nach dem ersten Ansehen der Trefferliste weiter einzuschränken, können Einleitung bei Retrievaltests nicht berücksichtigt werden. Es ist also Als beliebte und weit verbreitete Angebote werden Such- festzustellen, dass Retrievaltests den Möglichkeiten ein- maschinen vor allem von den „gewöhnlichen Nutzern“ des zelner Suchmaschinen nicht gerecht werden können. Internet benutzt. Bisher vorliegende Untersuchungen Vielmehr müssen die Tests sich mit relativ einfachen haben gezeigt, dass diese nicht dazu bereit sind, sich mit Suchanfragen begnügen. Ihre Ergebnisse sind daher eher Operatoren und erweiterten Suchformularen auseinander für die Anfragen der gewöhnlichen Nutzer aussagekräftig; zu setzen (ausführlich in Sil- dass eine Suchmaschine einfache Anfragen in hoher Quali- verstein/Henzinger/Marais/Moricz 1998). Die Suchma- tät beantworten kann, macht sie jedoch noch nicht zur schinen haben darauf reagiert, indem erweiterte Suchfor- ersten Wahl des Information Professionals. mularen nicht mehr oder nur noch eingeschränkt weiter- Insbesondere die Suchmaschine Google erfreut sich größ- entwickelt werden. Während die „klassische“ Suchma- ter Beliebtheit und belegt in (vor allem populärwissen- schine Alta Vista sich bei ihrem Start im Jahr 1995 noch an schaftlichen) Retrievaltests in der Regel den ersten Platz. den Möglichkeiten professioneller Retrievalsysteme aus Offensichtlich gelingt es dieser Suchmaschine, einfache dem Bereich der Hosts orientierte, stellen neuere Suchma- Suchanfragen mit hoher Präzision zu beantworten. Oder – schinen oft nur wenige Kommandos zur Verfügung. um der Anlage der Retrievaltest gerecht zu werden – es Dies lenkt auf die Frage hin, in wie weit heutige Suchma- gelingt ihr, irrelevante Dokumente aus der Top-10 bzw. schinen den Anforderungen der Information Professionals Top-20 herauszuhalten. In den vorliegenden Retrievaltests sind allerdings die aktuellen Entwicklungen hin zu einem * erscheint in: IWP Information Wissenschaft und Praxis, 55(2004) 1 massiven Spamming des Google-Index noch nicht berück- sichtigt. (Karaunikat 2003) For this operation Try this on Google Interessanterweise ist es allerdings gerade die Suchma- schine Google, die wenig Wert auf präzise Abfragemög- x AND y x y lichkeiten durch die Suchsprache oder erweiterte Such- x OR y x OR y formulare legt. Auch bei anderen Suchmaschinen lässt sich x AND (y OR z) x y OR z feststellen, dass die Abfragesprachen oft zu wünschen übrig lassen. Als Argument wird seitens der Suchmaschi- (x AND y) OR (z AND q) not yet possible nen-Betreiber angeführt, dass diese erweiterten Funktionen (x OR y) AND (z OR q) x OR y z OR q nur selten genutzt würden. Allerdings gibt es keine Erhe- x AND (y OR z OR q) x y OR z OR q bungen zu der Frage, ob diese nicht etwa von einer kleinen Gruppe von Nutzern intensiv genutzt werden. x AND (y OR z) AND q x y OR z q Tabelle 1: Search Engine Showdown Analysis: Boolean Searching on Google (Notess 2000) Untersuchte Suchmaschinen Für diese Untersuchung wurden die Suchmaschinen Google, All The Web, Alta Vista, Hotbot (Inktomi), Teoma Proximity-Operatoren und Fireball ausgewählt. Hierbei handelt es sich um die Die Suche mit dem Abstandsoperator NEAR ist bei Alta Suchmaschinen mit den weltweit größten Indizes (vgl. Vista und Fireball möglich. Der voreingestellte Wortab- Sullivan 2003) bzw. im Fall von Fireball um die führende stand beträgt dabei maximal zehn Wörter. Mit dem deutsche Suchmaschine mit eigenem Index. Portalangebo- WITHIN-Operator bei Alta Vista lässt sich der maximale te wie Yahoo oder T-Online wurden nicht berücksichtigt, Wortabstand auch selbst bestimmen. Die Syntax lautet da diese ihre Suchergebnisse in nahezu allen Fällen von hier: {Suchbegriff 1} within {Wert} {Suchbegriff 2}. einer der genannten Suchmaschinen beziehen. (vgl. Clay Dabei ist auf das Leerzeichen zwischen within und dem 2002; für den deutschen Markt vgl. Suchfibel 2003) Wert zu achten. Hotbot wurde ausgewählt, da diese Suchmaschine (bzw. Die anderen untersuchten Suchmaschinen unterstützen Suchoberfläche) den komplexesten Zugriff auf den Inkto- keinerlei Abstandsoperatoren, abgesehen von (wenigstens mi-Index erlaubt. Die Firma Inktomi bietet keine eigene manchmal brauchbaren) Hilfsmitteln wie dem Platzhalter Suchmaschine an, sondern lizensiert ihre Technologie an in der Phrasensuche bei Google (siehe „Phrasensuche“). Seitenbetreiber. Dabei können diese natürlich auch über die Komplexität der Abfragemöglichkeiten entscheiden. Phrasensuche In den von allen Suchmaschinen angebotenen erweiterten Alle genannten Suchmaschinen unterstützen die Phrasen- Suchformularen sind in der Regel die gängigsten Ein- suche durch das Setzen von Anführungszeichen. Sowohl schränkungsmöglichkeiten aufgeführt. Um die volle Funk- Google als auch Alta Vista erlauben eine Art Trunkierung tionalität der jeweiligen Suchmaschine nutzen zu können, innerhalb der Phrasensuche: wird ein Platzhalten (in bei- ist es jedoch nötig, die Kommandosprachen zu verwenden. den Fällen: *) gesetzt, so ersetzt dieser genau ein Wort. Im weiteren Text werden die einzelnen Funktionen vorge- Nützlich ist diese Funktion vor allem für Suchanfragen, stellt, eine Übersicht, welche auch die Kommandos in den bei denen entweder ein Wort nicht bekannt ist, gleichzeitig unterschiedlichen Abfragesprachen enthält, gibt die Tabel- nach alter und neuer Rechtschreibung gesucht werden soll le am Ende des Textes. oder aber bewusst Schreibfehler mit in die Anfrage einge- schlossen werden sollen. Es besteht auch die Möglichkeit, den Platzhalter - getrennt Boolesche Operatoren durch Leerzeichen - mehrmals hintereinander zu setzen, Bei allen untersuchten Suchmaschinen werden Mehrwort- wobei jeder Stern für genau ein Wort steht. anfragen automatisch mit AND verknüpft. Die Verknüp- fung von Suchbegriffen mittels des OR-Operators ist durchweg möglich. Synonyme Der NOT-Operator wird in der Regel durch das Minuszei- Allein bei Google besteht die Möglichkeit, eine Suchan- chen vor einem Wort ausgedrückt. Bei All The Web, Alta frage um Synonyme zu erweitern (vgl. Lewandowski Vista, Hotbot und Fireball kann der Operator auch in 2003). Dazu wird dem jeweiligen Suchbegriff das Tilde- Worten eingegeben werden, was insbesondere bei der Zeichen (~) vorangestellt. Die Synonyme werden bei Klammerung innerhalb von Suchargumenten von Bedeu- Google automatisch generiert. Man sollte sich also trotz tung ist. der teilweise nützlichen Ergebnisse nicht allein auf diese Funktion verlassen, sondern sie eher als Anregung für die Eine volle Unterstützung der Booleschen Operatoren, also eigenständige Suche nach weiteren Synonymen betrach- auch die Möglichkeit, komplexe Suchargumente mit Hilfe ten. von Klammersetzung zu bilden, bieten All The Web, Alta Vista, Hotbot und Fireball. Bei Google und Teoma sind komplexe Suchanfragen nur schwer möglich, lassen sich Trunkierung aber teils durch nicht regelkonforme Syntax simulieren Die einzigen Suchmaschinen, die eine Trunkierung anbie- (vgl. Tabelle 1). ten, sind Alta Vista und Fireball. Mit dem Sternchen wer- den beliebig viele Zeichen am Ende des Worts ersetzt. Es 2 müssen allerdings mindestens drei Zeichen vor dem Trun- schen