Themen Des Information Retrieval
Total Page:16
File Type:pdf, Size:1020Kb
Andreas Henrich Daniel Blank (Hrsg.) Themen des Information Retrieval Suchmaschinen und Web-Suche Beiträge des Seminars im Sommersemester 2012 Lehrstuhl für Medieninformatik Otto-Friedrich-Universität Bamberg Inhaltsverzeichnis Designing Search User Interfaces The Design of Search User Interfaces 5 Eduard Anton Models of the Information Seeking Process 21 Andreas Hünlein Search User Interfaces: Presentation of Search Results 35 Alexander Schreiner Query specification in information retrieval 49 Alexander Knogl Popular Destinations in Kombination mit anderen 69 Methoden der Unterstützung von Query Reformulation Felix Wiedemann Information Visualization for Search Interfaces 85 Dietlinde Flavia Lump Information Visualization for Text Analysis 105 Johannes Rettig A Survey of Personalization Techniques for Online Search 127 and Recommender Systems Ralf Strobel Evaluierung im Information Retrieval Die Evaluierungsinitiative INEX 145 Christoph Jungnickl Techniken zur Identifikation typischer Wikipedia Anfragen 163 Florian Gundelsheimer Software-Bibliotheken für das Information Retrieval Sphinx - Open search server 179 Manuel Leithner Apache Solr 199 Johannes Döring MapReduce mit Apache Hadoop 217 Philipp Ott Aspekte des Enterprise Search Exploring Query Patterns in Email Search 233 Daniel Thomä Nutzungsrechte in Enterprise Search Systemen 249 - Secure Enterprise Search Michael Großmann 5 Seminararbeiten The Design of Search User Interfaces Eduard Anton Otto-Friedrich-Universität-Bamberg, Lehrstuhl für Medieninformatik [email protected] Zusammenfassung. Eine Suchmaschine muss eine enorme Anzahl von Use Cases, über eine enorme Ansammlung von Informationen, benutzt von einem weiten Feld von Menschen unterstützen und muss dabei ein hohes Maß an Gebrauchstauglichkeit unterstützen. Die Gebrauchstauglichkeit und das Interface Design gehen dabei Hand in Hand. Die Wissenschaft, die sich damit befasst, nennt man Mensch-Computer-Interaktion. Ziel dieser Arbeit ist es, die Schwierigkeiten von Suchmaschinennutzern mit dem Interface Design von Suchmaschinen aufzuzeigen und die von der Mensch-Computer-Interaktion entwickelten Richtlinien für ein erfolgreiches Interface Design vorzustellen, um diese Schwierigkeiten zu lösen und an Beispielen in der Praxis zu zeigen. Ausgangspunkt dieser Arbeit stellt das erste Kapitel vom Buch Search User Interfaces von Marti A. Hearst [1] dar. Schlagworte: Mensch-Computer-Interaktion, Gebrauchstauglichkeit, Design Richtlinien 1 Einleitung Berühmte Persönlichkeiten, Preisvergleiche oder Informationen für ein bestimmtes Hausarbeitsthema - in der heutigen Gesellschaft ist die Informationsbeschaffung ein wichtiges Thema. Wo man früher in Bibliotheken, Büchereien und Zeitungsarchiven suchte, recherchiert man heute mit Suchmaschinen im Internet. Millionen von Menschen nutzen dabei täglich unterschiedliche Suchmaschinen. Um die Informationen zugänglich und nutzbar zu machen, braucht man effektive und effiziente Suchmaschinen. Dabei spielt das Design von Suchinterfaces eine wichtige Rolle, es „verwandelt unstrukturierte Rohdaten in brauchbare Informationen und beschreibt die Form der dargestellten Informationen. Es hat Einfluss darauf, wie die Nutzer weitere Informationen verarbeiten sowie rezipieren und trägt dazu bei, ob das Produkt wieder verwendet wird. Bei einem positiven Erlebnis kommen die Nutzer gerne wieder“ [2, S. 228]. Die Nutzung eines Suchinterfaces bringt aber auch Probleme mit sich. Vor allem unerfahrene User, ältere Menschen und Kinder haben Schwierigkeiten bei ihrer Informationssuche im Internet. Diese Schwierigkeiten führen darauf zurück, dass Menschen bei ihrer Informationssuche, bevor die Verfügbarkeit von Computern und Sommersemester 2012 Seminararbeiten 6 Internet so weit verbreitet war wie sie heute ist, sich andere Menschen zu Nutze machten. So fragte man Bibliothekare, wo eine bestimmte Information zu finden sei. Diese verstanden, was gesucht wird, obwohl bei der Frage vielleicht nicht die richtige Syntax oder richtigen Begriffe genannt wurden. Jetzt müssen Leute mit Suchmaschinen interagieren, obwohl sie sich mit moderner Informationsbeschaffung nur wenig oder gar nicht auskennen(vgl. [3, S. 1-2]). Um diese Interaktion für alle zu ermöglichen, ist es wichtig, das Interface möglichst zu simplifizieren. Dies wird im nächsten Kapitel näher erläutert. 2 Das Interface einfach halten Nahezu bei jeder Suchmaschine tippt man ein Stichwort in ein Sucheingabefeld ein und die Ergebnisse werden in einer vertikalen Liste ausgegeben. Dabei hat sich auch in den letzten Jahren nicht viel verändert. Vergleicht man eine Informationssuche, mit dem gleichen Suchbegriff von 1997,2007 und heute, stellt man fest, dass keine größeren, gravierenden Veränderungen im Interface bestehen und es relativ einfach gehalten wird (siehe Abbildung 1). Abbildung 1. Ergebnislisten (links von 1997, rechts von 2007) einer Googlesuche mit dem Suchbegriff „darter habitat“ [1] Warum verändert sich das Standardinterface kaum? Gründe hierfür liegen beim Zweck der Suche. Bei einer Suche möchte der Nutzer seinem Informationsbedürfnis nachgehen. Dabei wirkt ein überladenes und aufdringliches Interface störend. Außerdem lenkt ein solches Interface beim Lesen ab, was ohnehin eine mental sehr Lehrstuhl für Medieninformatik, Otto-Friedrich-Universität Bamberg 7 Seminararbeiten intensive Tätigkeit ist, die kaum multitaskfähig ist, und deshalb die volle Aufmerksamkeit des Nutzers erfordert. Außerdem soll die Simplizität des Interfaces auch für die bereits angesprochenen Menschen, die Problemen bei der Bedienung mit Suchmaschinen haben, verständlich sein. Trotz des ohnehin einfach gehaltenen Interfaces haben Studien gezeigt, dass eine weitere Vereinfachung viele gemachte Fehler reduzieren würde. Fehler sind beispielweise die falsch angewandte Syntax in der Suchzeile, da Suchzeile und Adresszeile miteinander verwechselt werden, die Missinterpretation der Boolean Operatoren und die falsche Verwendung der Begriffreihenfolge in der Abfrage. In einem Versuch, die Websuche für ältere Leute zu vereinfachen, wurde ein Suchinterface gestaltet, das viele gebräuchliche Fehler reduzieren soll. Dieses Interface hat eine größere Suchleiste für die Abfragen und mehr Platz zwischen den Buchstaben, um es einfacher zu machen, Abfragen zu bearbeiten. Außerdem wurde ein Button hinzugefügt, der die Suchleiste leert, um neue Abfragen schneller starten zu können. Andere Vereinfachungen an der Ergebnisliste wurden zusätzlich vorgenommen, um die Resultate besser zu verstehen. Viele Nutzer dieses Versuchs verstanden die Funktionalität und schätzten die Klarheit (vgl. [3, S. 62-63]). Man sieht also, dass eine weitere Vereinfachung durchaus möglich und sinnvoll ist, was auch das Scheitern mancher Versuche, komplexere Interfaces einzuführen, erklärt. 3 Suchinterfaces vor und nach dem Web Modernes Information Retrieval, wie wir es heute haben, hat „vom Memex über den Sputnikschock zum Weinberg-Report" [8, S. 38] einen langen Weg hinter sich. Bevor das Internet ein weltweites Phänomen wurde, mussten die Menschen zum Lexikon greifen oder in anderen Büchern nachschlagen, um an ihre gewünschten Informationen zu gelangen. Die computergestützte Informationsbeschaffung war üblicherweise ein Privileg von ausgebildeten Nutzern wie Rechtsanwaltfachangestellten, Journalisten und Bibliothekare. Sie suchten in bibliografischen Datensätzen, Rechtsfällen oder Nachrichtensammlungen. Normalerweise wurde offline nach dem Ort der Quelle gesucht und anschließend wurde eine Papierkopie gemacht. Heute findet man sämtliche Texte direkt im Internet und der Text ist somit sofort verfügbar und lesbar. Ein weiterer Unterschied besteht darin, dass alte Systeme, bevor Grafikdisplays üblich waren, auf Kommandozeilen- Interfaces basiert haben. Das hatte zufolge, dass komplexe Kombinationen von Operatoren gemerkt werden mussten und ein Verständnis für Boolean Operatoren mit sich gebracht werden musste. Das Verständnis für Boolean Operatoren und Kommandosprache war nur einer kleinen Anzahl von Leuten bekannt und so gab es nur wenige, die Zugang zu den Inhalten hatten. Ein letzter Unterschied besteht darin, dass damals Suchmaschinen entweder nach Zeit, Anzahl der Abfragen oder Anzahl der Ergebnisse, Geld gekostet haben. Heute sind Suchmaschinen durch den großen Wettbewerb meistens kostenlos. Sommersemester 2012 Seminararbeiten 8 Diese Gegensätze helfen dabei, die Unterschiede der Suchinterfaces vor und nach dem Web zu verstehen. 4 User Interfaces in der Mensch-Computer Interaktion Die Mensch-Computer Interaktion (Human-Computer Interaction) ist die Wissenschaft, die sich mit dem Interface Design und der Kommunikation zwischen Mensch und Computern auseinandersetzt. Das UCD (User Centered Design) ist eine Entwicklung der Mensch-Computer Interaktion. Es ist ein „ Vorgehensmodell zur benutzerzentrierten Gestaltung interaktiver Systeme“ [2, S. 226-227]. Das bedeutet, bei der Entwicklung einer Suchmaschine wird der zukünftige Nutzer mit seinen Aufgaben, Zielen und Eigenschaften in den Mittelpunkt des Entwicklungsprozesses gestellt. Dies wird durch ein iteratives Vorgehen über mehrere Phasen erreicht. Dadurch erhofft man sich die Entwicklung einer Suchmaschine, die über eine hohe Gebrauchstauglichkeit (Usability) verfügt. Die Gebrauchstauglichkeit ist eine qualitative Eigenschaft eines User Interface und mit dem Konzept der Benutzerfreundlichkeit vergleichbar. Die Gebrauchstauglichkeit besitzt bestimmte Attribute, die lauten: Erlernbarkeit: wie schnell und einfach ein Nutzer in einem neuen System