Emerging Applications of Link Analysis for Ranking
Total Page:16
File Type:pdf, Size:1020Kb
Emerging Applications of Link Analysis for Ranking Von der Fakult¨atf¨urElektrotechnik und Informatik der Gottfried Wilhelm Leibniz Universit¨atHannover zur Erlangung des Grades eines Doktor-Ingenieurs (abgek¨urzt:Dr.-Ing.) genehmigte Dissertation Von Dipl.-Ing. Paul - Alexandru Chirita geboren am 07.07.1980 in Bukarest, Rum¨anien. 2007 Emerging Applications of Link Analysis for Ranking Kommission: Referent: Prof. Dr. Wolfgang Nejdl Gottfried Wilhelm Leibniz Universit¨at Hannover, Hannover, Deutschland Korreferent: Prof. Dr. Ricardo Baeza - Yates Universit¨at Pompeu - Fabra, Barcelona, Spanien Korreferent: Prof. Dr. Klaus Jobmann Gottfried Wilhelm Leibniz Universit¨at Hannover, Hannover, Deutschland Tag der Promotion: 24. Mai 2007 2 Zusammenfassung Der starke Zuwachs von elektronisch verf¨ugbaren Daten haben stark zur Popularit¨atvon Suchmaschinen beigetra- gen. Allerdings sind die Nutzer von Suchmaschinen typischerweise nur an den wenigen Dokumenten interessiert, die im Bezug auf ihre Arbeit die h¨ochste Relevanz besitzen. Es ist also sehr wichtig hochwertige Rankingmethoden zu entwickeln, die effizient diese relevanten Dokumente f¨ur die verschiedenen Aktivit¨aten zur Informationssuche identifizieren, die solche Nutzer entwickeln. Diese Arbeit enth¨altzwei Beitr¨agezu dem Bereich “Information Retrieval”. Erstens identifizieren wir die Anwen- dungsbereiche, in den ein nutzerorientiertes Ranking derzeit nicht vorhanden ist, obwohl es extrem notwendig ist, um einen hochqualitativen Zugang zu den f¨ureinen Nutzer relevanten Ressourcen zu erm¨oglichen. Zweitens en- twickeln wir f¨ur jeden von diesen Anwendungsbereichen die entsprechenden Rankingalgorithmen, die auf sozialen Charakteristika aufbauen und diese ausnutzen, entweder auf einem makroskopischen oder einem mikroskopis- chen Niveau. Dies wird durch “Link Analysis” Techniken erreicht, die auf der graphbasierten Darstellung der Verkn¨upfungen zwischen Objekten bauen, um sie zu ordnen oder einfach um Muster im Bezug auf deren soziale Eigenschaften zu erkennen. Wir fangen an und argumentieren, dass das Ranken von Objekten auf dem Desktop sehr effektiv den Zugang zu allen Ressourcen auf dem Desktop verbessern kann. Daf¨ur schlagen wir vor, die “Link Analysis” Methoden auch auf dem Desktop zu nutzen unter Verwendung von Statistiken ber das Nutzerverhalten. Wir zeigen, dass ein auf diese Weise entwickeltes Ranking sehr vorteilhaft f¨urdas Anwendungsszenario einer Desktop-Suchmaschine ist. Anschlieend setzen wir dieselben grundlegenden Ideen f¨ur die Erkennung von “Spam Emails” ein. Dazu verbinden wir Menschen in sozialen Netzwerken, basierend auf dem Austausch von Emails zwischen diesen, und leiten daraus eine Reputationsmetrik ab, die b¨oswillige Mitglieder jeder Community isoliert. Auf eine ¨ahnliche Weise modellieren wir mehrere k¨unstliche Linkstrukturen auf einer h¨oheren Abstraktionsebene, die Link Analysis Algorithmen im allgemeinen negativ beeinflussen k¨onnen. Wir geben auch an, wie man solche Linkstrukturen im Anwendungsszenario “Ranken von Webseiten” entfernen kann. Der letzte Teil dieser Arbeit nutzt manuell erstellte Informationsrepositorien, um die Web Suche zu personal- isieren. Wir untersuchen zwei verschiedene Arten von solchen Repositorien, solche die global bearbeitet werden k¨onnen und solche die individuell bearbeitet werden k¨onnen. Im ersten Fall wenden wir Link Analysis Tech- niken auf ¨offentliche Webverzeichnissen an, wie zum Beispiel das Open Directory, und definieren geeignete Ahn-¨ lichkeitsmetriken, die die Suchergebnisse nach den Pr¨aferenzen des Nutzers anordnen. F¨urindividuell bearbeit- bare Repositorien, schlagen wir eine Methode zur Erweiterung von Suchanfragen vor, die sowohl auf der Analyse von Text, als auch auf Link Analysis Methoden in Zusammenhang mit “Personal Information Repositories” beruhen. Ausf¨uhrliche Experimente, die beide Vorgehensweisen auswerten, zeigen in beiden Fallen wesentliche Verbesserungen im Vergleich zu einer herk¨ommlichen Suche mit Google. 3 Emerging Applications of Link Analysis for Ranking Schlagw¨orter Informationswiedergewinnung, Data Mining, Internet 4 Abstract The booming growth of digitally available information has thoroughly increased the popularity of search engine technology over the past years. At the same time, upon interacting with this overwhelming quantity of data, people usually inspect only the very few most relevant items for their task. It is thus very important to utilize high quality ranking measures which efficiently identify these items under the various information retrieval activities we pursue. In this thesis we provide a twofold contribution to the Information Retrieval field. First, we identify those application areas in which a user oriented ranking is missing, though extremely necessary in order to facilitate a qualitative access to relevant resources. Second, for each of these areas we propose appropriate ranking algorithms which exploit their underlying social characteristics, either at the macroscopic, or at the microscopic level. We achieve this by utilizing link analysis techniques, which build on top of the graph based representation of relations between resources in order to rank them or simply to identify social patterns relative to the investigated data set. We start by arguing that Ranking Desktop Items is very effective in improving resource access within Personal Information Repositories. Thus, we propose to move link analysis methods down to the PC Desktop by exploiting usage analysis statistics, and show the resulted importance ordering to be highly beneficial for the particular scenario of Desktop Search. We then apply the same technique for Spam Detection. We connect people across email social networks based on their email exchanges and induce a reputation metric which nicely isolates malicious members of a community. Similarly, we model several higher level artificial constructs which could negatively manipulate generic link analysis ranking algorithms, and indicate how to remove them in the case of Web page ranking. Finally, we exploit manually created large scale information repositories in order to Personalize Web Search. We investigate two different types of such repositories, namely globally edited ones and individually edited ones. For the former category we project link analysis onto public taxonomies such as the Open Directory and define appropriate similarity measures which order the search output in accordance to each user’s preferences. For the latter one, we propose to expand Web queries by utilizing both text and link analysis on top of Personal Information Repositories. Extensive experiments analyzing both approaches show them to yield significant improvements over regular Google search. 5 Emerging Applications of Link Analysis for Ranking Keywords Information Retrieval, Data Mining, World Wide Web 6 Foreword The algorithms presented in this thesis have been published within several Infor- mation Systems conferences, as follows. The usage analysis based Desktop ranking ideas were split across two interest areas: (1) Semantic Web, when we aimed for specific user actions, modeled usually using ontologies, [61, 62, 63], and (2) Information Retrieval, when all activities were logged and analyzed from a statistical point of view [66]: • Beagle++: Semantically Enhanced Searching and Ranking on the Desktop. By Paul - Alexandru Chirita, Stefania Ghita, Wolfgang Nejdl, Raluca Paiu. In Proceedings of the 3rd European Semantic Web Conference (ESWC), Budva, Montenegro, 2006 [63]. • Activity-Based Metadata for Semantic Desktop Search. By Paul - Alexan- dru Chirita, Stefania Ghita, Rita Gavriloaie, Wolfgang Nejdl, Raluca Paiu. In Proceedings of the 2nd European Semantic Web Conference (ESWC), Heraklion, Greece, 2005 [61]. • Semantically Enhanced Searching and Ranking on the Desktop. By Paul - Alexandru Chirita, Stefania Ghita, Wolfgang Nejdl, Raluca Paiu. In Pro- ceedings of the Semantic Desktop Workshop held at the 3rd International Semantic Web Conference, Galway, Ireland, 2005 [62]. • Analyzing User Behavior to Rank Desktop Items. By Paul - Alexandru Chirita, Wolfgang Nejdl. In Proceedings of the 13th International Sym- posium on String Processing and Information Retrieval (SPIRE), Glasgow, United Kingdom, 2006 [66]. The other two chapters have been focused exclusively on Information Retrieval techniques. The work on spam detection was presented in less, but more important conferences, after major parts of the research had been already completed [58, 44, 28]: 7 Emerging Applications of Link Analysis for Ranking • MailRank: Using Ranking for Spam Detection. By Paul - Alexandru Chirita, Jrg Diederich, Wolfgang Nejdl. In Proceedings of the 14th ACM Interna- tional CIKM Conference on Information and Knowledge Management, Bre- men, Germany, 2005 [58]. • Site Level Noise Removal for Search Engines. By Andre Carvalho, Paul - Alexandru Chirita, Edleno Silva de Moura, Pavel Calado, Wolfgang Ne- jdl. In Proceedings of the 15th International World Wide Web Conference (WWW), Edinburgh, United Kingdom, 2006 [44]. • An Analysis of Factors used in Search Engine Ranking. By Albert Bifet, Carlos Castillo, Paul - Alexandru Chirita, Ingmar Weber. In Proceedings of the Adversarial Information Retrieval Workshop held at the 14th Inter- national World Wide Web Conference, Chiba, Japan, 2006 [28]. The most important chapter addresses the topic Web search personalization, and is built on top of the following publications [67, 60, 59, 56]: • Using ODP Metadata to Personalize Search. By Paul - Alexandru