Analyzing and Improving Diversification, Privacy, and Information Management on the Web
Total Page:16
File Type:pdf, Size:1020Kb
ANALYZING AND IMPROVING DIVERSIFICATION, PRIVACY, AND INFORMATION MANAGEMENT ON THE WEB Von der Fakult¨atf¨urElektrotechnik und Informatik der Gottfried Wilhelm Leibniz Universit¨atHannover zur Erlangung des akademischen Grades DOKTOR DER NATURWISSENSCHAFTEN Dr. rer. nat. genehmigte Dissertation von Dipl.-Math. Kaweh Djafari Naini geboren am 11. Mai 1984, in Teheran, Iran Hannover, Deutschland, 2019 Referent: Prof. Dr. techn. Wolfgang Nejdl Korreferent: Assoc. Prof. Dr. Ismail Sengor Altingovde Tag der Promotion: 13.11.2018 ABSTRACT Today, the World Wide Web has become the main source and medium for people to access, share, and manage information. Since user expectations towards all three types of functionalities are high and information volumes are growing very fast, modern web applications are exposed to new challenges by supporting the users in their daily and long- term interactions on the web. In this thesis, we contribute to the following core challenges related to the aforementioned functionalities. Diversification for improving information access - in Web search engines the user can access information by submitting a query that returns a set of search results. Web search queries often contain only a few terms, and can be ambiguous, which is a core issue for retrieval systems. For instance, modern search engines extract a large amount of additional features for building a sophisticated ranking model. Further, recent studies on web search results diversification show that retrieval effectiveness for ambiguous queries can be consid- erably improved by diversifying the search results. In this thesis, we present two approaches for improving retrieval effectiveness and efficiency. First, we present an efficient and scalable algorithm for web search results diversification for large-scale retrieval systems. Second, we present an approach for feature selection in learning-to-rank. Privacy issues and communication practices through information sharing - social net- works allow the user to share information to a wider audience or communicate within specific groups. Understanding the users' motivation and behavior in social networks is crucial for supporting the users' needs, e.g. by suggesting relevant resources or creating new services. In recent years, the increasing amount of personal information shared in social networks has exposed users to risks of endangering their privacy. Popular social networks often allow the user to manually control the privacy settings of social content before it is shared. However, existing functionalities for privacy settings are often restricted and very time consuming for the user. In this thesis, we present an approach for predicting privacy settings of the user. Furthermore, we present an in-depth study of social and professional networks for identifying communication practices for different types of users with different skills and expertise. Personalized and long-term information management for social content - the informa- tion flood in social media makes it is nearly impossible for users to manually manage their social media posts over several years. Approaches for summarizing and aggregating of social media postings face the challenge to identify information from the past that is still relevant in the future, i.e., for reminiscence or inclusion into a summary. In this thesis, we conduct user evaluation studies to better capture the users' expectation towards information reten- tion. Next, we extract various of features from social media posts, profile and network of the users. Finally, we build general and personalized ranking models for retention, and present a set of seed features which perform best of identifying memorable posts. The approaches in this thesis are compared to existing baselines and state of the art approaches from related work. Keywords: web search results diversification, scalability and efficiency in web search, letor, feature selection, privacy prediction, social network analysis, social media summary ZUSAMMENFASSUNG Heutzutage ist das World Wide Web die wichtigste Quelle zur Informationsbeschaffung, zum Informationsaustausch und der Verwaltung von Informationen. Da die Erwartungen der Nutzer bez¨uglich der drei vorgenannten Funktionalit¨atenhoch sind und das Informationsvol- umen sehr schnell w¨achst, sind moderne Webanwendungen stets neuen Herausforderungen ausgesetzt, um die Nutzer bei ihren t¨aglichen und langfristigen Interaktionen im Web un- terst¨utzenzu k¨onnen.In dieser Dissertation tragen wir zu den folgenden zentralen Heraus- forderungen bei, die sich auf die oben genannte Funktionalit¨atenbeziehen. Diversifizierung zur Verbesserung des Informationszugangs - In Web-Suchmaschinen kann der Nutzer auf Informationen zugreifen, indem er eine Abfrage sendet, die eine Reihe von Suchergebnissen zur¨uckliefert. Web-Suchanfragen enthalten oft nur wenige Begriffe und k¨onnenmehrdeutig sein, was f¨urRetrieval-Systeme ein Kernproblem darstellt. Zum Beispiel extrahieren moderne Suchmaschinen eine große Menge zus¨atzlicher Merkmale, um ein ausgekl¨ugeltesRanking-Modell zu erstellen. Dar¨uber hinaus zeigen neuere Studien zur Diversifizierung von Websuchergebnissen, dass die Retrieval-Effektivit¨atf¨urmehrdeutige Abfragen durch Diversifizierung der Suchergebnisse erheblich verbessert werden kann. In dieser Arbeit pr¨asentieren wir zwei Ans¨atzezur Verbesserung der Retrieval-Effektivit¨atund -Effizienz. Zun¨achst stellen wir einen effizienten und skalierbaren Algorithmus f¨urdie Diver- sifizierung von Web-Suchergebnissen f¨urgroße Retrieval-Systeme vor. Zweitens pr¨asentieren wir einen Ansatz f¨urdie Merkmalauswahl im Learning-to-Rank. Datenschutzprobleme und Kommunikationspraktiken durch Informationsaustausch - Soziale Netzwerke erm¨oglichen dem Nutzer, Informationen an ein breites Publikum weit- erzugeben oder innerhalb bestimmter Gruppen zu kommunizieren. Um die Nutzer un- terst¨utzenzu k¨onnen,ist es erforderlich, ihre Motivation und ihr Verhalten in sozialen Netzwerken zu verstehen, indem z.B. relevante Ressourcen vorgeschlagen oder neue Dienste angeboten werden. Indem die Nutzer in den letzten Jahren zunehmend pers¨onliche Informa- tionen in den sozialen Netzwerken teilen, setzen sie sich dem Risiko aus, ihre Privatsph¨are zu gef¨ahrden.Beliebte soziale Netzwerke erm¨oglichen es dem Nutzer h¨aufig,die Datenschutze- instellungen von sozialen Inhalten vor der Freigabe manuell zu steuern. Die zum Schutz der Privatsph¨arevorhandenen Funktionen sind jedoch oft eingeschr¨anktund f¨urden Nutzer sehr zeitaufwendig. In dieser Arbeit pr¨asentieren wir einen Ansatz zur Vorhersage von Datenschutzeinstellungen des Nutzers. Dar¨uber hinaus stellen wir eine eingehende Studie ¨uber soziale und berufliche Netzwerke zur Identifizierung von Kommunikationspraktiken f¨ur verschiedene Arten von Nutzern mit unterschiedlichen F¨ahigkeiten und Kenntnissen vor. Personalisiertes und langfristiges Informationsmanagement f¨ursoziale Inhalte - Die In- formationsflut in den sozialen Medien macht es den Nutzern nahezu unm¨oglich, ihre Social- Media-Beitr¨age¨uber mehrere Jahre hinweg manuell zu verwalten. L¨osungsans¨atzezum Sammeln von Social-Media-Beitr¨agestehen vor der Herausforderung, Informationen aus der Vergangenheit zu identifizieren, die in der Zukunft f¨urden Nutzer denkw¨urdigsind und f¨urdie Erstellung von Zusammenfassungen in Frage kommen. In dieser Arbeit f¨uhren wir Nutzerbewertungsstudien durch, um die Erwartungen der Nutzer an die Information- serhaltung besser zu erfassen. Als n¨achstes extrahieren wir verschiedene Merkmale aus Social-Media-Beitr¨agensowie aus Profilen und Netzwerken der Nutzer. Schließlich erstellen wir allgemeine und personalisierte Ranking-Modelle f¨ur die Aufbewahrung von Beitr¨agen. Zus¨atzlich stellen wir eine Reihe von Kernfunktionen vor, die am besten geeignet sind, denkw¨urdigeBeitr¨agezu identifizieren. Die Ans¨atzein dieser Arbeit werden mit bestehenden Baselines und State-of-the-Art Ans¨atzenaus verwandten Arbeiten verglichen. Schlagw¨orter: Diversifizierung von Web Suchergebnissen, Skalierbarkeit und Effizienz in der Websuche, letor, Merkmalsauswahl, Privatsph¨are Vorhersage, soziale Netzwerkanalyse, Zusammenfassung in sozialen Medien FOREWORD The contributions presented in this thesis have previously appeared in sev- eral conference and journal papers as well as one book chapter published in the course of this PhD program: The contributions in Chapter3 are published in: • Kaweh Djafari Naini, Ismail Sengor Altingovde, and Wolf Siberski. Scal- able and efficient web search result diversification. ACM Transactions on the Web, TWEB, 10(3):15:1-15:30, August 2016. The contributions in Chapter4 are published in: • Kaweh Djafari Naini and Ismail Sengor Altingovde. Exploiting result diversification methods for feature selection in learning to rank. In Proceedings of the 36th European Conference on Information Retrieval, ECIR'14, pages 455-461, 2014. The contributions in Chapter5 are published in: • Kaweh Djafari Naini, Ismail Sengor Altingovde, Ricardo Kawase, Eelco Herder, and Claudia Nieder´ee. Analyzing and Predicting Privacy Set- tings in the Social Web. In Proceedings of the 23rd International Con- ference on User Modeling, Adaptation and Personalization, UMAP'15, pages 104-117, Dublin, Ireland, June 29 - July 3, 2015. The contributions in Chapter6 are published in: • Sergiu Chelaru, Eelco Herder, Kaweh Djafari Naini, and Patrick Siehn- del. Recognizing skill networks and their specific communication and connection practices. In Proceedings of the 25th ACM Conference on Hypertext and Social