Missing Links Only)

Instituut Onderwijs- en Informatiewetenschappen Informatie- en Bibliotheekwetenschap M Predicting interactions based on a multi-relational network structure with applications in informetrics O Het voorspellen van interacties op basis van een multi-relationele netwerkstructuur met toepassingen in de informetrie Proefschrift voorgelegd tot het behalen van de graad van doctor in de informatie- en bibliotheekwetenschap aan de Universiteit Antwerpen te verdedigen door Raf G Supervisors Prof. dr. Pierre Delsaerdt Prof. dr. Ronald Rousseau Antwerpen, 2012 Now imagine picking up the structure and shaking it, until you make some sense out of the tangle: perhaps you see tightly knit groups in some places, and in some places weak areas of communication spanned by only a few people. Perhaps a linked information system will allow us to see the real structure of the organisation in which we work. Weaving the Web Tim Berners-Lee Niets bestaat wat niet iets anders aanraakt. [Nothing exists that does not touch something else.] Bezonken rood Jeroen Brouwers Nederlandse samenvaing De doelstelling van dit proefschrift is methodes te ontwikkelen om nieuwe of ontbrekende interacties te voorspellen op basis van informatie in een multirelationeel netwerk. Hoewel onze benadering algemeen toepasbaar is in velerlei omstandigheden, is het proefschrift voornamelijk gebaseerd op twee gevalstudies van samenwerking tussen onderzoekers: samenwerking aan een middel- groot instituut (de Universiteit Antwerpen) en samenwerking binnen een on- derzoeksgebied (de informetrie). Beide gevalstudies kunnen gezien worden als netwerken waarin elk knooppunt een auteur voorstelt en elke verbinding een coauteurschap. We geven eerst een algemeen overzicht van methodes en technieken voor de analyse van (sociale) netwerken en introduceren aansluitend Q-maten. Dit zijn indicatoren die aangeven in welke mate een actor een verbindende rol opneemt tussen verschillende groepen in het netwerk. Deze indicatoren worden toegepast op het netwerk van samenwerkingen tussen onderzoekers in de informetrie, met landen als groepen. Op deze manier karakteriseren we de evolutie van internationale samenwerking in het vakgebied. Wanneer men het dynamisch (door de tijd heen) bekijkt, zijn sociale en in- formetrische netwerken onderhevig aan verandering (oude verbindingen ver- dwijnen, nieuwe ontstaan…). Het probleem van linkpredictie (Eng. link prediction) is de vraag in welke mate en hoe zulke veranderingen in de verbinding- structuur voorspeld kunnen worden. We voeren een algemeen framework voor linkpredictie in, dat bestaat uit vijf stappen: dataverzameling, voorbe- werking, voorspelling, nabewerking en evaluatie. We bespreken theoretische eigenschappen van verschillende predictoren (methodes of maten die in stap drie gebruikt worden) en tonen aan dat linkpredictie geëvalueerd kan worden aan de hand van methodes uit de information retrieval. Ondanks het belang van theoretische overwegingen hangt onderzoek in linkpredictie grotendeels af van experimenten met empirische gegevens. Om die reden bestuderen we een grote groep predictoren empirisch, evenals de invloed van voor- en nabewerking. Hieruit blijkt dat predictoren die op we- gen (Eng. paths) gebaseerd zijn in het algemeen de beste resultaten opleveren en dat – anders dan wat men zou verwachten – het gewicht van verbindingen niet automatisch uitmondt in betere voorspellingen. Bovendien tonen we dat netwerkreconstructie (het identificeren van verbindingen die willekeurig uit een netwerk verwijderd zijn) gelijkaardige resultaten oplevert als linkpredictie. We kunnen met andere woorden netwerkreconstructie gebruiken om de bruikbaarheid van een methode voor linkpredictie in te schaen. Dit inzicht is nuig, omdat reconstructie een aantal praktische voordelen biedt. Informatie- en bibliotheekwetenschap kan worden getypeerd als een vak- iii Nederlandse samenvaing gebied dat de wisselwerking tussen de documentaire, sociale en epistemische dimensies bestudeert. Omdat deze wisselwerking niet goed in één klassiek netwerk gevat kan worden, verbreden we onze aanpak naar multirelationele (of ‘semantische’) netwerken, d.w.z. netwerken die bestaan uit knooppunten en verbindingen van verschillende types. Multirelationele netwerken waren ooit een grotendeels theoretische constructie, maar zijn tegenwoordig geïm- plementeerd in het Semantische Web (RDF). We bespreken hoe deze concepten verband houden met semantiek en geven een inleiding tot de meest relevante technologieën. Dit roept de vraag op of het mogelijk is een RDF-gebaseerde representatie op te stellen die geschikt is voor informetrisch onderzoek. We bespreken de belangrijkste moeilijkheden en tonen dat bestaande ontologieën de voornaamste benodigde woordenschat al aanbieden. Waar nodig sugge- reren we toevoegingen aan de bestaande infrastructuur, bijvoorbeeld om het gebruik van termen te registreren. In drie stappen maken we de overstap naar linkpredictie op basis van een semantisch netwerk. Om te beginnen vertrekken we van voorspellingen op basis van het bipartite auteur–publicatie-netwerk in plaats van het (daarvan afgeleide) netwerk van coauteurschap. Op deze manier kunnen we de resultaten van bepaalde predictoren verbeteren. Vervolgens zeen we een stap ver- der door het auteur–publicatie-netwerk te vervangen door een auteur–term- netwerk. Ten sloe zeen we de laatste stap naar voorspelling op basis van een ‘volledig’ multirelationeel netwerk. Daartoe voeren we associatienetwer- ken in. Deze vormen een algemeen model dat gebruikt kan worden om inte- ressante patronen in een semantisch netwerk te identificeren en bestuderen. Hoewel de algemene resultaten voor dit model niet aanzienlijk beter waren dan eerder bekomen resultaten, lijkt het erop dat het model vooral zijn waarde heeft voor het doen van aanbevelingen. In dat geval is men enkel geïnteres- seerd in nieuwe interacties. iv English abstract The aim of this dissertation is to develop methods to predict new or missing interactions based on existing information in the form of a multi-relational network. Although our approach is generally applicable to a wide range of circumstances, the dissertation is based on two case studies of collaboration between researchers: collaboration at a mid-sized institute (the University of Antwerp) and collaboration within a research specialty (informetrics). The case studies can be interpreted as networks, such that each node represents an author and each link represents co-authorship. After providing a general overview of methods and techniques in (social) network analysis, we introduce Q-measures, indicators that characterise the extent to which a node plays a bridging role between different groups in the network. Q-measures are applied to the time-sliced collaboration network of researchers in informetrics (with countries as groups). This way, we can characterise the evolution of international collaboration in the field. When viewed dynamically (over time), social and informetric networks evolve (new links appear, old links disappear…). The link prediction problem is the question to what extent and how such changes in link structure can be predicted. We introduce a general framework for link prediction, consisting of five steps: data gathering, preprocessing, prediction, postprocessing, and evaluation. We discuss theoretical properties of different predictors (methods or measures used in step 3) and show that link prediction can be evaluated using methods borrowed from information retrieval. Although theoretical considerations do have a role to play, link prediction research mainly depends on experimentation with empirical data. We empir- ically examine many predictors, as well as the influence of pre- and postprocessing. The analysis reveals that path-based predictors offer the best overall performance and that, contrary to our expectations, taking link weights into account does not automatically yield improvements of basic predictors. Fur- thermore, we show that network reconstruction (identification of links that have been randomly deleted from a network) yields qualitatively similar results to link prediction, suggesting that network reconstruction results can be used to assess a method’s applicability to link prediction. This insight is useful because the former has some practical advantages. Library and information science can be characterised as a discipline that studies the interplay between the documentary dimension, the social dimension, and the epistemic dimension. Since this interplay cannot be adequately captured in one classic network, we broaden our approach to multi-relational (or ‘semantic’) networks, i.e. networks that consist of links and nodes of different types. Once a largely theoretical construct, multi-relational networks v English abstract are nowadays implemented in – most notably – the Semantic Web (RDF). We discuss how these concepts are related to semantics and provide an introduc- tion to Semantic Web technologies. This raises the question whether an RDF- based knowledge representation can be created that is suitable for informetric research. We discuss the main difficulties and argue that existing ontologies provide the bulk of the vocabulary needed for informetrics. Where necessary, we suggest additions to the existing infrastructure, e.g. to capture term usage. We take three steps towards link prediction on the basis of a semantic network. First, we start our predictions from the bipartite author–paper network instead of the derived co-authorship network.

Load more