Bibliographic Database Analysis: Citation Graphs and Indirect
Total Page:16
File Type:pdf, Size:1020Kb
Bibliographic Database Analysis: Citation Graphs and Indirect Indicators Eleni Fragkiadaki Ph.D. Dissertation Supervised by Georgios Evangelidis Submitted to Department of Applied Informatics School of Information Sciences University of Macedonia Thessaloniki, Greece June 2016 ii iii © Copyright by Eleni Fragkiadaki, 2016. iv v Advisory committee Georgios Evangelidis (supervisor), Professor Department of Applied Informatics, University of Macedonia, Greece Nikolaos Samaras, Associate Professor Department of Applied Informatics, University of Macedonia, Greece Dimitris A. Dervos, Professor Department of Information Technology, Alexander T.E.I. of Thessaloniki, Greece Examination committee Dimitris A. Dervos, Professor Department of Information Technology, Alexander T.E.I. of Thessaloniki, Greece Georgios Evangelidis (supervisor), Professor Department of Applied Informatics, University of Macedonia, Greece Dimitrios Katsaros, Assistant Professor Department of Electrical & Computer Engineering, University of Thessaly, Greece Georgia Koloniari, Lecturer Department of Applied Informatics, University of Macedonia, Greece Yannis Manolopoulos, Professor Department of Informatics, Aristotle University, Greece Antonios Sidiropoulos, Lecturer Department of Information Technology, Alexander T.E.I. of Thessaloniki, Greece Nikolaos Samaras, Associate Professor Department of Applied Informatics, University of Macedonia, Greece vi vii Abstract Scientific publications with new advances in a vast number of scientific fields are being published and made available to researchers around the world daily. In such an active scientific environment it has become very important for researchers to not only be able to publish their work but to also understand and explore the research performed by other influential scientists. This process of discovery and dissemination of knowledge is one of the areas where Citation Analysis can be of great use. The different techniques, metrics and approaches defined by Citation Analysis allow scientists to identify publications of particular interest, follow the published research of influential scientists and even identify publications that have set the grounds for new research fields. In our digital era this means that institutions and publishing bodies have a need to store large sets of information in bibliographic databases. The databases hold information about the publications, their respected authors and publishing bodies. Some bibliographic databases also hold the actual published manuscripts and index the publications based on a number of different factors including the list of provided keywords. Publications are also connected, as they always rely to some extend on previously published research performed by the same or other researchers. Therefore the data stored in these bibliographic databases can be expressed in the form of Graphs, and as we will see later in this dissertation, these Citation graphs can express the relationships that are formed between the different research entities (i.e. publications, authors and publishing bodies). This dissertation examines the different research entities that participate in the publication process of scientific research in an attempt to classify the existing indicators used to identify influential publications, researchers and publishing bodies. It proceeds by examining the use of Citation Graphs in Citation Analysis and describes in detail the concept of Derived Graphs and the algorithms that can be used to produce them, which constitute part of the contribution of this study. We continue by studying the different definitions of generations of citation and critically evaluate them in order to select the definition that is later used in the set of proposed paper and author indicators. Finally a list of well known indicators is examined and compared against the proposed indicators using the data provided by two well known bibliographic databases, namely CiteSeerx and DBLP. Keywords: Citation analysis, Bibliographic databases, Indirect indicators, Citation generations, Citation graphs, Derived graphs, Paper-Citation graph, Author-Citation graph, Journal-Citation graph, Hirsch algorithms, Paper indicators, Author indicators, Journal indicators, Self-citations, Indirect citations, Scholarly assessment viii ix Περίληψη ΄Ενας µεγάλος αριθµός επιστηµονικών δηµοσιεύσεων γίνεται διαθέσιµος καθηµερινά σε ακαδη- µαϊκούς και ερευνητές ανά τον κόσµο. Οι ερευνητές, συµµετέχουν σε αυτό το τόσο ενεργό επιστηµονικό περιβάλλον όχι µόνο δηµοσιεύοντας την προσωπική τους έρευνα, αλλά και αναζη- τώντας πληροφορίες και ερευνητικές πηγές που παρουσιάζουν την έρευνα άλλων διακεκριµένων επιστηµόνων. Σε αυτήν ακριβώς την διαδικασία της αναζήτησης και διάχυσης της επιστηµονικής πλη- ϱοφορίας είναι που το πεδίο της Ανάλυσης ϐιβλιογραφικών αναφορών µπορεί να ϐοηθήσει σηµαντικά το έργο των ερευνητών. Οι διάφορες τεχνικές, δείκτες και προσεγγίσεις που ορίζει, επιτρέπουν στους επιστήµονες/ερευνητές να εντοπίζουν δηµοσιεύσεις ιδιαίτερης σηµασίας, να ακολουθούν το έργο άλλων διακεκριµένων επιστηµόνων, ακόµα και να εντοπίζουν δηµοσιεύσεις που έθεσαν τα ϑεµέλια για την ανάπτυξη νέων ερευνητικών περιοχών. Στην ψηφιακή εποχή που Ϲούµε αυτό σηµαίνει ότι τα πανεπιστήµια καθώς και άλλοι ϕορείς που συµ- µετέχουν στη διαδικασία της δηµοσίευσης της επιστηµονικής έρευνας, χρειάζεται να αποθηκεύουν έναν µεγάλο όγκο δεδοµένων σε ϐάσεις ϐιβλιογραφικών αναφορών. Τα δεδοµένα που αποθη- κεύονται σε αυτές τις ϐάσεις αφορούν τις δηµοσιεύσεις αυτές καθεαυτές, τους συγγραφείς τους καθώς και τα περιοδικά/συνέδρια ή άλλους ϕορείς στους οποίους πραγµατοποιήθηκαν αυτές οι δηµοσιεύσεις. Κάποιες ϐάσεις ϐιβλιογραφικών αναφορών αποθηκεύουν τα δηµοσιευµένα κείµενα και ευρετηριάζουν διάφορα πεδία συµπεριλαµβανοµένων και των λέξεων κλειδιών που ορίζονται από τις δηµοσιεύσεις, διευκολύνοντας µε αυτόν τον τρόπο την αναζήτηση των δηµοσιεύσεων. ΄Ενα πρόσθετο χαρακτηριστικό των δηµοσιεύσεων είναι ότι συνδέονται, εφόσον η τρέχουσα επιστη- µονική έρευνα ϐασίζεται σε προηγούµενη έρευνα που πραγµατοποίησαν είτε οι ίδιοι οι συγγραφείς είτε άλλοι ερευνητές στο εν λόγω επιστηµονικό πεδίο. Εποµένως τα δεδοµένα που αποθηκεύονται στις ϐάσεις ϐιβλιογραφικών αναφορών µπορούν να εκφραστούν µε την µορφή Γράφων, οι οποίοι, όπως ϑα δούµε στη συνέχεια αυτής της διατριβής, εκφράζουν τις συνδέσεις ανάµεσα στις διάφορες επιστηµονικές οντότητες (δηµοσιεύσεις, συγγραφείς, περιοδικά). Η παρούσα διδακτορική διατριβή εξετάζει τις διάφορες επιστηµονικές οντότητες που συµµετέχουν στην διαδικασία της δηµοσίευσης µιας επιστηµονικής έρευνας σε µια προσπάθεια να κατηγοριο- ποιήσει τους διάφορους δείκτες που ήδη χρησιµοποιούνται για τον εντοπισµό διακεκριµένων δη- µοσιεύσεων, συγγραφέων και περιοδικών. Στην συνέχεια εξετάζει τους Γράφους ϐιβλιογραφικών αναφορών καθώς και την χρήση τους στο πεδίο της Ανάλυσης ϐιβλιογραφικών αναφορών. Παρου- σιάζει και εξετάζει σε ϐάθος την έννοια των Παράγωγων Γράφων καθώς και των αλγορίθµων που x ορίζουν τα ϐήµατα µε τα οποία αυτοί οι γράφοι µπορούν να παρασκευαστούν ξεκινώντας από τις ϐασικές πληροφορίες που περιλαµβάνονται στον Γράφο Αναφορών-∆ηµοσιεύσεων. Στην συνέχεια παρουσιάζονται οι διάφοροι τρόποι ορισµού των γενεών ϐιβλιογραφικών αναφορών, οι οποίοι α- ναλύονται λεπτοµερώς προκειµένου να καταλήξουµε στον προτεινόµενο ορισµό. Τέλος, µε ϐάση τον επιλεγµένο ορισµό, ορίζουµε τους προτεινόµενους ϐιβλιογραφικούς δείκτες για την αξιολόγηση δηµοσιεύσεων και συγγραφέων, οι οποίοι εν συνεχεία συγκρίνονται µε άλλους, υπάρχοντες δε- ίκτες χρησιµοποιώντας τα δεδοµένα από δύο γνωστές ϐιβλιογραφικές ϐάσεις δεδοµένων, ονόµατι ἳτεΣεερx και ∆ΒΛΠ. Λέξεις κλειδιά: Ανάλυση ϐιβλιογραφικών αναφορών, Βάσεις ϐιβλιογραφικών αναφορών, ΄Εµµεσοι δείκτες, Γενεές ϐιβλιογραφικών αναφορών, Γράφοι ϐιβλιογραφικών αναφορών, Παράγωγοι Γράφοι, Γράφοι Αναφορών - ∆ηµοσιεύσεων, Γράφοι Συγγραφέων - ∆ηµοσιεύσεων, Γράφοι Περιοδικών - ∆η- µοσιεύσεων, Ηιρσςη Αλγόριθµοι, ∆είκτες δηµοσιεύσεων, ∆είκτες συγγραφέων, ∆είκτες περιοδικών, Αυτο-αναφορές, ΄Εµµεσες ϐιβλιογραφικές αναφορές, Αξιολόγηση της έρευνας Contents Contents xi 1 Introduction 1 1.1 Overview..........................................1 1.2 Contribution........................................5 1.3 Dissertation organization..................................5 2 Citation analysis fundamentals9 2.1 Scholarly assessment.................................... 11 2.2 Mathematical notation.................................. 13 2.3 Paper-Citation graph................................... 14 2.4 Derived graphs...................................... 20 2.4.1 Author-Citation graph............................... 20 Mathematical notation.............................. 21 Transformations.................................. 21 Example...................................... 23 Known applications................................ 28 2.4.2 Journal-Citation graph............................... 29 Example...................................... 29 Known applications................................ 30 xi xii CONTENTS 2.5 Indirect Citations...................................... 32 2.5.1 Definitions..................................... 33 2.5.2 Example...................................... 34 2.6 Generations of self-citations................................ 36 2.6.1 Definition...................................... 36 2.6.2 Example...................................... 36 3 Classifying assessment indicators 41 3.1 Paper indicators...................................... 42 3.1.1 Direct indicators.................................. 42 3.1.2 Indirect