Web Crawling, Analysis and Archiving

Web Crawling, Analysis and Archiving Vangelis Banos Aristotle University of Thessaloniki Faculty of Sciences School of Informatics Doctoral dissertation under the supervision of Professor Yannis Manolopoulos October 2015 Ανάκτηση, Ανάλυση και Αρχειοθέτηση του Παγκόσμιου Ιστού Ευάγγελος Μπάνος Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Πληροφορικής Διδακτορική Διατριβή υπό την επίβλεψη του Καθηγητή Ιωάννη Μανωλόπουλου Οκτώβριος 2015 i Web Crawling, Analysis and Archiving PhD Dissertation ©Copyright by Vangelis Banos, 2015. All rights reserved. The Doctoral Dissertation was submitted to the the School of Informatics, Faculty of Sci- ences, Aristotle University of Thessaloniki. Defence Date: 30/10/2015. Examination Committee Yannis Manolopoulos, Professor, Department of Informatics, Aristotle University of Thes- saloniki, Greece. Supervisor Apostolos Papadopoulos, Assistant Professor, Department of Informatics, Aristotle Univer- sity of Thessaloniki, Greece. Advisory Committee Member Dimitrios Katsaros, Assistant Professor, Department of Electrical & Computer Engineering, University of Thessaly, Volos, Greece. Advisory Committee Member Athena Vakali, Professor, Department of Informatics, Aristotle University of Thessaloniki, Greece. Anastasios Gounaris, Assistant Professor, Department of Informatics, Aristotle University of Thessaloniki, Greece. Georgios Evangelidis, Professor, Department of Applied Informatics, University of Mace- donia, Greece. Sarantos Kapidakis, Professor, Department of Archives, Library Science and Museology, Ionian University, Greece. Abstract The Web is increasingly important for all aspects of our society, culture and economy. Web archiving is the process of gathering digital materials from the Web, ingesting it, ensuring that these materials are preserved in an archive, and making the collected materials available for future use and research. Web archiving is a difficult problem due to organizational and technical reasons. We focus on the technical aspects of Web archiving. In this dissertation, we focus on improving the data acquisition aspect of the Web archiving process. We establish the notion of Website Archivability (WA) and we introduce the Credible Live Evaluation of Archive Readiness Plus (CLEAR+) method to measure WA for any website. We propose new algorithms to optimise Web crawling using near-duplicate detection and webgraph cycle detection, resolving also the problem of web spider traps. Following, we suggest that different types of websites demand different Web archiving ap- proaches. We focus on social media and more specifically on weblogs. We introduce weblog archiving as a special type of Web archiving and present our findings and developments in this area: a technical survey of the blogosphere, a scalable approach to harvest modern weblogs and an integrated approach to preserve weblogs using a digital repository system. Keywords: Web Archiving, Web Crawling, Web Analytics, Webgraphs, Weblogs, Digital Repositories. Περίληψη Αρχειοθέτηση του παγκόσμιου ιστού ονομάζεται η διαδικασία συλλογής και αποθήκευσης ιστοσελίδων με σκοπό τη διαφύλαξή τους σε ένα ψηφιακό αρχείο, προσβάσιμο για το κοινό και τους ερευνητές. Η αρχειοθέτηση του παγκόσμιου ιστού είναι ένα ζήτημα ύψιστης προτεραιότητας, καθώς αφενός αποτελεί κύριο μέσο της σύγχρονης επικοινωνίας και αφετέρου η μέση διάρκεια ζωής των ιστοσελίδων είναι λιγότερη από 100 ημέρες. Έτσι, καθημερινά εξαφανίζονται από τον παγκόσμιο ιστό εκατομμύρια ιστοσελίδες που παύουν να λειτουργούν για διάφορους λόγους, με αποτέλεσμα να χάνονται πολύτιμες πληροφορίες. Το πρόβλημα της αρχειοθέτησης του παγκόσμιου ιστού συνίσταται από διάφορες επιμέρους διαδικασίες όπως η αυτόματη πλοήγηση στον παγκόσμιο ιστό, η εξαγωγή περιεχομένου, η ανάλυση και η αποθήκευσή του σε κατάλληλη μορφή ώστε να είναι δυνατή η ανάκτηση και η επαναχρησιμοποίησή του για οποιουσδήποτε σκοπούς. Το πρόβλημα της αυτοματοποιημένης πλοήγηση στον παγκόσμιο ιστό με σκοπό την ανάκτηση και την επεξεργασία πληροφορίας αποτελεί μια ιδιαίτερα διαδεδομένη διαδικασία που έχει εφαρμογές σε πολλά επιστημονικά και επιχειρηματικά πεδία. Ένα άλλο σημαντικό ζήτημα είναι ότι διαφορετικά είδη ιστοσελίδων έχουν διαφορετικά χαρακτηριστικά και ιδιότητες που απαιτούν ιδιαίτερο χειρισμό για την αποδοτικότερη ανάκτηση, επεξεργασία και αρχειοθέτηση δεδομένων. Εστιάζουμε την έρευνά μας στα κοινωνικά δίκτυα και συγκεκριμένα στα ιστολόγια (blogs) που αποτελούν ένα ιδιαίτερο νέο μέσο επικοινωνίας και ενημέρωσης που χρησιμοποιείται ευρέως. Η διδακτορική διατριβή έχει στόχο την βελτιστοποίηση της αρχειοθέτησης ιστοσελίδων μέσω της ανάπτυξης νέων αλγορίθμων αυτόματης πλοήγησης στον παγκόσμιο ιστό, ανά- κτησης πληροφορίας από ιστοσελίδες και ασφαλούς αποθήκευσής τους με αποδοτικό τρόπο ώστε να ευνοείται η μελλοντική πρόσβαση και επαναχρησιμοποίησή τους για οποιο- δήποτε σκοπό. Επιπλέον, η διδακτορική διατριβή επικεντρώνεται στην έρευνα και την ανάπτυξη εξειδικευμένων μεθόδων ανάκτησης, επεξεργασίας, αρχειοθέτησης και επανα- χρησιμοποίησης δεδομένων ιστολογίων. Η συνεισφορά της διατριβής στους παραπάνω τομείς συνοψίζεται στα εξής: • Ο δείκτης Website Archivability που εκφράζει την ευκολία και ακρίβεια με την οποία αποθηκεύονται οι ιστοσελίδες από συστήματα αρχειοθέτησης ιστοσελίδων. Η μέθοδος Credible Live Evaluation for Archive Readiness Plus (CLEAR+) που υπολογίζει το Website Archivability και το σύστημα ArchiveReady που τα υλοποιεί ως διαδικτυακή εφαρμογή στη διεύθυνση: http://archiveready.com. Επιπλέον, μια μελέτη της αποθηκευσιμότητας διαφορετικών συστημάτων διαχείρισης περιεχομέ- νου στο διαδίκτυο. vi • Αλγόριθμοι βελτιστοποίησης της αυτόματης πλοήγησης στο διαδίκτυο με τον εντο- πισμό όμοιων ή παρόμοιων ιστοσελίδων και τη χρήση μοντελοποίησης γράφων και μία μέθοδος εντοπισμού των παγίδων που αντιμετωπίζουν τα συστήματα αυτόματης πλοήγησης στο διαδίκτυο (web spider traps). Η πλατφόρμα WebGraph-it που υλοποιεί τους αλγορίθμους ως διαδικτυακή εφαρμογή στη διεύθυνση: http://webgraph-it. com. • Μια εκτεταμένη μελέτη των τεχνικών χαρακτηριστικών των ιστολογίων με έμφαση στα τεχνικά χαρακτηριστικά που αφορούν την αρχειοθετησιμότητά τους. • Το ολοκληρωμένο σύστημα διαφύλαξης ιστολογίων BlogForever που λύνει προβλή- ματα ανάκτησης, διαχείρισης, αρχειοθέτησης και επαναχρησιμοποίησης των δεδο- μένων τους. • Μια ιδιαίτερα αποδοτική μέθοδος για την ανάκτηση δεδομένων από ιστολόγια με τη χρήση αλγορίθμων μηχανικής μάθησης και ένα σύστημα αυτόματης πλοήγησης ιστολογίων που την υλοποιεί. Στα πλαίσια της έρευνας μας δημιουργήθηκαν ειδικά πακέτα λογισμικού και υλοποιήθη- καν διαδικτυακές εφαρμογές που βρίσκονται σε παραγωγική λειτουργία στο διαδίκτυο. Η απόδοση όλων των αλγορίθμων και η εγκυρότητα των αποτελεσμάτων επικυρώθηκε με πειραματικές μετρήσεις. Τα αποτελέσματα της διατριβής δημοσιεύθηκαν σε έγκριτα διεθνή επιστημονικά περιοδικά, συνέδρια και εκδόσεις. Αναλυτικότερα, οι δημοσιεύσεις μας αναφέρονται στο Κεφάλαιο 1.3. Παρακάτω παρουσιάζουμε τα βασικά σημεία της διατριβής όπως είναι οργανωμένα σε κάθε κεφάλαιο. Κεφάλαιο 1: Introduction Στο Κεφάλαιο 1 παρουσιάζουμε καταρχήν ορισμένες γενικές πληροφορίες για την αυτό- ματη πλοήγηση στον παγκόσμιο ιστό, την εξαγωγή δεδομένων και την αρχειοθέτηση ιστοσελίδων, έννοιες που αποτελούν το βασικό πλαίσιο της έρευνάς μας. Στη συνέχεια ορίζουμε τους στόχους της διατριβής και παρουσιάζουμε τις συνεισφορές μας ανά κεφά- λαιο, δίνοντας παράλληλα την οργάνωση της διατριβής. Επιπλέον, παρουσιάζουμε τις δημοσιεύσεις που έγιναν σε διεθνή επιστημονικά περιοδικά, συνέδρια και εκδόσεις. Κεφάλαιο 2: Background and Literature Review Στο Κεφάλαιο 2 παρουσιάζουμε το ερευνητικό έργο που γίνεται στο πεδίο της αρχειοθέ- τησης του παγκόσμιου ιστού, της αυτόματης πλοήγησης στο διαδίκτυο και την αρχειοθέ- τησης των μέσων κοινωνικής δικτύωσης. Βλέπουμε τη σημασία της αρχειοθέτησης του παγκόσμιου ιστού και τις εργασίες που γίνονται για την εξασφάλιση ενός επιπέδου ποιό- τητας και αξιοπιστίας στο Κεφάλαιο 2.1.1. Εξετάζουμε τις εξελίξεις στον τομέα της εύρεσης όμοιου περιεχομένου στα ψηφιακά αρχεία του παγκόσμιου ιστού καθώς και τις τεχνικές εξάλειψής του ώστε να έχουμε μια σειρά από οφέλη σε κάθε στάδιο της λειτουργίας των ψηφιακών αρχείων (Κεφάλαιο 2.1.2). Μελετούμε τις προσπάθειες βελτι- στοποίησης των συστημάτων αυτόματης πλοήγησης στο διαδίκτυο στο Κεφάλαιο 2.1.3. vii Ιδιαίτερη έμφαση δίνουμε τέλος στις εργασίες για την αρχειοθέτηση ιστολογίων και στα συστήματα που έχουν αναπτυχθεί για αυτό το σκοπό όπως αναλύονται στο Κεφάλαιο 2.2. Κεφάλαιο 3: An Innovative Method to Evaluate Website Archivability Στο Kεφάλαιο 3 παρουσιάζουμε μια νέα μέθοδο μοντελοποίησης των αρχών και των διαδικασιών αρχειοθέτησης του παγκόσμιου ιστού. Εισάγουμε το δείκτη Website Archiv- ability που εκφράζει το κατά πόσο ένας ιστότοπος θα μπορούσε να αρχειοθετηθεί με πληρότητα και ακρίβεια. Ορίζουμε τη μέθοδο Credible Live Evaluation for Archive Readi- ness Plus (CLEAR+) με την οποία μπορεί να υπολογιστεί ο δείκτης σε πραγματικό χρόνο. Περιγράφουμε την αρχιτεκτονική του συστήματος ArchiveReady που αποτελεί μια υλο- ποίηση της μεθόδου σε μορφή διαδικτυακής εφαρμογής. Η μέθοδος και οι εφαρμογές της είναι ιδιαίτερα σημαντικές και χρησιμοποιούνται ήδη από πανεπιστήμια, εθνικά αρχεία και εταιρίες του χώρου σε όλο τον κόσμο. Αναλυτικά οι χρήστες του ArchiveReady αναφέρονται στο Παράρτημα 7.2. Ένα βασικό ζήτημα όσον αφορά την αρχειοθέτηση του παγκόσμιου ιστού είναι η έλλειψη αυτοματοποιημένου ελέγχου του περιεχομένου που αρχειοθετείται. Πολλές φορές ιστο- σελίδες αρχειοθετούνται ελλειπώς, έχουν προβλήματα και τα αρχειοθετημένα

Web Crawling, Analysis and Archiving

CHAPTER 12 Making Your Web Site Mashable

Life Sciences and the Web: a New Era for Collaboration

Building a Scalable Index and a Web Search Engine for Music on the Internet Using Open Source Software

Release Notes - January 2018

Open Search Environments: the Free Alternative to Commercial Search Services

Efficient Focused Web Crawling Approach for Search Engine

Distributed Indexing/Searching Workshop Agenda, Attendee List, and Position Papers

Web Vulnerabilities (Level 1 Scan)

Quality Spine Care

Natural Language Processing Technique for Information Extraction and Analysis

Elie Bursztein, Baptiste Gourdin, John Mitchell Stanford University & LSV-ENS Cachan

Insight MFR By