Un Approccio Basato Su Dbpedia Per La Sistematizzazione Della Conoscenza Sul Web
Total Page:16
File Type:pdf, Size:1020Kb
POLITECNICO DI TORINO SCUOLA DI DOTTORATO Dottorato in Beni Culturali - XXV Ciclo Tesi di Dottorato Un approccio basato su DBpedia per la sistematizzazione della conoscenza sul Web Federico Cairo Tutore Coordinatore del corso di dottorato prof. Mario Ricciardi prof. Costanza Roggero Marzo 2013 2 Indice Ringraziamenti ............................................................................................... 7 Introduzione ................................................................................................... 9 Capitolo 1 - Wikipedia e l’intelligenza collettiva .......................................... 13 1.1 Il successo di Wikipedia ................................................................... 13 1.2 Intelligenza collettiva e cultura partecipativa in Wikipedia ............. 21 1.3 Criticità in Wikipedia ...................................................................... 34 1.3.1 Inaccuratezza e inaffidabilità ................................................... 35 1.3.2 Copertura diseguale dei diversi ambiti del sapere .................... 39 1.3.3 Parzialità ed esposizione a pregiudizi e interessi ...................... 42 1.3.4 Volatilità ................................................................................. 45 1.4 Conclusioni ....................................................................................... 45 Capitolo 2 - DBpedia, Linked Open Data e classificazione semantica dei contenuti ............................................................................................................ 52 2.1 Web Semantico e Linked Open Data ............................................... 52 2.2 DBpedia: il punto di riferimento per il Web dei Dati ...................... 66 2.3 Annotazione e classificazione semantica del testo ............................ 78 2.3.1 Che cosa si intende per classificazione ed annotazione semantica ................................................................................................................ 78 2.3.2 Vantaggi nell’uso di DBpedia per il Natural Language Processing ............................................................................................... 87 2.3.3 Stato dell’arte: una comparazione tra i software di annotazione semantica ................................................................................................ 88 Capitolo 3 - TellMeFirst: un sistema per l’annotazione, la classificazione e l’arricchimento dei documenti attraverso DBpedia ........................................... 107 3 3.1 L’approccio di TellMeFirst all’annotazione e alla classificazione semantica ........................................................................................ 107 3.2 Componenti del sistema ................................................................. 111 3.3 Interazione tra componenti e artefatti ........................................... 114 3.3.1 Dataset iniziali ...................................................................... 114 3.3.2 Dataset elaborati ................................................................... 116 3.4 Il modulo di disambiguazione di TellMeFirst ................................. 120 3.4.1 Corpus-based disambiguation ................................................ 122 3.4.2 Knowledge-based disambiguation .......................................... 125 3.4.3 First Sense Heuristic disambiguation .................................... 127 3.4.4 Default disambiguation ......................................................... 129 3.5 Modulo di classificazione ................................................................ 132 3.5.1 Input e output ....................................................................... 132 3.5.2 Funzionamento ...................................................................... 133 3.5.3 Esempio di chiamata e risposta ............................................. 136 3.6. Modulo di enhancement ................................................................ 138 3.6.1 GetImage ............................................................................... 138 3.6.2 GetText ................................................................................. 141 3.6.3 GetNews ................................................................................ 142 3.6.4 GetMap ................................................................................. 144 3.6.5 GetVideo ............................................................................... 145 3.7 Interfaccia Web .............................................................................. 146 3.7.1 Modulo di acquisizione del testo ............................................ 147 3.7.2 Griglia degli argomenti .......................................................... 148 3.7.3 Box dei contenuti .................................................................. 149 3.7.4 Flusso di esecuzione ............................................................... 154 4 3.8 Test e prestazioni ........................................................................... 163 Capitolo 4 - DBpedia Gateways contro l’information overload sul Web ..... 171 4.1 Il problema dell’information overload in Rete ................................ 171 4.2 DBpedia Gateways ......................................................................... 184 4.3 Un progetto di esempio: Future Internet Gateway ........................ 192 4.3.1 Introduzione .......................................................................... 192 4.3.2 I progetti di CSA in campo FIRE ......................................... 193 4.3.3 FIG – Future Internet Gateway ............................................ 195 Conclusioni ................................................................................................. 201 Bibliografia ................................................................................................. 205 5 6 Ringraziamenti Desidero innanzitutto ringraziare il Prof. Mario Ricciardi, tutore del mio per- corso di dottorato, per il sostegno e l’aiuto fornitomi nella scelta e nello sviluppo del tema di questa tesi. La mia gratitudine va inoltre al Centro Nexa su Internet & Società del Politecnico di Torino, dove ho svolto buona parte del mio lavoro su TellMeFirst e dove ho avuto occasione di approfondire le tematiche relative ai Linked Open Data in un ambiente di grande competenza e cordialità. Voglio an- che esprimere la mia gratitudine nei confronti di Telecom Italia (in particolare Walter Goix, Fabio Mondin, Carmen Crimisi e Carlo Alberto Licciardi) per aver creduto nel progetto TellMeFirst tanto da finanziarlo e seguirne lo sviluppo in tutte le sue fasi. Grazie a CSI Piemonte e a CELI (in particolare Giuliana Bonel- lo, Nathalie Coué, Andrea Muraca, Alessandro Trombotto e Vittorio Di Tomaso) per avermi formato “sul campo” nei primi tempi della mia esperienza dottorale. Un ultimo grande ringraziamento va a Giuseppe Futia e a Federico Benedetto, sviluppatori del front-end di TellMeFirst, brillanti collaboratori e soprattutto a- mici, senza i quali non ce l’avrei mai fatta. 7 8 Introduzione Nel 2004, quando ho scritto la mia tesi di laurea in Filosofia all’Università di Bologna, il Web 2.0 cominciava a muovere i primi passi incerti e il compito di un tesista era più semplice. Si raccoglievano i testi più rilevanti su di un argomento, per lo più cartacei, in base alle bibliografie contenute in altri testi cartacei sullo stesso tema. Inizialmente i titoli sconosciuti erano parecchi, ma ben presto co- minciavano a ripetersi, le novità diminuivano di numero e si giungeva alla piace- vole situazione in cui i documenti citati erano sempre gli stessi: in quel momento ci si sentiva di padroneggiare una materia, per quanto piccola e insignificante ri- spetto alla totalità della conoscenza umana. Chi deve scrivere una tesi oggi, invece, in un’epoca di maggiore maturità del Web, si trova nella complicata posizione di dover porre dei limiti estremamente soggettivi alle proprie letture. Il rapporto numerico tra i testi digitali reperibili online e quelli pubblicati su carta, soprattutto in merito a un argomento di re- cente interesse, è incredibilmente alto, ed è in costante crescita. Al 3 ottobre 2012, digitando “Semantic Web” sul motore di ricerca del Catalogo del Servizio Bibliotecario Nazionale 1, otteniamo 98 risultati, ma digitando le stesse keyword su una nota piattaforma di social sharing per paper scientifici, Mendeley 2, il nu- mero sale fino a 8.770 (circa 90 volte maggiore). I risultati della stessa ricerca su Google, si assestano invece sui 8.840.000 (un numero circa 90.000 volte maggio- re). Si tratta di un muro quasi minaccioso di documenti, una situazione che fa subito venire in mente parole come sovraccarico informativo o «infobesity» (Jo- hnson, 2012). Siamo arrivati al punto in cui la quantità di informazioni reperibili su Internet ci impedisce di fatto di conoscere un argomento? Alcuni sono di quest’avviso. Nicolas Carr per esempio, nel suo famoso saggio The shallows: what the Internet is doing to our brains , mette in guardia sulla facilità di ottenere a portata di mano enormi quantità di dati e informazioni senza la minima capacità 1 URL: http://www.sbn.it/opacsbn/opac/iccu/free.jsp 2 URL: http://www.mendeley.com/ 9 di saperli discernere (Carr, 2010). Oppure Umberto Eco, che sempre più spesso in interviste e articoli manifesta il suo pessimismo nei confronti del Web come strumento conoscitivo, a causa della «censura per eccesso di rumore» (Eco, 2012) che caratterizza l’ information overload 3. Combattere il sovraccarico