WEB SEMANTICO: Lo Stato Dell’Arte
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSITÀ DEGLI STUDI DI PADOVA FACOLTÀ DI INGEGNERIA Corso di Laurea in Ingegneria Informatica TESI DI LAUREA WEB SEMANTICO: lo stato dell’arte Relatore: Prof. Michele Moro Laureando: Davide Buongiorno ANNO ACCADEMICO 2008/2009 Università degli Studi di Padova – Facoltà di Ingegneria _____________________________________________________________________ 2 Web Semantico: lo stato dell’arte alla mia famiglia e a quanti mi hanno sostenuto in quest’impresa _____________________________________________________________________ 3 Università degli Studi di Padova – Facoltà di Ingegneria _____________________________________________________________________ 4 Web Semantico: lo stato dell’arte Indice Sommario 7 Introduzione 9 1. World Wide Web 13 1.1 Introduzione 13 1.2 Tim Berners-Lee e Robert Cailliau 14 1.3 Storia 15 1.4 HTML e XHTML 16 1.5 HTTP e HTTPS 20 1.6 World Wide Web Consortium (W3C) e W3C Italia (W3C-IT) 22 2. Introduzione al Web Semantico 27 2.1 Dal web statico al web dinamico. Web Services 27 2.2 Dal web statico al Web Semantico 36 2.2.1 Motori di ricerca 38 2.2.2 Agente semantico 39 2.2.3 Introduzione all’architettura del Web Semantico 41 2.2.4 Metadati 43 2.2.5 Ontologie 45 2.2.6 Conclusione ipotizzata da Berners-Lee 48 2.2.7 Evoluzione dal Web 1.0 al Web 3.0 49 2.3 W3C Semantic Web Activity 50 3. Architettura a livelli del Web Semantico 53 3.1 Unicode, URI, IRI, XRI 53 3.2 XML, XML Schema 61 3.3 RDF, RDF/XML, RDF Schema 72 3.4 OWL, OWL2, SPARQL, SKOS, RIF, SWRL 95 3.5 POWDER 126 _____________________________________________________________________ 5 Università degli Studi di Padova – Facoltà di Ingegneria 3.6 Logica, dimostrazioni, firme digitali e fiducia 133 4. Un’applicazione già operativa: GoPubMed 137 4.1 MEDLINE (PubMed), Gene Ontology, MeSH 138 4.2 GoPubMed 145 Conclusioni 157 Appendice 159 Indice delle abbreviazioni 159 Bibliografia 163 Ringraziamenti 169 _____________________________________________________________________ 6 Web Semantico: lo stato dell’arte Sommario Il termine “Web Semantico” è stato introdotto dal suo inventore, il ricercatore Tim Berners-Lee, nel 1991, per indicare la trasformazione del World Wide Web in un ambiente dove i documenti pubblicati (quali pagine HTML, ecc.) sono associati a specifiche informazioni, i metadati, che ne specifichino il contesto semantico. Queste informazioni, aggiunte ai documenti, devono avere una forma tale da permettere l’interrogazione, l’interpretazione ed, in generale, l’elaborazione automatica, da parte dei computer, del contenuto dei documenti stessi. L’ informazione, che può anche essere intesa come insieme delle conoscenze, è spesso dispersa tra più fonti, che sono sparse nel Web. L’obiettivo principale del Web Semantico è fare in modo che le macchine riescano, autonomamente, ad estrarre e a dedurre nuova conoscenza. Da allora ad oggi molto lavoro è stato fatto e tanto altro è tuttora in corso, sia da enti preposti, che da persone interessate all’argomento. Non si è ancora arrivati alle capacità originariamente ipotizzate da Berners-Lee, in quanto la sua “visione” iniziale era troppo futuristica. Egli stesso, nel corso degli anni successivi, ha ridimensionato il proprio punto di vista. Attualmente esistono sistemi in grado di rappresentare la conoscenza, intesa come la definizione di un dominio, delle sue specificazioni, delle sue proprietà e delle relazioni con altri domini, tramite le ontologie: questo può essere realizzato per domini abbastanza ristretti e ben specificati. Per un prossimo futuro si ipotizza che questi “dati sui dati” riescano a rappresentare domini di conoscenza sempre più ampi che possano essere arricchiti dall’uomo ma, sopratutto, in maniera automatica e sempre più crescente dalle macchine. Scopo di questa tesi è quello di fare il punto della situazione sul Web Semantico per permettere al lettore di capire a che punto è arrivata la ricerca, cosa si sia riuscito a realizzare effettivamente, quali sono i problemi incontrati e le idee per tentare di risolverli. Il lavoro è strutturato in 4 parti fondamentali: • presentazione del Web attuale nei suoi vari aspetti; • evidenziazione dei suoi limiti principali; • esposizione delle tecnologie dell’architettura a livelli del Web Semantico; • presentazione di un’applicazione, già operativa, che utilizza le tecniche del Web Semantico finora sviluppate. _____________________________________________________________________ 7 Università degli Studi di Padova – Facoltà di Ingegneria _____________________________________________________________________ 8 Web Semantico: lo stato dell’arte Introduzione Tim Berners-Lee, in un oramai famoso articolo apparso su “Scientific American” del Maggio 2001, immaginava la situazione in cui due fratelli, dovendo far fare alla madre una visita specialistica e delle cure presso un centro fisioterapico, per la prenotazione delle terapie facessero uso di “agenti” intelligenti. Questi agenti, in maniera automatica e grazie al Web Semantico, partendo dalle indicazioni del medico ricercavano la struttura ospedaliera più comoda e consona alla cure. Ricercavano poi, in maniera intelligente ed autonoma, gli orari delle sedute compatibili con gli impegni dei fratelli che, alla fine, dovevano dare solo il loro consenso alla prenotazione. Questo è solo un esempio delle possibilità che saranno offerte dal Web Semantico, che deve essere visto ora come un’estensione del Web attuale. “Lo cerco sul Web” è un’espressione che, al giorno d’oggi, è diventata abituale e che testimonia come il Web sia percepito dalla gente come un serbatoio di conoscenza. Attraverso la rete, le persone possono trovare e fare molte cose: dalla consultazione dell’orario dei treni, alla prenotazione di un albergo, dalla visione della registrazione di un telegiornale, alle telefonate da pc a pc, dalla messaggistica alla chat on-line tra persone, dalla posta elettronica fino agli acquisti on-line, ecc. E, tutto questo, è in continua evoluzione. Nei primi anni ‘90 il Web era composto solo da poche pagine testuali. Col passare del tempo, il testo è stato arricchito anche di contenuti multimediali: grafica più ricca, animazioni, audio e video. Il contenuto, inizialmente sviluppato ed implementato da pochi “tecnici”, e memorizzato in rete su poche migliaia di macchine, ha iniziato a crescere in quantità. Contemporaneamente si sono iniziate a migliorare le tecnologie che supportavano il tutto. Man mano che nuovi standard venivano sviluppati e le potenzialità aumentavano è iniziata anche la partecipazione dell’utente che, anche se non in possesso di grosse conoscenze informatiche, ha iniziato ad arricchire il Web con i propri contenuti d’informazione. Questo ha dato una nuova linfa vitale al Web che è cresciuto in maniera esponenziale. Questa crescita vertiginosa della informazione presente in rete ha creato alcuni problemi, uno dei più importanti consiste nella difficoltà da parte di un utente di reperire le informazioni precise di cui ha bisogno tra la moltitudine delle informazioni presenti nel Web. Per gli esseri umani il processo di combinare informazioni, spesso incomplete, provenienti da fonti diverse e memorizzate in formati diversi (pagine web, database, fogli elettronici, ecc.) per ottenere una risposta adeguata alle proprie esigenze è ragionevolmente semplice, anche se talvolta noioso e/o ripetitivo. Sarebbe desiderabile che le macchine potessero, automaticamente, combinare la conoscenza proveniente dalle diverse fonti ed, ancor meglio, da queste derivarne di nuova. _____________________________________________________________________ 9 Università degli Studi di Padova – Facoltà di Ingegneria Per superare questi limiti del Web attuale, da qualche anno, i ricercatori stanno lavorando intensamente per la realizzazione del Semantic Web, che può essere anche definito come un’infrastruttura, basata su “metadati” per svolgere ragionamenti sul Web. Nel Web Semantico la conoscenza è rappresentata in maniera elaborabile dalla macchine e può essere utilizzata da componenti automatizzati, detti “agenti semantici”. I metadati sono informazioni, elaborabili in modo automatico, relative alle “risorse” presenti nel Web, che vengono identificate univocamente dagli “Uniform Resource Identifier”. La tecnologia di riferimento per la codifica, lo scambio ed il riutilizzo di questi metadati strutturati è la “Resource Description Framework”, basata su un modello molto semplice di “statement”, rappresentabili come triple. Per esprimere le relazioni sulle associazioni, quindi per evitare che possano essere codificati degli statement sintatticamente corretti, ma privi di senso, è necessario un meccanismo per rappresentare “classi di oggetti”. Da questa esigenza nasce l’”RDF Vocabulary Description Language”, più noto come “RDF Schema”. Per poter effettuare dei ragionamenti, per definire le classi e per altre esigenze, l’”RDF Schema” da solo non è sufficiente ed occorre, quindi, un modo per rappresentare la conoscenza e le regole che permettano di dedurre ulteriore conoscenza: qui entrano in gioco le ontologie. Il Web ha la caratteristica fondamentale di essere distribuito ed è inoltre necessario anche un linguaggio, che non solo consenta di esprimere dati e regole sui dati, ma anche che consenta di esportare queste conoscenze per renderle disponibili a qualsiasi applicazione. Il W3C, ente americano che sovrintende alla realizzazione del Web Semantico, ha definito per questa esigenza il “Web Ontology Language”. Altro obiettivo di questa tesi è anche quello di far comprendere al lettore come il Web Semantico, ed un approccio