République Algérienne Démocratique et Populaire Ministère de l‘enseignement Supérieur et de la Recherche Scientifique Université Abdelhamid Mehri- Constantine 2 Faculté des Nouvelles Technologies de l‘Information et la Communication Département de l‘Informatique Fondamentale et ses Applications Laboratoire MISC-Equipe OSSIG

Année : No d‘ordre : Série :

THESE

Pour l‘obtention du diplôme de Doctorat 3éme cycle LMD Option : Systèmes Complexes

Recherche d‘Information Géographique à l‘aide des Ontologies Spatiales de Localisation

Présentée par : Feriel ABDELKOUI

Soutenue le devant le jury composé de :

Pr. ZAROUR Nacer Eddine Président Université Abdelhamid Mehri- Constantine 2

Dr. BELHADEF Hacene Examinateur Université Abdelhamid Mehri- Constantine 2

Pr. CHALAL Rachid Examinateur Ecole nationale supérieure d‘informatique. ESI Alger

Pr. BALLA Amar Examinateur Ecole nationale supérieure d‘informatique. ESI Alger

Pr. KHOLLADI Mohamed Rapporteur Université Echahid Hamma lakhdar, El-oued khireddine

1

Remerciements

Je tiens à remercier toute personne ayant participé, de loin ou de prêt à la réalisation de ce travail.

Je suis extrêmement reconnaissante envers Monsieur Mohamed Khireddine KHOLLADI, d’avoir accepté d’être mon Directeur de thèse, Je le remercie pour la confiance qu'il m'a accordée, la patience, la gentillesse et la disponibilité dont il a fait preuve. Qu’il trouve ici l'expression de ma très grande gratitude.

Je remercie particulièrement les membres de jury de m’avoir accordé l’honneur d’accepter l’évaluation de ce travail. Je tiens à remercier Mr. ZAROUR Nacer Eddine, Professeur à l'université de Constantine 2, Abdelhamid Mehri, Mr. CHALAL Rachid, Professeur à Ecole nationale supérieure d‘informatique. ESI .Alger, Mr BALLA Amar, Professeur à Ecole nationale supérieure d‘informatique. ESI Alger, et Mr BELHADEF Hacene, Maitre de conférences, à l'université de Constantine 2, Abdelhamid Mehri

Je remercie du fond du cœur et avec un grand amour mes parents qui n'ont jamais cessé de croire en moi pendant toutes mes années d'études. Et à toute la famille qui m'ont toujours encouragée.

2

Je dédie cette thèse A ma princesse MARIA RAZANE

3

Résumé

La recherche d‘information géographique ou GIR (Geographic Information Retrieval) peut être considérée comme une branche spécialisée de la recherche classique. Mais en plus en met l‘accent sur les notions de l‘indexation spatiale et la recherche géographique.

Toutefois, Les moteurs de recherche (Google, Bing, Yahoo…etc.) ne permettent pas d‘atteindre une grande efficacité et les résultats qu‘ils retournent ne correspondent pas toujours aux besoins des utilisateurs. Pour cette raison, Nos travaux de thèse s'inscrivent dans le contexte de la GIR, et du Web sémantique via les ontologies en vue d'une amélioration au processus de la recherche. L‘optique du Web sémantique dans la GIR est d‘expliciter la connaissance contenue dans les différents documents et de la formaliser afin que les agents de recherche d‘information puissent l‘exploiter via des mécanismes d‘inférences et fournir de meilleures réponses au besoin de l‘utilisateur.

Nos contributions portent sur deux volets complémentaires : d‘abord l‘amélioration du processus de la GIR par la prise en compte de la sémantique. Puis, la définition des nouvelles approches d‘indexation et d‘extraction d‘informations pour l‘amélioration des performances des systèmes de GIR en langue Arabe.

Pour le premier volet, nous proposons un système de récupération d‘information géographique spatio-temporelle basé sur une ontologie d‘application STATO développée. Pour cela, nous proposons également une méthodologie de conception et de création de notre ontologie basée sur l'ontologie BFO et la division administrative Algérienne.

Pour le deuxième volet, on propose deux nouvelles approches. Notre première approche s‘inscrit dans le cadre de l‘indexation spatiale, on propose un nouveau prototype système d‘extraction et de combinaison automatique des informations spatio-temporelles à partir des documents textuels Arabes. Afin d‘assurer une continuité dans l‘enchaînement de nos contributions, on propose une deuxième approche spatio-temporelle pour l‘extraction automatique et à temps réel des événements criminels depuis des Tweets Arabes.

Ces propositions ont été expérimentées sur différents corpus, évaluées qualitativement et quantitativement et puis comparées. Les résultats obtenus ont prouvé l'efficacité des méthodes proposées.

Mots-clés Recherche d‘information géographique, web sémantique, ontologie, information spatio-temporelle, indexation spatiale, la langue Arabe.

4

Abstract

Geographic Information Retrieval (GIR) can be considered as a specialized branch of classical research. But in addition emphasizes the notions of spatial indexing and geographical research.

However, search engines (Google, Bing, Yahoo ... etc) do not achieve high efficiency and the results they return do not always match the needs of users. For this reason, our thesis is related to the context of GIR, and the semantic Web via ontologies to assist in the retrieval process. The semantic Web perspective in GIR is to clarify the knowledge contained in the various documents and to formalize it so that the information retrieval agents can exploit it via inference mechanisms and provide better answers if necessary to the user.

Our contributions focus on two complementary axis: first, the improvement of the GIR process by taking into account the semantics. Then, the definition of new indexing and retrieving approaches to improve the performances of GIR systems in Arabic language.

In the first axis, we propose a spatial and temporal information retrieval system based on the developed application ontology STATO. To do this, we also propose a methodology for the design and the creation of our ontology based on the BFO ontology and the Algerian administrative division.

In the second axis, two new approaches are proposed. Our first approach is spatial indexing; we propose a new prototype system for automatic extraction and combination of spatio- temporal information from Arabic text documents. To ensure continuity in the flow of our contributions, we propose a second spatio-temporal approach for the automatic and real-time extraction of criminal-related events from Arabic Tweets.

These proposals were tested on different corpus, evaluated qualitatively and quantitatively and then compared. The results obtained proved the effectiveness of the proposed approaches.

Keywords: geographic information retrieval, semantic web, ontology, spatio-temporal information, spatial indexing, Arabic language.

5

ُيهخص ًٌكٍ اػرثاس اعرشظاع انؼًهٕياخ انعغشافٍح )ظٍش( فشػا يرخصصا نهثؽس انكالعٍكً ػٍ انؼًهٕياخ. ٔنكٍ تاإلضافح إنى رنك ٌؤكذ ػهى يفٕٓيً انفٓشعح انًكاٍَح ٔانثؽس انعغشافً.

ٔيغ رنك، فئٌ يؽشكاخ انثؽس )ظٕظم، تُط، ٌإْ ... انخ( ال ذؽمك كفاءج ػانٍح ٔانُرائط اليغرشظؼح ال ذرطاتك دائًا يغ اؼرٍاظاخ انًغرخذيٍٍ. نٓزا انغثة، ٌُذسض ػًم ا أطشؼٔرٍفً عٍاق ظٍش، ٔانٌٕة انذالنً ػٍ طشٌك اعرخذاو اأَٔرٕنٕظً نهًغاػذج فً ػًهٍح االعرشظاع. يُظٕس انٌٕة انذالنً فً ظٍش ْٕ ذٕضػٍ انؼًشفح انٕاسدج فً يخرهف انٕشائك ٔ انًهفاخ ٔإضفاء انطاتغ انشعًً ػهٍّ تؽٍس ًٌكٍ اعرشظاع انؼًهٕياخ ٔ اعرغالنٓا ػٍ طشٌك آنٍاخ االعرذالل ٔذمذٌى إظاتاخ أفضم إرا نضو األيش نهًغرخذو.

ذشكض يغاًْاذُا ػهى يؽٕسٌٍ يركايهٍٍ: أٔال، ذؽغٍٍ ػًهٍح ظٍش يٍ خالل األخز فً االػرثاس انذالالخ. ٔ كذا ذؼشٌف َضى ظذٌذج لفٓشعح انؼًهٕياخ ٔ االعرشظاع نرؽغٍٍ أداء َظى ظٍش فً انهغح انؼشتٍح.

فً انؽًٕس األٔل، َمرشغ َظاو اعرشظاع انؼًهٕياخ انًكاٍَح ٔانضيٍُح اعرُادا إنى ذطثٍك االَٔرٕنٕظٍا 'عراذٕ'. ٔنهمٍاو تزنك، فئَُا َمرشغ أٌضا يُٓعٍح نرصًٍى ٔإَشاء ْذِ األَطٕنٕظٍا ػهى أعاط أَٔرٕنؼٍٕا تفٕ ٔالخ ولظ ياإلداسي انعضائشي.

ٔفً انؽًٕس انصاًَ، ٌلرشغ َٓعاٌ ظذٌذاٌ. أٔال َٓط يرؼهك بانفٓشعح انًكاٍَح، َمرشغ َظاو ًَٕرض ظذٌذ نالعرخشاض انرهمائً ٔانعًغ تٍٍ انؼًهٕياخ انًكاٍَح ٔانضيٍُح يٍ انٕشائك ٔ انًهفاخ انُصٍح انؼشتٍح. ٔنضًاٌ االعرًشاسٌح فً يٕاضٍغ يغاًْاذُا، َمرشغ شاٍَا َٓعا صيٍُا ٔ يكاًَالعرغالل آنً ٔفؼهً نألؼذاز اإلظشايٍح يٍ ذغشٌذاخ ذٌٕرش تانهغح انؼشتٍح.

ذى اخرثاس ْزِ انًمرشؼاخ ػهى يعػًٕح يخرهفح، ذى ذمًٍٍٓا ػَٕا ٔكًا ٔيٍ شى يماسَرٓا. ٔأشثرد انُرائط انرً ذى انؽصٕل ػهٍٓا فؼانٍح الو اٌْط انًمرشؼح.

انكهًبد انًفزبحٍخ . اعرشظاع انؼًهٕياخ انعغشافٍح. انٌٕة انذالنً ، األَطٕنٕظٍا. انؼًهٕياخ انًكاٍَح ٔانضياٍَح. انفٓشعح انًكاٍَح. انهغح انؼشتٍح

6

Tables des matières

Listes des figures Liste des tableaux Introduction générale

I État de l'art

1/ Recherche d’information géographique (GIR)

1. Introduction…………………………………………………………….. 20 2. L‘information géographique……………………………………………. 20 2.1 Les composants d‘une information géographique………………….. 21 2.1.1. Les données spatiales…………………………………………. 21 2.1.2. Les données temporelles………………………...... 21 2.1.3. Les attributs……………………………………...... 21 2.2 Caractéristiques des données géographiques……………………….. 22 2.3 Sources de données géographiques……………………………... ….. 23 2.4 Modélisation de l‘information géographique dans des documents 24 textuels……...... 24 3. Recherche d‘information géographique (GIR) …………………...... 25 3.1 Recherche d‘information spatiale………………...... 25 3.2 Recherche d‘information temporelle…………………...... 25 3.3 Processus de la GIR……………………………………………...... 26 4. Extraction et Indexation d‘information dans le but de RIG……………. 27 4.1 Extraction d‘information spatiale…………………………………… 28 4.2 Extraction d‘information temporelle ………………………………... 29 5. RIG en langue Arabe……………………………………………….……. 29 5.1 Particularité de la langue Arabe……………………………………... 29 5.1.1 La structure morphologique d‘un mot arabe………………….. 30 5.1.2 Les catégories du mot…………………………………...... 31 5.1.2.1 Le verbe…………………………………………………... 31 5.1.2.2 Le nom…………………………………………..……….. 31 5.1.2.3. Le particule………………………………………...... 31 5.2 Les problèmes liés au traitement automatique de l‘arabe………...... 32 5.2.1 Le problème de la voyellation………………………………… 32 5.2.2 Le problème de l‘agglutination……………………………….. 32 5.2.3 L‘extraction de la racine…………………………………...... 32 5.2.4 La terminologie……………………………………………….. 33 5.3 quelques outils de traitement de la langue Arabe……………………. 33 5.3.1. L‘analyseur morphologique ………………………...... 33 5.3.2. Les concordanciers………………………………...... 34 5.3.3. les racieurs …………………………………………………… 35 6. Critères d‘évaluation des GIRS …………………………………………. 35 7. Conclusion ……………………………………………………………… 35

7

2/ Les ontologies 1. Introduction ………………………..……………………………...…….. 38 2. Le web sémantique et le web sémantique géo-spatial………………..… 38 2.1 Définition multiples de l‘ontologie …………………………………. 39 2.2. Le rôle d‘une ontologie……………………………………………... 42 2.3. Les types d‘ontologies ……………………………………………... 42 2.3.1 Selon l’état de formalisation…………………………………. 43 2.3.2 Selon leurs conceptualisations……………………………….. 43 2.3.3 Selon leurs propos…………………………………………….. 43 3. Les ontologies géographiques…………………………………………… 44 3.1 Les ontologies spatiales……………………………………………... 45 3.2 Les ontologies spatio-temporelles………………………………….. 45 3.3 Les gazetiers………………………………………………………… 46 4. construction d‘ontologie………………………………………………… 47 4.1. Par la détermination directe de la catégorie ……………………….. 47 4.2. Par la détermination d‘axiomes…………………………………….. 47 4.3. Par l‘élaboration théorique…………………………………….……. 47 5. BFO : l‘ontologie formelle de base………………………….…………... 47 6. Outils de développement d‘ontologie………………………….……….. 49 6.1. Langage pour les ontologies………………………………………... 49 6.2. Les éditeurs d‘ontologies…………………………………………… 50 7. Conclusion ……………………………………………………………… 51

II Contributions 3/ GIR par la prise en compte de l’ontologie STATO 1. Introduction……………………………………………………………… 55 2. Motivation……………………………………………………………….. 55 3. L‘ontologie STATO……………………………………………………... 57 3.1. Complexité de la construction d‘une ontologie toponymique …….. 57 3.2. Methontology……………………………………………………….. 57 3.2.1. Spécification …………………………………………………. 58 3.2.1.1. Les noms des lieux …………………………………….. 58 3.2.1.2. L‘ambigüité des toponymes……………………………. 58 3.2..1.3 La division administrative Algérienne ………………… 59 3.2.2 Conception de l‘ontologie STATO……………………………. 60 3.2.2.1 Les caractéristiques géographiques…………………….. 60 3.2.2.2 Relations spatiales………………………………………. 61 3.2.2.3 Géométrie……………………………………………….. 61 3.2.2.4 Evénements…………………………………………….. 61 3.2.2.5 Temporel……………………………………………….. 61 3.2.3. Les classes et les relations de STATO………………………. 63 3.2.4. Codification …………………………………………………. 64 3.2.5 Visualisation de l‘ontologie STATO………………………….. 66 4. Interrogation de STATO………………………………………………… 66

8

4.1 Le langage SPARQL………………………………………………… 67 4.2 Requêtes SPARQL…………………………………………………... 67 4.2.1. Requêtes spatiales…………………………………………….. 67 4.2.2. Requêtes temporelles…………………………………………. 70 5. GIRS basé sur STATO…………………………………………………… 71 5.1. Architecture de système …………………………………………… 71 5.1.1. Techniques de TAL………………………………………….. 72 5.1.2. Géocodage………… ………………………………………... 72 5.1.3. Visualisation…………………………………………………. 72 5.2. Étude de cas……………………………………………………. 73 5.3. Evaluation …………………………………………………………... 74 6. Conclusion………………………………………………………………. 75

4/ Extraction automatique d'information spatio-temporelle à partir des textes Arabes

1. Introduction……………………………………………………………… 78 2. Motivation ………………………………………………………………. 78 3. Les approches existantes………………………………………………… 79 4. L‘approche proposée……………………………………………………. 80 4.1. L‘architecture de système ………………………………………….. 81 4.2. Création des gazetteers Arabes : spatiaux et temporels…………….. 82 4.2.1. Création du gazetteer spatiale……………………………….. 82 4.2.2. Création du gazetteers temporel……………………………… 83 4.3. Le corpus……………………………………………………………. 84 4.4. Traitement du texte…………………………………………………. 84 4.4.1. La segmentation……………………………………………… 84 4.4.2. L‘éditeur…………………………………………………….. 84 4.4.3. Le concordancier…………………………………………….. 84 4.4.4. L‘analyseur morphologique…………………………………. 84 4.4.5. La base des règles……………………………………………. 84 4.5. Extraction et combinaison de l‘information spatio-temporelle…… 84 4.5.1. Type d‘information à extraire ………………………………. 85 4.5.2. Algorithmes…………………………………………………. 86 5. Evaluation du système …………………………………………………. 87 6. Conclusion………………………………………………………………. 89 5/ Extraction automatique des informations spatio-temporel à partir de twitter 1. Introduction……………………………………………………………… 91 2. Motivation ………………………………………………………………. 91 3. Les approches existantes………………………………………………… 92 4. L‘approche proposée ……………………………………………………. 93 4.1. Les indicateurs spatiaux et temporels dans les Tweets…………….. 94 4.1.1. Les indicateurs spatiaux……………………………………… 94 4.1.2. Les indicateurs temporels…………………………………….. 94 4.2. L‘architecture du système ………………………………………….. 94

9

4.2.1. L‘acquisition des données……………………………………. 95 4.2.2. Prétraitement et normalisation ………………………………. 96 4.2.2.1. L‘analyse du texte………………………………………... 97 4.2.2.2. L‘utilisation des gazetteers………………………………. 97 4.2.2.2.1. Le gazetteers spatial………………………………….. 97 4.2.2.2.2 Le gazetteers temporel………………………………... 97 4.2.2.2.3. Le gazetteers des événements criminels…………….. 98 4.2.3. Clustring des Tweets…………………………………………. 98 4.2.4. Application des TALN……………………………………….. 98 4.2.5. Extraction spatio-temporelle de l‘information……………….. 98 4.2.5.1. L‘information spatiale…………………………………... 99 4.2.5.2. L‘information temporelle……………………………….. 100 5. Application de l‘approche proposée…………………………………….. 101 5.1. Evaluation…………………………………………………………… 102 5.2. Les mesures métriques………………………………………………. 102 5.3. Résultats……………………………………………………………... 102 6. Conclusion ……………………………………………………………… 103 Conclusion générale et perspectives de recherche……………….………… 105 Acronymes ……………..…………………………………………………… 108 Bibliographie………………………………………………………………... 109

10

Table des Figures 1.1 facettes de l‘information géographique……………………………………... 21 1.2 Les types géométriques élémentaires d'une donnée spatiale……………….. 22 1.3 Les 8 relations topologiques selon le modèle RCC-8………………………. 24 1.4 L‘architecture du projet SPIRIT…………………………………………….. 26 1.5 la procédure d‘indexation dans un GIRS…………………………………… 28 2.1 Le web sémantique géo-spatial……………………………………………... 39 2.2 Ontologie représentée par un réseau sémantique…………………………… 41 2.3 Exemple d‘ontologie géographique…………………………………………. 45 2.4 Structuration de BFO……………………………………………………….. 48 2.5 Les langages d'exploitation des ontologies (Gomez-Pérez, 2004)………….. 50 2.6 L‘éditeur protégé……………………………………………………………. 51 3.1 L‘ambiguïté des toponymes : exemple Constantine………………………… 59 3.2 Modèle conceptuel globale de notre système……………………………….. 60 3.3 Structure de notre ontologie………………………………………………… 60 3.4 Les différentes relations RCC-8 possibles entre deux régions x et y...... 61 3.5 Propriétés d‘Objets………………………………………………………….. 63 3.6 Les individus ………………………………………………………………. 64 3.7 Codification sous protégé…………………………………………………… 64 3.8 Architecture globale de l‘ontologie spatio—temporel……………………… 65 3.9 visualisation de STATO……………………………………………………. 66 3.10 requête SPARQL (Où se trouve la province de Constantine?)…………….. 68 3.11 requête SPARQL (quelle sont les communes de la province de setif?)……. 69 3.12 requête SPARQL (Quand l’établissement de Ali mendjeli à Constantine?).... 70 3.13 structure de GIRS basé STATO……………………………………………. 71 3.14 exemple d‘application de STATO et TALN……………………………….. 72 3.15 les techniques TALN et L‘ontologie STATO sur un document textuel…….. 74

3.16 visualisation des résultats après le traitement de l‘article EL WATAN 07/02/2013…….……………………………………………………………… 74 41 Système d'extraction automatique des informations spatio-temporelles des documents texte…………………………………………………………….. 81 4.2 Exemple d'extraction automatique des informations spatio-temporelles d‘un document textuel……………………………………………………………. 85 4.3 Illustrations des taux de précisions pour les 04 cas………………………… 88 5.1 Architecture du Système……………………………………………………. 95 5.2 Distribution of the criminal event (kidnapping children) in ………... 101

11

Liste des tableaux

1.1 Type de données que fournis la source géographique ………………… 24 1.2 les systèmes de la GIR existants……………………………………….. 27 1.3 le script de quelques lettres dans les trois cas de graphie…………… 26 26 .…………………………………… .«شٓذ » quelques schèmes du mot 1.4 27 .………………………………اطزًزهكَّٕ .segmentation d‘un mot arabe 1.5 28 …………………………" شٓذ " Les différentes voyellations du mot 1.6 1.7 Les différents termes utilisés pour les mots : linguistique et ordinateur 27 2.1 les grandes ontologies existantes……………………………………… 41 2.2 Statistiques de BFO ………………………………………………… 49 3.1 les types des toponymes……………………………………………….. 58 3.2 les classes et les relations de STATO…………………………………. 63 3.3 résultats (géométrie) ………………………………………………….. 68 3.4 résultats (communes) …………………………………………………. 69 3.5 résultats (établissement) ……………………………………………… 70 3.6 géocodage de l‘entité ‗‘Djebel El Ouahch‘‘………………………….. 72 3.7 les taux de précision et de rappel (manuel Vs automatique)…………. 75 4.1 notre méthode choisit …………………………………………………. 80 4.2 anomalies trouvées……………………………………………………. 83 4.3 Date avant et après la normalisation…………………………………… 84 4.4 Extraction de l'information spatiale et temporelle. …………………… 86 4.5 Annotation automatique VS manuelle 87 4.6 Les taux de précision des 04 cas………………………………………. 88 5.1 Résultats de prétraitement d‘un tweet…………………………………. 96 5.2 résultats comparatives; manuel vs système……………………………. 102 5.3 Résultats de précision et de rappel pour différents cas. ………………. 103

12

Liste des Algorithmes

1 Extraction d‘information spatio-temporelle à partir des textes Arabes.. 87 2 The clustering Algorithm……………………………………………… 98 3 The spatial Algorithm…………………………. 99 4 The temporal information extraction algorithm……………………….. 100

13

Introduction générale

L‘évolution très rapide d‘Internet a conduit à révéler la RI au grand jour, notamment par le biais des moteurs de recherche. La profusion de données numériques disponibles a rendu indispensables des moyens de recherche performants et automatiques, permettant de répondre aux besoins des utilisateurs. Le contexte géographique est nécessaire de beaucoup de taches de recherche d‘information, en effet, l'information géographique est l'un des types d'information les plus importants et les plus courants dans la société humaine. On estime que plus de 70% de toutes les informations dans le monde possèdent certaines caractéristiques géographiques. Les moteurs de recherche usuels ne permettent pas de prendre en compte la particularité de certains types d‘information, tels que le spatial ou le temporel. Ils se limitent à l‘utilisation des termes simples pour indexer et retrouver des documents. Ce sujet présente quelques-uns des défis des systèmes de GIRS (Geographic Information Retrieval Systems) y compris une représentation et une extraction appropriées de l'information géographique dans les documents non structurés , un meilleur modèle de récupération de l'information à la fois pour l'information thématique et géographique, un mécanisme d'indexation rapide pour une recherche rapide dans les documents par des astuces thématiques et géographiques, et même une nouvelle architecture de système. D‘autre part, l‘importance grandissante d‘autres langues que l‘anglais a suscité le développement d‘outils et de techniques automatiques afin de permettre leur traitement informatique. Ce besoin n‘est pas marginal. En septembre 2015, la proportion d‘internautes naviguant en langue arabe était estimée à 29,4 %. Sur cette base, nous estimons que l‘utilisation de la langue arabe sur le Web va atteindre des valeurs comparables à celle des langues européennes. En comparaison de l‘anglais ou d‘autres langues indo-européennes. La langue arabe présente des caractéristiques morphologiques très complexes. De ce fait, peu de travaux ont été orientés vers le domaine de la RIG en langue arabe. Dans ce travail, nous soutenons la thèse selon laquelle l‘utilisation des toponymes et d‘une ontologie spatiale adaptée au contexte du pays de l‘Algérie sont des pistes potentielles qui devraient permettre un suivi des dynamiques spatio-temporelles des objets géographiques ainsi que leur description. Aussi, nous évoquons l‘extraction et la combinaison automatique des informations spatiales et temporelles à partir des documents textes et des Tweets en langue arabe. Le développement d‘une solution intégrant ces spécificités permettra d‘améliorer non seulement la gestion des ressources, mais également d‘évaluer l'impact des actions de développement sur l‘environnement et les espaces naturels.

Contexte et motivation Cette thèse s‘inscrit dans les domaines de la recherche d‘information géographique et les ontologies spatiales. La GIR sur le Web est actuellement principalement effectuée par les moteurs de recherche tels que Google, Yahoo et Bing. Ces moteurs de recherche Web aident les gens à trouver de l'information rapidement dans la plupart des cas, mais pas dans tous les cas. L'incapacité des moteurs de recherche à effectuer des recherches efficaces est soit causée par leur incapacité à comprendre les demandes d'information des personnes exprimées dans

14 les phrases de recherche du langage naturel humain, soit par leur incapacité à comprendre ou à extraire la vraie sémantique contenue dans les pages Web à récupérer, la recherche d'informations de références géographiques (ou spatiales) est l'un des cas les plus remarquables. D‘autre part, les ontologies jouent un rôle important dans la GIR, est c‘est on recherchant des documents par des concepts précis, au lieu de se baser sur des mots clés qui peuvent être ambigus. De plus, L‘arabe est une langue parlée par plus de 200 millions de personnes. Elle est la langue officielle d‘au moins 22 pays. C‘est aussi la langue de référence pour plus d‘un milliard de musulmans. Comme son nom l‘indique, la langue arabe est la langue parlée à l‘origine par le peuple arabe. C‘est une langue sémitique (comme l‘hébreu, l‘araméen et le syriaque). Au sein de cet ensemble, elle appartient au sous groupe du sémitique méridional. Contrairement à la langue anglaise, la langue arabe n‘est pas bien prise en charge par les GIRS Malheureusement. Dans ce contexte, plusieurs questions se posent au sujet de l‘amélioration du processus de recherche d‘information géographique. Les problématiques auxquelles nous cherchons à trouver des solutions dans le cadre de cette thèse sont: 1. Comment peut-on améliorer la recherche d‘information géographique à l‘aide des ontologies spatiales ? 2. Comment peut-on améliorer les performances des GIRS en langue Arabe?

Cette thèse a comme objectif de développer des outils capables d‘intégrer plus de sémantique dans les traitements de l‘information géographique en raison d‘effectuer des recherches. Pour cela, il faut bien ‗comprendre‘ les contenus des documents puis exploiter et formaliser les connaissances implicites des sources documentaires en utilisant une ontologie, et d‘intégrer cette ontologie dans la phase d‘indexation. Un deuxième point de cette thèse consiste à établir un système d‘extraction automatique des informations spatio-temporelles à partir des documents textuels et un système d‘extraction automatique des événements criminels à partir des Tweets en utilisant la langue arabe.

CONTRIBUTIONS

Afin d‘assurer une continuité dans l‘enchaînement de nos contributions et procurer ainsi une meilleure couverture des objectifs de cette thèse, nous avons répartis nos propositions sur deux grands axes:

1/ Un premier axe relatif à l‘amélioration du processus de la GIR par la prise en compte de la sémantique, où nous proposons:

- une nouvelle approche de récupération d‘information géographique spatio-temporelle basée sur notre ontologie STATO (Spatio-Temporal Algerian Toponyms Ontology) développée. Pour cela, Nous suggérons une méthodologie de conception basée sur. BFO et la division administrative Algérienne. Notre ontologie sera riche de la sémantique géographique, y compris les éléments géographiques tels que les relations spatiales, des concepts, termes et noms historiques liés à un lieu. L‘approche que nous proposons utilise l‘ontologie pour l‘indexation sémantique des documents ainsi que le géocodage des références extraites. Nous proposons également de tester STATO par des requêtes (spatiale et temporelle) SPARQL.

15

Enfin, Pour valider ces propositions, nous présentons notre système qui permet de détecter, identifier et annoter automatiquement les termes spatio-temporels, les récupérer, et les visualiser.

2/ Un deuxième axe relatif à l‘amélioration des performances des systèmes de GIR en langue arabe, où nous proposons deux contributions :

- dans la première contribution, nous présentons une approche pour l‘identification, la combinaison et l'extraction automatique d'informations spatio-temporelles à partir des documents textuels web en langue arabe, afin de capturer et de modéliser ces informations avant qu'elles puissent être utilisées dans les tâches de recherche et d'exploration. Nous définissons l‘information spatiale comme tout emplacements géographiques, tels que les communes, pays, villes, des noms de rues, adresses résidentielles...etc. Tandis que, l‘information temporelle est définit, comme l‘année, le mois, les jours, quelques heures, des des ,‘‘ يٍ 06 جٕاٌ إنى 15 جٌٕهٍخ’‗ Des intervalles temporels ,’’ خالل 3 طُٕاد‘‗ durées tels que etc. Pour réaliser cette ,’’ فً انمزٌ انًبضً ‘‗ différentes expressions temporelles tels que approche, nous suivons une méthode linguistique à base de règles contextuelles écrites à la main. - La deuxième contribution vise à proposer une approche pour l'extraction des événements criminels à partir de Tweets arabes. Nous présentons une approche d‘extraction automatique des 'informations spatiales et temporelles à partir des Tweets. L'approche proposée est basée sur la combinaison de différents indicateurs, y compris les noms des lieux et les expressions temporelles qui apparaissent dans le message Tweet, le temps d‘envoi d‘un Tweet et les emplacements supplémentaires du profil de l'utilisateur. La contribution présentée se compose sur les points suivants:  La détermination de la relation entre les activités et les événements de Twitter.  Soutenir la détection de l'information qui est explicitement et implicitement décrite dans les textes message des Tweets.  La capacité de détecter des événements criminels à un endroit donné pour un moment donné, par l'identification de l'information spatio-temporelle dans les Tweets.  le traitement de la langue arabe est une tâche difficile.  Notre approche peut estimer le temps le plus tôt et les régions les plus touchées en relation avec les différents événements criminels. Enfin, un ensemble d‘expérimentations ont été réalisés durant cette thèse, L‘objectif de ces expérimentations était de prouver l‘applicabilité des différentes approches proposées, puis comparer, tester et valider chacune de nos contributions. Pour chaque expérience réalisée nous avons fait appel à une méthode ou un protocole différent selon la nature de la contribution à expérimenter.

Plan du mémoire

L‘ensemble de chapitres composant cette thèse sont organisés en deux grandes parties : La première partie est un état de l‘art présentant respectivement les domaines dans lequel la problématique de thèse est posée, en deux chapitres. La deuxième partie présente les contributions de la thèse en trois chapitres. Plus précisément :

16

Partie 1 : Etat de l’art Dans la première partie nous avons abordé l‘état de l‘art, cette partie comprend 02 chapitres : -Le chapitre 01 introduit des notions générales sur notre domaine d‘étude. Ce chapitre est réparti en quatre sections. Dans la première section, nous éclaircissons les notions et les concepts relatifs à l‘information géographique. Nous détaillons le processus de la GIR dans la seconde section. Nous abordons par la suite les différentes stratégies d‘extraction et d‘indexation des informations géographiques et démontrons les difficultés liée à la GIR en langue arabe dans la dernière section -Le deuxième chapitre est consacré en premier lieu à la définition des ontologies dans ses différents domaines, ensuite nous citons les différents types d‘ontologies en accordant une importance aux ontologies géographiques et spatiales, jugées nécessaires pour notre étude. Nous présentons aussi une liste représentative des outils existants pour la création d‘ontologies. Partie 2 : contributions Dans la deuxième partie, nous avons mis en relief nos contributions, cette partie comprend trois chapitres : -A travers le troisième chapitre, nous présentons notre contribution traduisant notre point de vue relatif à l‘amélioration de la GIR par la prise en compte de la sémantique. -Le quatrième chapitre présente notre approche pour l‘identification, combinaison et l'extraction automatique d'informations spatio-temporelles à partir des documents textuels web en langue arabe. -Dans le cinquième chapitre, nous présentons notre approche pour l'extraction automatique des événements criminels à partir des Tweets arabes. Nous achevons ce manuscrit par un résumé des travaux menés dans le cadre de cette thèse ainsi que les pistes définissant des perspectives possibles pour de futurs travaux.

17

Première partie État de l'art

18

19

Chapitre 01 : Recherche d’information géographique (GIR).

Sommaire

1. Introduction 2. L‘information géographique 3. Recherche d‘information géographique (GIR) 4. Indexation et extraction d‘information dans le but de GIR 5. GIR en langue Arabe 6. Critères d‘évaluation des GIRS 7. Conclusion

1. Introduction

La plupart des informations dans le monde sont liées à un certain endroit sur la surface terrestre. Cette information est appelée information géographique. L'information géographique existe sous plusieurs formes telles que les cartes cartographiques, les images et les textes. Avec le développement de techniques 3S (RS, GPS, SIG), de plus en plus d'informations géographiques sont collectées et stockées pour différents types d'applications. Les systèmes GIRS sont actuellement étudiés par les sciences de l'information géo-spatiale ainsi que les sciences de l'information bibliothèque. Le défit est de pouvoir, parmi le volume important de documents disponibles, trouver ceux qui correspondent au mieux à l‘attente de l‘utilisateur. L‘essor du web a remis la GIR face à de nouveaux défis d‘accès à l‘information, il s‘agit cette fois de retrouver une information pertinente dans un espace diversifié, non structuré et de taille considérable. Ce chapitre est réparti en quatre sections. Dans la première section, nous éclaircissons les notions et les concepts relatifs à l‘information géographique. Nous détaillons le processus de la GIR dans la seconde section. Nous abordons par la suite les différentes stratégies d‘extraction et d‘indexation des informations géographiques et démontrons les difficultés liée à la GIR en langue Arabe dans la dernière section

2. L’information géographique

Le mot information peut avoir diverses significations selon le contexte dans lequel il est utilisé. Au sens étymologique, l‘information est l‘action de donner une forme. Au niveau du langage, une information est constituée d‘une ou plusieurs donnée(s), bien Formée (s) et porteuse(s) de sens. La recherche d‘information traditionnelle utilise pour représenter l‘information contenue dans un document des mots-clés ou plus généralement des termes. Selon Goodchild « le problème fondamental de l‘information géographique est que celle-ci lie un espace, souvent un instant et quelquefois des propriétés descriptives. Il utilise une métaphore de la chimie en soulignant le caractère atomique des composantes spatiales, temporelles et descriptives de l‘information géographique ».

20

Chapitre 01 : Recherche d’information géographique (GIR).

L‘information géographique, peut donc se définir comme un ensemble de trois facettes : thème, espace et temps. Ces trois facettes doivent toujours exister. De ce fait, dans les documents textuels, l‘information géographique est diluée dans le discours, ce qui rend difficile son extraction. Par exemple certaines facettes peuvent ne pas être présentes ou de manière implicite. Par exemple, une information temporelle peut être indiquée dans un paragraphe et ne pas être répétée dans ceux qui suivent ou uniquement de manière partielle. Il est donc nécessaire d‘identifier ces informations géographiques et de les convertir en données permettant de tirer parti de leur spécificité. Un traitement basé sur une analyse sémantique du texte permet de détecter les informations spatiales (ou temporelles) d‘un document et de leur associer une représentation symbolique. L‘information Géographique est utilisée dans une grande variété de domaines et d'applications (ex: étude des sols, de l'hydrologie, cadastre, l'évaluation des terres, tourisme, télécoms, transport, images satellitaires…etc).

2.1 Les composants d’une information géographique

Une information géographique comprend trois composants principaux : une donnée spatiale, une donnée temporelle, et des données attributaires.

Figure 1.1 facettes de l’information géographique

-Les Données spatiales Une donnée spatiale renvoie à l’emplacement géographique d‘une entité ainsi que sa forme géométrique. D‘un point de vue SGBD, c‘est une donnée liée {un système de coordonnées spatiales et dont son type est l‘un des types géométrique fournis par le SGBD ou définis par le système d‘information géographique (SIG). L‘emplacement d‘un objet est représenté par un localisant qui est une information permettant de localiser un objet dans l‘espace. Le localisant joue le rôle d‘un identifiant de l‘objet géographique, et il est spécifié par rapport {l‘un des systèmes de géo-référencement comme les adresses postales et les coordonnées géographiques

21

Chapitre 01 : Recherche d’information géographique (GIR).

Figure 1.2 Les types géométriques élémentaires d'une donnée spatiale

Les formes géométriques élémentaires associées aux objets géographiques sont : le point, la ligne et, la surface (voir Figure 1-2). Ces formes sont des types abstraits de données géométriques qui peuvent être manipulées par des extensions de SQL. -Le point est un type de base composé de deux ou trois coordonnées (X, Z) ou (X,Y, Z) selon la dimension utilisée 2D ou 3D respectivement. Un objet de type point représente par exemple le barycentre d‘une ville dans une grande échelle. -la ligne est composée d‘une liste de points. Elle peut représenter par exemple une route ou une rivière. -la surface est composée d‘une chaîne fermée de lignes connectées, ayant un intérieur et un extérieur. Elle peut représenter par exemple un pays, un village,…etc. Une surface fait généralement référence à un polygone. Il convient de noter qu‘il y on a différents Langages de modélisation pour l‘information spatiales, La plupart sont réalisées en XML (eXtensible Markup Language), qui est un langage de balisage générique permettant de structurer l‘information, on cite le GML (Geography Markup Language). Le KML (Keyhole Markup Language), SpatialML qui est un langage de marquage spatial de type description des connaissances développé par l‘organisation américaineMITRE15.

-Les Données temporelles Pour l‘information temporelle, on parle des intervalles de temps et non des points ou géométries. Pour traiter l‘information temporelle il est aussi nécessaire de disposer de bases de connaissance, néanmoins moins complexes que pour le spatial. Pour l‘information temporelle, le langage de modélisation textuel le plus répandu est TIMEX3 (successeur de TIMEX2). Il permet de représenter numériquement des informations temporelles au format standard ISO-8601, aussi l‘équivalent à SpatialML : TimeML. Il utilise TIMEX3 pour le marquage des données temporelles.

-Les Attributs La facette thématique décrit les caractéristiques quantitatives ou qualitatives de l‘entité géo-référencée. L‘information reste généralement limitée aux termes utilisés en recherche d‘information standard Nous envisageons la combinaison des facettes spatiales, temporelles et thématiques.

22

Chapitre 01 : Recherche d’information géographique (GIR).

2.2 Les caractéristiques des informations géographiques

Les données géographiques ont plusieurs caractéristiques qui les différencient des données alphanumériques simples. Le texte suivant mentionne certaines de ces caractéristiques. Il convient de noter que cette liste de caractéristiques n‘est pas exhaustive. -Les données géographiques sont multidimensionnelles, car deux coordonnées doivent être spécifiées pour définir un emplacement, par exemple la latitude et la longitude. -Les objets géographiques peuvent avoir de multiples représentations géométriques ; une rue par exemples peut être représentée par une surface ou une ligne selon les besoins. -Les informations géographiques sont complexes. Elles sont composées d‘une donnée spatiale, éventuellement des données temporelles, et un ensemble d‘attributs (données attributaires). -L’importance de la notion de précision liée notamment aux procédures de collecte et de saisie de données (Laurini 1996). En effet, la qualité des résultats de l‘analyse et des requêtes spatiales est liée à la précision des données. -Les informations géographiques se manipulent par un outil logiciel appelé un système d’informations géographiques (SIG).

2.3 Sources de données géographiques

Les données géographiques peuvent être collectées de plusieurs sources, ou bien achetées auprès d‘un fournisseur privé ou public. Les sources connues des données géographiques sont les cartes, les sondages, les SIG, les images satellitaires…etc. Avec l‘avènement du Web et des bibliothèques numériques, et le développement des techniques du traitement automatique des langues naturelles (TALN), une nouvelle source a à prouvé son utilité, cette source est les documents textuels. Nous proposons de classifier les sources de données géographiques selon le « type de données ». Ce critère de classification les divise en 2 catégories principales: sources fournissant des données structurées, et sources fournissant données non structurées. Le Tableau 1-1 illustre cette classification. Ce qui nous intéresse dans ce mémoire est l‘obtention des données géographiques à partir du texte.

23

Chapitre 01 : Recherche d’information géographique (GIR).

Table 1.1 Type de données que fournis la source géographique

2.4 Modélisation de l’information géographique exprimée dans des documents textuels

L‘information géographique, de par sa spécificité, nécessite l‘usage d‘une modélisation adaptée à chacune de ses facettes. Les traitements appliqués pour extraire l‘information géographique de discours textuels étant limités, les modèles utilisés sont généralement succincts et formels. Dans ce contexte, pour le spatial, un modèle de référence est RCC-8 (Region Connection Calculus) qui définit huit relations entre deux régions x et y, telles que le recouvrement partiel ou l‘égalité (voir la figure1.3 ci dessous pour les différentes relations topologiques). Il existe des extensions permettant de prendre en compte les représentations linéaires. Pour le temporel, un modèle de référence est celui proposée par Allen mettant en œuvre les relations entre intervalles de temps.

Figure 1.3– Les 8 relations topologiques selon le modèle RCC-8 .

24

Chapitre 01 : Recherche d’information géographique (GIR).

3. Recherche d’Information Géographique (GIR)

3.1 Recherche d’information spatiale

Contrairement à la recherche d‘information classique ou une requête utilisateur prend la forme d‘un ou plusieurs mots clés, elle peut avoir différentes formes pour le spatial. Il est possible de fournir les coordonnées d‘un point (latitude/longitude), de dessiner la zone souhaitée sur une carte ou, comme cité auparavant, de l‘exprimer sous forme de mots clés ou phrases en langue naturelle. Une requête en texte libre subit un traitement préalable afin d‘en extraire l‘information spatiale (comme cela est effectué pour l‘extraction et l‘indexation des informations spatiales dans les documents). Une fois l‘information spatiale extraite de la requête, il faut déterminer quels documents contiennent des informations pertinentes pour cette requête et leur donner un score. Le calcul de pertinence spatiale, c‘est à dire la similarité spatiale entre la requête et une information d‘un document se fait en règle générale par un calcul d‘intersection ou de distance entre les représentations numériques de la requête et du document. Nous pouvons notamment citer les mesures de similarités suivantes : – Distance euclidienne : classe les documents selon la proximité entre les représentations spatiales de la requête et du document. – Degré de recouvrement : classe les documents selon la surface de recouvrement entre les représentations spatiales de la requête et du document ; plus elle est grande, plus le document est pertinent. – Relations de confinements : classe les documents selon le ratio d‘inclusion entre les représentations spatiales de la requête et du document. Le score d‘un document est généralement calculé avec des méthodes linéaires telles que la moyenne arithmétique ou le maximum.

3.2 Recherche d’information temporelle

Tout comme pour le spatial, une requête temporelle peut s‘exprimer sous différentes formes. En règle générale, elle est exprimée sous forme textuelle. Certains travaux s‘intéressent à des formes d‘interrogations graphiques : Googlelabs expérimente un prototype avec une ligne de temps. Cela permet de ne pas avoir à extraire l‘information temporelle de la requête. Une fois l‘information temporelle extraite de la requête, il faut déterminer quels documents contiennent des informations pertinentes pour cette requête et leur donner un score. Le calcul de pertinence temporelle, c‘est à dire de similarité temporelle entre la requête et une information d‘un document se fait en règle générale par un calcul d‘intersection ou de distance entre les représentations numériques de la requête et du document. Comme pour le spatial, le score d‘un document est généralement calculé avec des méthodes linéaires telles que la moyenne arithmétique ou le maximum

3.3 Processus de la GIR

En raison de l'importance de l'architecture du système pour un système de recherche d'informations, de nombreux travaux et discussions ont été menés dans le domaine de

25

Chapitre 01 : Recherche d’information géographique (GIR).

la GIR (e.g. Watters and Amoudi, 2002; Jones et al., 2004; Purves et al., 2007, etc.). Selon ces travaux de recherche et de développement connexes dans l'architecture de GIR, en général, un système GIR typique contient les composants suivants: une interface utilisateur; Ontologies géographiques et/ou spécifiques au domaine, collection de documents web, Moteur de recherche, index textuels et spatiaux de la collecte de documents, classement de pertinence, et extraction de métadonnées. Prenons l'architecture du projet SPIRIT (Spatially-Aware Information Retrieval on the Internet) par exemple (Jones et al., 2002 and 2004; Purves et al., 2007), Une telle architecture conceptuelle du système est illustrée dans la figure 1.4. Dans cette figure 1.4, on peut facilement constater que la différence entre les architectures de GIR et les IR classiques sont les éléments géographiques, tels que les ontologies géographiques, l'indexation spatiale, l'extraction des métadonnées géographiques, le classement des résultats incorporant le contenu géographique et thématique d'un document. De plus. On pourrait également lire à partir de la figure 1.4 que le rôle de l'ontologie géographique est essentiellement important pour un système GIR typique, car cela aidera les processus de désambiguïsation/ expansion des requêtes et l'extraction des métadonnées. Ces deux processus fourniront une base fondamentale pour le succès des tâches ultérieures, telles que le traitement des requêtes, le tri de classement de pertinence des résultats, l'indexation spatiale des documents Web, etc.

Figure 1.4 l'architecture du projet SPIRIT

Cependant, certains systèmes GIR n'ont pas de composant de métadonnées dans leur architecture mais remplacent par une représentation interne des informations

26

Chapitre 01 : Recherche d’information géographique (GIR).

géographiques et thématiques contenues dans la collecte de documents Web. Certains ont réclamé l'utilisation nécessaire de bases de données géographiques externes pour la cartographie des empreintes géographiques dans des textes de langage naturel humain dans des zones géographiques ou des régions sur la surface terrestre via un géocodage, puis pour l'indexation spatiale des documents et enfin le traitement des requêtes spatiales (Markowetz et al.,2005) . ces ressources externes incluent des bases de données, WordNet1, TGN - Getty Thesaurus des noms géographiques2, toponymie du Système d'information (GNIS) 3 et ainsi de suite (Watters and Amoudi, 2002; Martins et al., 2005). Le tableau 1.2 présente les principaux Systèmes de la GIR existants

Table 1.2 .les systèmes de la GIR existants

4. Extraction et indexation d’information géographique

L'extraction d'informations géographiques à partir de documents est la première étape fondamentale et très importante dans les systèmes GIR modernes, en général, L‘Extraction d'Information (EI) se définit comme une activité qui consiste à remplir automatiquement une Banque de données à partir de textes écrits en langue naturelle. Elle peut être définie aussi comme la transformation des textes en langage naturel (comme les articles de presse, les brevets, les pages web… etc.) en des représentations

1 http://wordnet.princeton.edu 2 http://www.getty.edu/research/conducting_research/vocabularies/tgn 3 http://geonames.usgs.gov

27

Chapitre 01 : Recherche d’information géographique (GIR).

structurées prédéfinies. Une fois extraites, les informations peuvent ensuite être stockées dans des bases de données pour être interrogées, analysées, fouillées…etc. (Gaizauskas, et al. 1997). Or ici nous allons aborder l‘extraction d‘information dans le but de constituer des index à des fins de recherche d‘information. En effet, pour accélérer la recherche et donner des scores de pertinence aux documents il est indispensable de passer par une phase d‘extraction et d‘indexation.

Figure 1.5. La procédure d’indexation dans un GIRS

Conceptuellement, l‘EI englobe trois sous-tâches: la reconnaissance des entités nommées(NER), la désambiguïsation des entités nommées, l’extraction de relations (Bunescu 2007).

4.1 Extraction d’information spatiale

La EI spatiale nécessite d‘utiliser un détecteur d‘entités nommées spatial. Ce traitement permet d‘obtenir une liste d‘entités spatiales candidates. Ces entités spatiales identifiées peuvent être comparées à une ou plusieurs bases de données spatiales Afin d‘être validées. L‘interrogation de ces bases de données spatiales permet aussi de récupérer toutes les informations disponibles sur ces entités spatiales (types, coordonnées,…etc). Une des plus répandue et facile d‘accès est Geonames.4 Néanmoins elle ne contient que les coordonnées ponctuelles des lieux. Il existe d‘autres bases de données plus précises telles que celles fournies par l‘IGN5 (Institut Géographique National), contenant les polygones précis des communes. Ainsi les informations spatiales contenues dans ces bases sont considérées comme valides, et, il est possible de récupérer des données sur ces informations : latitude/longitude ou encore le polygone. Afin de calculer les représentations des relations spatiales, il est nécessaire de réaliser des opérations sur les coordonnées obtenues (via des opérateurs, tel que la translation). En effet, pour l‘entité « prés de Setif », il n‘y a pas de

4 http://www.geonames.org 5 http://www.ign.fr/

28

Chapitre 01 : Recherche d’information géographique (GIR).

représentation spatiale bien définie. Il est néanmoins possible de calculer et de proposer des approximations. Pour cette entité, une fois que « Setif » a été détecté via un traitement de type NER, l‘expression « prés de Setif » peut être reconstruite via des outils de TALN. Cette phase de validation des informations spatiales pose néanmoins des problèmes : de nombreux lieux peuvent porter le même nom. (Martins et al. 2008) Citent une étude montrant que 67% des toponymes sont ambigus dans un document. Plus le gazetteer6 couvre une surface vaste et détaillée, plus le nombre d‘ambigüités est élevé.

4.2 Extraction d’information temporelle

L‘information temporelle est généralement extraite avec un détecteur d‘entités nommées comme pour le spatial. Néanmoins, les expressions temporelles sont souvent incomplètes et diffuses dans un document (Xavier Tannier et al, 2008) En effet, un auteur peut énoncer une date complète, puis par la suite omettre l‘année car le lecteur sait que cela se déroule durant la même année. De plus, selon le type de corpus l‘ordonnancement temporel peut être différent comme le montrent (Mani et al. 2003) avec les actualités qui ont un ordonnancement inversé (actualité la plus récente en premier). Certains travaux ont donc cherché à déterminer les liens entre les différentes informations temporelles consécutives afin de les ordonnancer ainsi que préciser celles qui sont incomplètes. Concernant les entités nommées temporelles, il est nécessaire de posséder une base de données contenant ces références et les dates associées. Néanmoins, tout comme le spatial, le temporel est concerné par le problème d‘ambigüité.

5. GIR en langue Arabe

5.1 Particularité de la langue Arabe

L‘Arabe appartient au groupe des langues dites sémitiques tels que le Cananite, l‘Aramaic, l‘Arabe du sud et l‘Ethiopien. L‘Arabe est l‘un des langages, souvent décrits comme morphologiquement complexe. Composé de 28 lettres (25 consonnes et 3 voyelles longues), les voyelles courtes n‘étant pas représentées par des lettres mais par des diacritiques, placées sur ou sous les consonnes. Les lettres sont monocamérales, dans le sens où il n‘existe pas de minuscule et de majuscule. Les textes arabes sont généralement non voyellés, ce qui constitue une grande source d‘ambiguïté lexicale. L‘Arabe s‘écrit de droite à gauche avec la particularité que les lettres épousent des formes différentes selon qu‘elles soient au début, au milieu ou à la fin du mot, le tableau1.3 illustre le script de quelques lettres dans les trois cas de graphie. Cependant, Il faut noter que certaines lettres ne s‘attachent pas à celles qui la .{ و، ة، ِ، غ، ا، } succèdent comme

6 Un gazetteer est un terme anglais qui désigne traditionnellement un dictionnaire de toponymes qui organise des informations sur les lieux géographiques. Nous avons choisi dans ce mémoire d’utiliser cette appellation anglaise car il n’y a pas une traduction unique et précise en français.

29

Chapitre 01 : Recherche d’information géographique (GIR).

Table 1.3 : le script de quelques lettres dans les trois cas de graphie

5.1.1. La structure morphologique d’un mot Arabe

L‘Arabe est une langue générative, les noms et les verbes sont dérivés d‘une racine, généralement, trilitère. Nous pouvons engendrer jusqu‘à 150 mots différents à l‘aide de schèmes et ce, à partir d‘une même racine. Le tableau 1.4 donne quelques schèmes .«شٓذ » du mot

.«شٓذ » Table 1.4 : quelques schèmes du mot

Dans un mot arabe, la base est généralement entourée de propositions et de pronoms qui s‘agglutinent à la racine en tant que préfixes, suffixes, infixes, antéfixes ou postfixes, de telle sorte qu‘un mot arabe peut résumer à lui seul, toute une phrase exprimée dans une autre langue telle que le Français par exemple, le tableau1.5. Est-ce que vous allez : اطزًزهكَّٕ .Montre un exemple de segmentation d‘un mot arabe vous l‘approprier ? Ce mot peut être segmenté ainsi

اطزًزهكَّٕ. Table 1.5 : Segmentation d’un mot arabe

30

Chapitre 01 : Recherche d’information géographique (GIR).

5.1.2. Les catégories du mot

Il existe trois catégories pour un mot arabe : nom, verbe et particule. 5.1.2.1. Le verbe Le verbe est une entité qui exprime un sens variant en nombre, en personne et en temps, sa conjugaison dépend du temps, du nombre, du genre, de la personne et du mode, il peut donc être exprimé à l‘accompli ou l‘inaccompli, au singulier, duel ou pluriel, au masculin ou au féminin, au premier, deuxième ou troisième type et être au mode actif ou inactif. 5.1.2.2. Le nom Le nom est un élément désignant un être ou un objet qui exprime un sens indépendamment du temps. Il peut être propre, commun ou dérivé d‘un verbe. Il s‘exprime au singulier, au duel ou au pluriel, au féminin ou au masculin. Il peut être agent, objet, instrument ou lieu. 5.1.2.3La particule La particule est une entité qui sert à situer les événements par rapport au temps et par rapport à l‘espace. Elles peuvent être des conjonctions de coordination, ou de subordination. Les particules sont généralement des mots outils, bien que jouant un rôle important dans la cohésion d‘une phrase, sont souvent associées à des mots vides qui ne véhiculent pas un sens spécifique à un domaine donné.

5.2. Les problèmes liés au traitement automatique de l’Arabe

Vu ses particularités, le traitement automatique de l‘Arabe, fait face à un certain nombre de problèmes, les plus importants sont le problème de la voyellation, l‘agglutination et l‘extraction de la racine.

5.2.1 la voyellation

L‘absence de la voyellation est très souvent une grande source d‘ambiguïté pour l‘analyse morphologique, syntaxique, sémantique et même pragmatique. La majorité des textes écrits, exception faite pour les textes sacrés et quelques ouvrages pédagogiques, sont non voyellés. Cette ambiguïté réside dans le fait que 74% des mots qui composent le vocabulaire arabe, acceptent plus d'une voyellation lexicale, et 89,9% des noms qui le constituent acceptent plus d'une voyellation casuelle. La proportion des mots ambigus passe de 90,5% si les comptages portent sur leurs et ses voyellations données par شٓذ voyellations globales. Prenons l‘exemple du mot le dictionnaire.

31

Chapitre 01 : Recherche d’information géographique (GIR).

" شٓذ " Table 1.6 : Les différentes voyellations du mot

5.2.2. L’agglutination

L‘Arabe montre une forte tendance à l‘agglutination : l‘ensemble des morphèmes collés les unes aux autres et constituant une unité lexicale véhiculent plusieurs informations morpho syntaxiques. Ces unités lexicales sont souvent traduisibles par l‘équivalent d‘une phrase en français. La structure d‘une unité lexicale arabe est donc décomposable en cinq éléments : proclitique, préfixe, base, suffixe et enclitique. La base est une combinaison de lettres radicales (le plus souvent trois) et d‘un schème. Comme le montre l‘exemple suivant : Les éléments clitiques sont séparés par le ٔنٍضزثٓب : "+" symbole

ضزة Cet exemple révèle la complexité morphologique de l‘arabe. Il s‘agit du verbe employé au présent du subjonctif, 3ième personne du masculin pluriel, la base verbale Le pronom sujet n‘est pas réalisé. En position .ضزة/ et la racine / ضزة / est .ل "proclitique, on utilise la conjonction de coordination "wa" ٔ et la conjonction "li En position enclitique, on utilise le pronom complément d‘objet 3ième personne du ."elle" ْا "féminin singulier "ha

5.2.3. L’extraction de la racine

Afin d‘obtenir la racine d‘un mot, il faut d‘abord connaître le schème par lequel il a été dérivé, supprimer les éléments flexionnels (antéfixes, préfixes, suffixes, post fixes) qui lui sont attachés. En général des tables de préfixes et de suffixes sont utilisées, comme c‘est le cas d‘Aramorph. La nature agglutinative de l‘arabe rend cette tache, assez difficile. Cette difficulté est encore plus accrue, lorsqu‘il s‘agit de textes non voyellés. L‘analyse morphologique devra donc découper le mot et identifier des

32

Chapitre 01 : Recherche d’information géographique (GIR).

puis), des suffixes de pronom possessif =شى) préfixes comme les conjonctions ٔ= et) et .à eux, ) etc= نٓى à elle = نٓ ٖاب )

5.2.4. La terminologie

Le problème de terminologie dans la langue arabe cherche toujours sa solution. Nul ne peut ignorer l‘anarchie dans laquelle se débat le terme dans tous les domaines de recherche. Il est clair que ce problème engendre une autre difficulté dans le traitement automatique de l‘arabe et pas des moindres. Nous savons aussi, que cela va jusqu‘à ne pas trouver des fois l‘équivalent d‘un terme dans la langue arabe, ce qui a imposé dans certaines circonstances l‘improvisation de termes dont le consensus n‘est guère garanti par les différentes communautés académiques arabes.

Table 1.7 : Les différents termes utilisés pour les mots : linguistique et ordinateur

Face à ces défis et sous l‘impulsion des campagnes d‘évaluation (TREC-2001), diverses approches se tournent vers des représentations plus riches des documents manipulés dont l‘objectif est d‘améliorer les performances d‘un SRI en langue arabe.

5.3 Quelques outils de traitement automatique de la langue Arabe

5.3.1 L'analyseur morphologique

L'analyseur morphologique Aide à regrouper les mots qui expriment des notions similaires. En langue Arabe, cela consiste à identifier les morphèmes d'un mot (Stem): les affixes (préfixe, infixe et suffixe) et la racine. -Aramorph

L‘analyseur morphologique Aramorph segmente les unités lexicales, repère les différents composants et atteste son appartenance à la langue. Pour cela, le système est assisté par le lexique DINAAR. Pour éviter les analyses théoriquement possibles et inexistantes dans la langue. Par la suite, l‘analyseur donne une liste des traits associés à l‘unité lexicale en entrée. Il offre deux types d‘options. Le premier vise les traits morphosyntaxiques, le second concerne l‘analyse des préfixes et suffixes. En plus des étiquettes morphosyntaxiques, il donne en sortie d‘autres informations comme la base, l‘unité lexicale minimale vocalisé ou non ainsi que la forme complète supposée vocalisée ou non. L‘analyser des préfixes revient à décrire ses découpages possibles et d‘examiner les compositions des clitiques. Ceci amène le système à faire

33

Chapitre 01 : Recherche d’information géographique (GIR).

la distinction entre les clitiques ayant la même forme mais appartenant à des catégories syntaxiques différentes. -Xerox L‘analyseur morphologique de Xerox est basé sur l‘approche de transducteur à états finis. La segmentation de la phrase en unités lexicales est réalisée par un transducteur à états finis. Ce transducteur découpe la chaîne d‘entrée en une séquence d‘unités lexicales qui peuvent correspondre à une forme fléchie, une marque de ponctuation, etc. La deuxième étape est l‘analyse morphologique des unités lexicales produites par la segmentation de la phrase. Cette étape est aussi réalisée par un transducteur qui relie la forme fléchie à la forme lexicale (et vice-versa). La forme lexicale est une séquence comprenant la représentation canonique de l‘unité lexicale (le lemme), un ensemble d‘étiquettes représentant le comportement morphologique de l‘unité lexicale, et sa catégorie syntaxique. SAMA (Standard Arabic morphological Analyser) L‘analyseur morphologique SAMA7 (Kulick et al., 2010) A été développé par des chercheurs des LDC, SAMA est un simple analyseur morphologique arabe qui utilise un système basé sur des règles, il considère Chaque mot arabe dans toutes les segmentations possibles de préfixe-racine-suffixe et répertorie toutes les solutions d'annotation possibles connues, avec l'affectation de toutes les marques diacritiques, les limites de morphèmes et toutes les parties de la parole (POS ) pour chaque segment de morphème. La sortie générée peut alors être examinée par les utilisateurs et l'annotation la plus appropriée choisie parmi plusieurs choix

5.3.2 Les Concordanciers

La réalisation manuelle des concordances écrites était un travail de grande envergure envisageable uniquement pour les œuvres pérennes. Le traitement automatique a facilité la tâche et a étendu leurs champs d‘application à de nombreuses disciplines scientifiques. Dans le cas de la langue arabe, l‘aboutissement d‘un concordancier électronique nécessite un travail préalable faisant appel à des ressources lexicales et des outils d‘étiquetage morpho-syntaxique. L‘approche classique de réalisation des concordanciers, basée sur une reconnaissance graphique des items dans les textes KWIC (KeyWord In Context), est inefficace dans le traitement de l‘arabe, dont l‘écriture est non-vocalisée, et dont les structures de l‘unité lexicale peuvent être décrites comme agglutinantes et hautement flexionnelles. Ainsi, L‘outil Ara-Conc développé pour l‘arabe par (R. Abbes, 2004) a pour objectif de donner les contextes et fréquences, et permettre l‘exploration du corpus selon les traits proposés par l‘analyse morphologique et selon les informations graphiques qui se trouvent dans le texte. La concordance finale arabe tourne autours du trio : unité lexicale, position et analyse morphologique. L‘outil prend en entrée un texte ou un ensemble de textes. Il permet : • La construction de listes de fréquences d‘items, de racines ou tout autre trait de l‘analyse morphosyntaxique, par ordre alphabétique ou par ordre fréquentiel.

7 https://catalog.ldc.upenn.edu/LDC2010L01

34

Chapitre 01 : Recherche d’information géographique (GIR).

• La construction d‘une concordance, La consultation de la concordance peut se faire par item, par la racine, par la base ou par analyse morpho-syntaxique.

5.3.3 Les racineurs

Les racineurs se veulent d‘abord un outil utile au TAL, ce type d‘analyse « simpliste », traite de façon identique affixes flexionnels et dérivationnels. Les algorithmes de racinisation en arabe les plus connus sont ceux de (L.S. Larkey et al, 2002) et (Khoja et al, 2001). Ci-dessous une description succincte de ces racineurs. -Racineur de larkey

L‘approche de Larkey est une analyse morphologique assouplie. Elle consiste à essayer de déceler les préfixes et les suffixes ajoutés à l‘unité lexicale : par exemple le .deux professeurs يعهًبٌ dans اٌ duel - Racineur de Khoja

Le racineur de Shereen khoja développé au sein de l‘université de Lancaster, a été utilisé dans le cadre d‘un système de recherche d‘information développé à l‘Université du Massachusetts. L‘approche de Khoja consiste à détecter la racine d‘une unité lexicale, d‘une part, il faut connaître le schème par lequel elle a été dérivée et supprimer les éléments flexionnels (préfixes et suffixes) qui ont été ajoutés, d‘autre part comparer la racine extraite avec une liste des racines préalablement conçue.

6. Critères d’évaluation des GIRS

La pertinence est une connaissance très complexe à évaluer. Ainsi, elle dépend fortement de l‘utilisateur, qui est le seul à savoir si le document retourné par le système correspond à sa recherche initiale. Il est néanmoins essentiel de disposer de techniques d‘évaluation solides qui, en définissant des mesures précises, permettent de juger l‘efficacité des SRI à retrouver des documents pertinents, quels que soient les méthodes d‘indexation, de recherche ou les modèles qu‘ils implémentent. Rappel et précision Les deux mesures communément utilisées pour évaluer un système de recherche d‘information sont le taux de précision et celui de rappel (G. Salton, 1992). Ces deux mesures peuvent être définies par :

7. Conclusion

35

Chapitre 01 : Recherche d’information géographique (GIR).

Ce chapitre introduit les concepts fondamentaux de la GIR, nous y avons en particulier défini : information géographique, ses composants, ses caractéristiques ainsi sa modélisation dans les documents textuels, et les sources ou on peut la trouvé. Nous avons décrit par la suite les phases principales (c.-à-d. l'indexation et extraction spatial, et temporelle d‘information) engendrées dans le processus de la GIR. Une partie de notre travail utilise la langue arabe, pour cela, nous avons évoqué une représentation de la langue Arabe, les difficultés ainsi les outils de traitement (les analyseurs morphologiques, les cordonanciers, les racineurs) dans la dernière section. Un système de GIR typique contient parmi ses composants, une ontologie géographique, ce concept d‘ontologie forme le contenu du deuxième chapitre.

36

37

Chapitre 2. Les ontologies

Sommaire

1. Introduction 2. Le web sémantique et le web sémantique géo-spatial 3. Définition multiples de l‘ontologie 4. Le rôle d‘une ontologie 5. Les types d‘ontologies 6. Les ontologies géographiques 7. Construction d‘ontologie 8. Outils de développement d‘ontologie 9. Conclusion

1. Introduction

Les ontologies sont un thème de recherche très pointu dans de nombreux domaines tels que l'Internet, l'intégration de systèmes d'information, l'extraction de connaissances, le maintien de la cohérence dans les bases de données, la recherche d'information…etc. c‘est un moyen prometteur pour décrire et partager des connaissances et des données au sein d'une ou plusieurs communautés, parmi des utilisateurs et/ou entre les applications. L'objectif des ontologies étant de représenter les connaissances relatives à un domaine agréé par une communauté de personnes. Elles constituent donc une référence intéressante pour appréhender la sémantique des informations échangées. Les ontologies jouent aussi un rôle essentiel dans le domaine spatial. Du fait de la disponibilité croissante de l'information mise à disposition des utilisateurs et du coût élevé d'acquisition des données spatiales, le partage des données spatiales est un enjeu primordial. De plus les données spatiales sont souvent complexes, imprécises, de résolutions hétérogènes. Ainsi les ontologies spatiales ont un rôle important à jouer pour le partage et l'intégration dans des systèmes de la GIR, le contrôle de cohérence des données, l'aide à la conception. Nous aborderons dans ce chapitre, les généralités sur les ontologies qui serviront à cadrer notre étude.

2. Le web sémantique et Le web sémantique géo-spatial

Le Web Sémantique désigne un ensemble de technologies visant à rendre le contenu des ressources du World Wide Web accessible et utilisable par des programmes et des agents logiciels, grâce à un système de métadonnées formelles, utilisant notamment la famille de langages développés par le W3C (World Wide Web Consortium). Le projet Web Sémantique vise à Donner à l'information présente sur le Web une représentation sémantique afin de permettre aux ordinateurs d'interpréter le contenu des documents (textes, vidéos, etc.), Améliorer les moteurs de recherche de sort de Voir le Web comme une immense base de données. L‘Idée de base du web sémantique est d‘associer de l'information – des marqueurs sémantiques (ou métadonnées) aux Chapitre 2. Les ontologies ressources du Web pour permettre aux machines de traiter le contenu. Sur le Web, l‘information spatiale et temporelle occupe une place spéciale. En termes de contenu, le Web est considéré comme la plus grande collection de données géo spatiales, de faite que jusqu‘à 70% ou même 80 % des informations décrites sur le Web ont une composante spatiale/temporelle…aussi, Les ressources Web incluent des références spatiales et temporelles (noms de lieu, des adresses, des coordonnées géographiques, des dates, des périodes…) Auparavant, les données spatiales (et temporelles) étaient gérées par des logiciels spécialisés « fermés » – les SIG – réservés à une certaine communauté, À présent, à travers des services Web, des entrepôts de données « ouverts », des données spatiales et temporelles, ainsi que des méthodes de traitement, sont mis à disposition des utilisateurs… Ces données accessibles peuvent échapper à leurs contextes initiaux (conditions de création, de partage, d‘utilisation…). Pour une bonne interopérabilité et pour un partage efficace, il est nécessaire de décrire de façon formelle la sémantique de ces données, dans un formalisme puissant généralement reconnu comme standard. Ce formalisme standard existe : c‘est le langage OWL (Web Ontology Language). C‘est sur lui que doit s‘appuyer la construction du Web Sémantique Géo-spatial. Le Web Sémantique Géo-spatial regroupe les activités autour du développement d‘ontologies spatio-temporelles pour la description sémantique d‘informations à références spatiales et temporelles accessibles sur le Web. L‘objectif est identique à celui du Web Sémantique : associer aux données spatio-temporelles des descriptions (méta-données) interprétables par les humains, et surtout par les machines, afin que le traitement par des agents logiciels soit plus efficace.

Figure 2.1. Le web sémantique géo-spatial

2.1 Définitions d’ontologie

Le mot ontologie qui vient du grec ontos =être et logos= études, appartient à la philosophie ancienne grecque, Aristote le définit comme la science de l‘Être en tant qu‘être (Welty & smith, 2001). Il est difficile de définir ce qu‘est une ontologie d‘une

39

Chapitre 2. Les ontologies façon définitive. Le mot est en effet employé dans des contextes très différents touchant à la philosophie, la linguistique ou l‘intelligence artificielle. Bien que des débats préexistent, nous parlons plus souvent d‘ontologies (au pluriel) afin de refléter les multiples facettes que recouvre cette appellation. (Guarino, 1997) et (Dameron, 2003), abordent les différentes définitions de la littérature afin d‘examiner le type de représentation des connaissances dénoté par le terme ontologie. En 1993, Gruber propose une première définition « une ontologie est une spécification explicite d‘une conceptualisation », (Gruber, 1993). L‘expression spécification explicite signifie, que la conceptualisation est représentée dans un langage qu‘il soit naturel (arabe, français..) ou formel (logique de description, graphes conceptuels ...etc). Une autre définition, peut être plus rigoureuse : « Une ontologie implique une certaine vue du monde par rapport à un domaine donné. Cette vue est souvent conçue comme un ensemble de concepts (entités, attributs, processus, leurs définitions et leurs interrelations). On appelle cela une conceptualisation » (Charlet, 1996). Une ontologie peut prendre différentes formes mais elle inclura nécessairement un vocabulaire de termes et une spécification de leur signification. En résumé, nous pouvons définir une ontologie comme l‘ensemble représentatif et exhaustif des termes d‘un domaine donné avec toutes les relations qui les relient. Voici un exemple :

Gene Ontology (en owl..)

mitochondrion inheritance The distribution of mitochondria, including the mitochondrial genome, into daughter cells after mitosis or meiosis, mediated by interactions between mitochondria and the cytoskeleton. mitochondrial inheritance

Les ontologies peuvent se représenter par des réseaux sémantiques, la figure 2.2 nous montre un exemple d'ontologie représentée par un réseau sémantique.

40

Chapitre 2. Les ontologies

Figure 2.2. Ontologie représentée par un réseau sémantique

Dans la définition de (Gruber 1993), les connaissances contenues dans une ontologie peuvent être formalisées à l‘aide de cinq composants principaux :

- Les concepts sont les composants de base d‘une ontologie. Un concept est définit comme l‘ensemble des propriétés vérifiées par un objet indépendamment des variations qu‘il peut subir les différents contextes où il se rencontre. - Les relations permettent de définir la manière dont les concepts s‘articulent les uns par rapport aux autres. - Les fonctions représentent un type de relation particulière. Une fonction relie un ensemble de concepts à un seul concept. - Les axiomes sont utilisés pour définir les faits du domaine qui sont toujours vrais. Un axiome permet de contraindre les informations de l‘ontologie, de vérifier leur exactitude ou de déduire de nouvelles informations. - Les instances de concepts définissent les objets précis du monde réel. Le tableau 2.1 montre De grandes ontologies existantes :

Table 2.1 les grandes ontologies existantes

41

Chapitre 2. Les ontologies

2.2 Le rôle des ontologies

On utilise l‘ontologie dans différents domaines : la représentation d‘informations et de connaissances, l‘intégration des systèmes d‘informations, etc. mais aussi dans : • La communication. Il existe trois types de communication dans un projet : communication homme-homme, homme-système ou entre les différents modules du système. Ces trois types possèdent tous des caractéristiques particulières qui engendrent certains problèmes auxquels les ontologies peuvent apporter des solutions. • L’interopérabilité. L‘interopérabilité est une spécialisation de la communication. L‘ontologie répertorie les concepts que des applications peuvent s‘échanger même si elles sont distantes et développées sur des bases différentes (Charlet, 2002). • Modularité et réutilisabilité des connaissances. Les ontologies possèdent des caractéristiques qui favorisent la réutilisation et le partage de données (Gruber, 1991). En effet, elles permettent l‘étude de conceptualisations, indépendamment du formalisme choisi pour les représenter et doivent être définies indépendamment du langage utilisé pour la programmation des applications, de la plate-forme utilisée et des protocoles de communication (protocoles réseaux). Cependant, Gruber souligne les difficultés techniques occasionnées par la conception d‘ontologies communes. Ces idées ont été beaucoup approfondies et développées dans (Gruber, 1993) et (Gruber, 1995). • L’indexation et la recherche d’information. Plus récemment, les travaux autour du Web sémantique ont réactivé la problématique et l‘utilisation des ontologies : en sus d‘un rôle de médiateur, les ontologies y sont utilisées pour l‘indexation, fournissant les index conceptuels décrivant les ressources sur le Web (Charlet, 2002). Les différents avantages qu‘offrent les ontologies ne doivent pas occulter leurs limites. La principale est la notion de point de vue qui reste un point obscur et peu discuté dans la littérature de ce domaine. Cette notion traduit le fait qu‘un concept n‘est pas considéré de la même manière suivant le contexte dans lequel il est utilisé.

2.3. Les type d’ontologies Les ontologies peuvent être classifiées en fonction de plusieurs dimensions : selon leur formalisation, leur type de conceptualisation, leur propos, leur niveau de complexité, etc.

2.3.1. Selon l’état de formalisation

Selon leur formalisation, les ontologies peuvent être classées en quatre types :  Les ontologies semi-informelles : une ontologie est dite semi-informelle, si elle est exprimée dans une forme restreinte et structurée du langage naturel, Les ontologies semi-formelles : une ontologie est dite semi-formelle, si elle est définie dans un langage artificiel et formellement défini.  Les ontologies rigoureusement formelles : une ontologie est dite rigoureusement formelle, si elle est définie dans un langage avec une sémantique formelle, des théories et des preuves des propriétés telles que la solidité et la perfection.

42

Chapitre 2. Les ontologies

2.3.2 Selon leur conceptualisation

Selon leur nature de conceptualisation, les ontologies peuvent être classées comme suit :  Les ontologies de représentation de connaissances (VanHeijst et al. 1997) : les ontologies de représentation des connaissances regroupent les concepts impliqués dans la formalisation des connaissances (classes, instances, propriétés, relations, restrictions, etc.).  Les ontologies de haut niveau (Top-level ontologies)(Guarino 1997),(Sowa 1995a) et(Sowa 1995b): les ontologies de haut niveau sont des ontologies générales. Elles décrivent des concepts de manière générale, et de haute abstraction, c‘est-à-dire indépendamment d‘un domaine ou problème particulier, comme : les entités, les événements, les états, les processus, les actions, le temps, l‘espace, les relations, et les propriétés.  Les ontologies génériques (VanHeijst et al. 1997): une ontologie générique appelée également méta-ontologie véhicule des connaissances génériques moins abstraites que celles véhiculées par l‘ontologie de haut niveau, mais assez générales néanmoins pour être réutilisées à travers différents domaines.  Les ontologies de domaine (Domain ontologies) (Mizoguchi et al. 2000): les ontologies du domaine expriment des conceptualisations spécifiques à des domaines particuliers et utilisées par des communautés bien définies. Ces conceptualisations mettent des contraintes sur la structure et les contenus des connaissances du domaine. La plupart des ontologies existantes dans le Web sémantique sont des ontologies de domaine.  Les ontologies de tâche (Task ontologies) (Mizoguchi et al. 2000): ces ontologies sont utilisées pour conceptualiser des tâches spécifiques dans les systèmes, telles que les tâches de diagnostic, de planification, de conception, de configuration de tutorat, soit tout ce qui concerne la résolution de problèmes.

2.3.3 Selon leur propos

Selon leur propos, les ontologies peuvent être classées en :  Les ontologies d’application : l‘ontologie d‘application est la plus spécifique, dont les concepts correspondent souvent aux rôles joués par les entités du domaine tout en exécutant une certaine activité (Maedche 2002). Elle contient toutes les définitions nécessaires pour décrire la connaissance requise pour une application particulière.  Les ontologies de référence : elles sont définies par (Smith 2013) comme des ontologies conçues pour décrire un domaine correctement. Les ontologies de référence sont utilisées durant le processus de développement d‘applications pour une compréhension mutuelle entre des agents appartenant à des communautés différentes, pour établir un consensus dans une communauté qui a besoin d‘adopter de nouveaux termes, ou tout simplement pour expliques le sens des termes aux nouveaux arrivants dans la communauté

43

Chapitre 2. Les ontologies

3. Les ontologies géographiques

Les ontologies géographiques représentent des concepts géographiques, qui décrivent l‘espace géographique ou des entités ou phénomènes de cet espace géographique. Ce qui fait la particularité des concepts géographiques, c‘est justement leur relation à l‘espace, auxquels ils sont intrinsèquement liés, de telle sorte qu‘ils ne peuvent être dissociés du territoire physique qu‘ils occupent. En conséquence, décrire des concepts géographiques implique de s‘appuyer sur des éléments de représentation spatiale. Les ontologies géographiques ont des besoins spécifiques qui sont liés à aux besoins de : – définir la spatialité à l‘aide de types de données spatiaux variés (ligne, point, surface simple, ...etc), de types d‘objets spatiaux (i.e. d‘objets ayant des attributs spatiaux), de relations spatiales comme les relations topologiques et/ou des champs continus (raster). – définir intentionnellement des concepts spatiaux à l‘aide d‘axiomes contenant des prédicats spatiaux. – raisonner sur la spatialité des instances i.e. inférer à partir des relations spatiales décrites l‘ensemble des relations spatiales valides. Comme toutes les ontologies, les ontologies géographiques peuvent être utilisées pour l‘exploration, mais aussi l‘extraction d‘informations. De nos jours, plusieurs ontologies géographiques ont été proposées parmi lesquelles nous avons : -TOWNTOLOGY dont la mission est « de définir une ontologie utilisée à la fois pour l‘enseignement de l‘urbanisme et proposer aussi aux experts un cadre de référence, pour l‘indexation de leur documentation, l‘aide à la recherche d‘information ou la formation du personnel ». -AGROVOC a été développée par la FAO69. Elle est dédiée à l‘eau, l‘agriculture, la chimie et la foresterie. -L‘ontologie FODOMUST est un projet de fouille de données multi-stratégies pour extraire et qualifier la végétation urbaine à partir de bases de données d‘images . -L‘ontologie GIEA est utilisée pour la coordination des travaux menés par différents organismes, et pour définir les informations demandées de façon commune par les agriculteurs. -L‘ontologie GEMET (General Multilingual Environmental Thesaurus) de l‘Union Européenne est un thésaurus générique ayant pour objectif de mettre en place un langage commun dans le domaine de l‘environnement. -L‘ontologie GIZIC (Gestion intégrée des Zones Côtières) de la région du Languedoc Roussillon (France), dont les missions sont de partager les connaissances et les savoir faire entre diverses disciplines scientifiques et acteurs qui participent à la production de l‘information. Il existe plusieurs autres ontologies abordant des thématiques environnementales très variées particulièrement dans les pays anglo-saxons. Nous avons pu trouver entre autre les ontologies de l‘ADL70, Geo-swoogle271, GCMD72 (Global Change Master Directory), Ordnance Survey73 et MIDA74 (the Marine Irish Digital Atlas). Il importe de souligner que les pays africains sont en marge de ces avancées

44

Chapitre 2. Les ontologies technologiques et la construction des ontologies spécifiques à leurs contextes fait cruellement défaut.

Figure2.3. Exemple d’ontologie géographique

3.1 Les ontologies spatiales Une ontologie spatiale est une ontologie dont les concepts ont une dimension spatiale, plus spécialement dédiées à la description des concepts qui caractérisent l‘espace comme le point, la ligne … etc. Ces ontologies sont typiquement élaborées par des grands organismes de normalisation. L‘ontologie spatiale proposée par (Casati et Varzi, 1998) a quatre composantes, La méréologie, la topologie, la localisation, et la morphologie. À l‘origine(2005) les recommandations du W3C à l‘initiative du Web Sémantique sont trop génériques, une absence de modélisation standardisée et de mécanismes de raisonnement dédiés. Aussi la création du GeoXG (Geospatial Incubator Group), en fin 2007. Le résultat était une classification des ontologies spatiales en 07 catégories : - Caractéristiques (features) géographiques Vocabulaire restreint du General Features Model (normes ISO et OGC), Des exemples : http://loki.cae.drexel.edu/%7Ewbs/ontology/list.htm -Types de caractéristiques "50 types de caractéristiques géographiques» par exemple : limites administratives de UK http://www.ordnancesurvey.co.uk/ontology - Relations (Géo) spatiales Relations spatiales qualitatives (au moins 8 relations topologiques 2D : RCC8 ou Egenhofer). par exemple : Spatial-Relations http://www.ordnancesurvey.co.uk/ontology/SpatialRelations.owl -Toponymes Pas de référence globale commune par exemple : http://www.geonames.org/ontology/ -Systèmes de coordonnées Il existe des normes OGC et ISO (ISO 19111) par exemple : http://loki.cae.drexel.edu/%7Ewbs/ontology/2004/09/

45

Chapitre 2. Les ontologies

-Méta-données (Géo) spatiales Provenance des données essentielles pour une exploitation efficace des données approche générale pour la description des méta-données : norme ISO 19115 des questions fondamentales telles que la pertinence et la validité temporelle d‘une ressource géo-spatiale sur le Web (par exemple, l‘image d‘une carte), ainsi que la représentation de ces propriétés par des URI ne sont pas encore résolues… Services Web (Géo) spatiaux – L‘évolution des normes telles qu‘OWL-S pose des défis en termes de mise en place de descriptions formelles pour les services Web – des précisions sont encore nécessaires quant à la manière dont le contenu de la plupart des services géo-spatiaux Web interagit avec leurs modèles de processus et avec le comportement attendu des interfaces. Plusieurs travaux sur des modèles de services sémantiques géo-spatiaux sont étudiés sur http:// portal.opengeospatial.org/files/?artifact id=15198

3.2 Les ontologies spatio-temporelles Les ontologies spatio-temporelles sont des ontologies dont les concepts sont localisés dans l‘espace. Une composante temporelle est souvent nécessaire en complément pour la modélisation de l‘information géographique, car les applications géographiques manient aussi très souvent des données temporelles, voir spatio- temporelle.

3.3 Les gazetteers

Un gazetteer est un terme anglais qui désigne traditionnellement un dictionnaire de toponymes qui organise des informations sur les lieux géographiques. Maintenant, les gazetteers sont considérés comme un type de Systèmes d'Organisation des Connaissances (SOC), qui organisent des informations sur les lieux géographiques nommés (Hill 2006). Une entrée dans un gazetteer contient au minimum 3 types d‘informations (Leidner 2007) qui sont un toponyme (nom d‘un objet géographique et éventuellement ses variantes historique ou vernaculaire) avec son type (c‘est la catégorie de l‘objet géographique lequel se réfère le toponyme, par exemple : région administrative, pays, cité, montagne, pont,… etc.) et son empreinte spatiale.

4. Construction d’ontologie

Il existe plusieurs façons de construire une ontologie, selon que l‘on cherche à identifier directement les entités pertinentes à considérer, ou bien que l‘on s‘attache à relever les lois régissant le système en cours d‘étude. Cependant, on peut distinguer trois schémas principaux de démarche pour la construction d‘une ontologie : 4.1 Par la détermination directe de catégories

Une telle démarche, même si elle peut avoir l‘observation comme point de départ, est arbitraire ou du moins biaisée, dans le sens où ce n‘est pas la réalité qui est ainsi retranscrite, mais la perception et sa catégorisation à travers les habitus de

46

Chapitre 2. Les ontologies l‘ontologiste ou de celui qui en tient lieu pour l‘occasion. Par habitus nous entendons «expérience, état d‘esprit, arrière pensée conscientes ou non » 4.2 Par la détermination d’axiomes et de primitives

Instaure les cas échéant des catégories en guise de conséquence : la justification peut donc sembler plus solide. On pose des principes qui font loi : rien de ce que l‘on pourra concevoir dans ce système ne pourra entrer en contradiction avec ces règles de base. 4.3 Par l’élaboration d’une théorie globale

L‘ontologie pouvant alors demeurer implicite, ou s‘expliciter en dérivant de ladite théorie un dictionnaire ou une encyclopédie définissant les entités les unes par rapport aux autres. Ces trois types d‘approches peuvent être initiés de différentes façons :  Par déduction : d‘un ensemble de règles de départ (axiomes, primitives, principes) on dérive logiquement le cas particulier, puis le résultat auquel doit conduire ce cas ;  Par induction : partant de l‘expérience concrète, on essaye de reconstruire le cas général auquel satisfait l‘expérience, permettant par la suite d‘inférer une règle régissant les conditions des cas généraux (théories ou éléments de théorie) ;  Par abduction : à partir de l‘expérience concrète, l‘on essaye d‘inférer une règle (théorie), et l‘on en évalue la pertinence via l‘adéquation entre les cas d‘espèce que l‘on peut en déduire et l‘expérience concrète.

5. BFO : Ontologie formelle de base

L‘ontologie formelle de base (BFO) est une ontologie de haut niveau qui est conçu pour une utilisation en soutenant la recherche d'information, l'analyse et l'intégration dans les domaines scientifiques. BFO8 est une véritable ontologie de haut niveau. Ainsi, elle ne contient pas de termes physiques, chimiques, biologiques ou autres, qui relèvent aux domaines de couverture des sciences spéciales. Le projet BFO été lancé en 2002 sous les auspices des formulaires de projet de vie parrainés par la Fondation Volkswagen. La théorie derrière BFO a été développée par (Barry Smith et Pierre Grenon, 2004) et présentée dans une série de publications. BFO consiste en une série de sous-ontologies (plus correctement conçu comme une série de points de vue sur la réalité), les plus importants sont: SNAP - une série d'ontologies instantanées (Oti), indexé par le temps. SPAN- une ontologie unique vidéo scopique (Ov). Chaque Oti est un inventaire de toutes les entités existantes à la fois. Ov est un inventaire (processory) de tous les processus qui se déroulent à travers le temps. (Chaque Oti est donc analogue à l'anatomie; Ov est analogue à la physiologie.) Chaque ontologie clichée représente un dosage présentiste des entités existantes, à un

8 http://www.ifomis.org/bfo/documents/manual.pdf

47

Chapitre 2. Les ontologies instant donné présente. Ov est la partition de l'ensemble des processus. Processus sont invisibles dans la vue instantanée, substances sont invisibles dans la vue SPAN. Les deux SNAP et SPAN serviront de base à une série de sous-ontologies à différents niveaux de granularité. La même partie de la réalité peut apparaître à une pluralité de niveaux de granularité. Ainsi les masses à un niveau peuvent être des agrégats à un autre niveau. Ce qui compte comme un processus unitaire à un niveau peut-être partie d'un processus continu à un autre niveau. Chaque ontologie représente une partition de la réalité dans des catégories ou des universaux. Les cas individuels (c.-à jetons) doivent être conçues comme étant visible en regardant (très dur) à travers les cellules représentées dans les schémas ci-dessous. Les régions spatiales et spatio-temporelles reconnus par SNAP et SPAN sont des entités abstraites qui peuvent ou peuvent ne pas abriter des entités concrètes. Les sites et les paramètres de SNAP et SPAN, en revanche, désignés par des expressions telles que «dans la salle», «dans le poumon», «sur la table», «l'hiver afghan», «l'Angleterre des Tudor», etc., sont liés à des limites ou des dispositifs de retenue (par exemple, murs, planchers, plafonds) physiques spécifiques. Sites sont liés portions de l'espace, qui peuvent être liés soit complètement, comme dans le cas d'une pièce fermée ou une bulle d'air intérieur de votre corps, ou partiellement, comme dans le cas d'une cage ou narine. Sites peuvent conserver leur identité d'un instant à l'autre, même si elles sont projetées en succession sur des régions spatiales abstraites distinctes (comme substances conservent leur identité d'un instant à l'autre, même si elles sont projetées en succession sur les agrégats distinctes de molécules). Les paramètres sont, très grossièrement, les produits cartésiens de sites avec des intervalles de temps horloge ou un calendrier. Ils sont les régions occupées par les paramètres spatio-temporelles de comportement au sens de Roger Barker (par exemple, le train de 17 heures à Long Island, la baignade matinale, votre rencontre avec le doyen): objets sociaux. La figure 2.4 montre les deux classes SPAN et SPAN et les différentes sous classes de BFO.

Figure 2.4. Structuration de BFO

Le tableau2.2 illustre quelques Statistiques de BFO:

48

Chapitre 2. Les ontologies

Table 2.2 Statistiques de BFO Classes: 36 Object properties: 78 Subclass axioms: 105 EquivalentClass axioms: 14 DisjointClasses axioms: 11 General Class inclusions: 12 SubObjectPropertyOf: 65 InverseProperty: 24 TransitiveObjectProperty: 16 ObjectPropertyDomain: 56 ObjectPropertyRange: 60 SubPropertyChainOf: 2 AnnotationAssertion: 1197

6. Outils de développement d’ontologies

Les outils de développements d‘ontologies qui existent sur le marché aujourd‘hui sont divers et variés à bien des égards. Cet état de choses suscite beaucoup d‘interrogations lorsque vient le moment d‘en choisir un parmi les divers outils : l‘outil dispose t- il d‘un moteur d‘inférence ? Quels langages d‘ontologies l‘outil supporte t-il ? L‘outil permet-il d‘importer/exporter des ontologies ? L‘outil offre t-il un support à la réutilisation d‘ontologies existantes ? L‘outil permet-il de documenter les ontologies construites ? L‘outil offre t-il support graphique à la construction des ontologies ? Les réponses à toutes ces questions pourraient s‘avérer décisives dans le choix de l‘un ou l‘autre outil.

6.1. Langage pour les ontologies

L‘un des principaux avantages d‘une ontologie est la portabilité. Pour pouvoir exploiter une ontologie et la partager par un grand nombre d‘utilisateur, il faut l‘exprimer dans un langage permettant son utilisation sur différentes applications et plateformes. Donc, Le langage de spécification est l'élément central sur lequel repose l'ontologie, il doit répondre aux exigences des utilisateurs potentiels de cette ontologie. Il existe plusieurs langages développés à cet effet. -XML(EXtended Markup Language) et XML Schema XML est un langage de description et d‘échange de documents structurés XML permet de décrire la structure arborescente de documents à l‘aide d‘un système de balises permettant de marquer les éléments qui composent la structure et les relations entre ces éléments. XML ne pose aucune contrainte sémantique sur la description des informations, il ne constitue donc pas un langage de modélisation d‘ontologies à lui seul. -XML Schéma (XML-S)

49

Chapitre 2. Les ontologies

Un outil de définition de grammaires caractérisant des arborescences de documents (notion de validité syntaxique). Avec les schémas XML, il est possible de contraindre la structure arborescente d‘un document mais pas la sémantique des informations contenues dans ce document. -RDF & RDFs Les initiales RDF correspondent à (Resource Description Framework), ou cadre de description de ressources en français, le « s » de schémas est une extension de RDF. Une ressource est simplement une chose : Une personne, un livre, un clavier, un article de publication, un bureau, une idée, toute chose qui peut être décrite. RDF est un cadre d'applications utilisant l'architecture du Web pour décrire une ressource. Tel HTML qui permet de relier des documents à d'autres documents sur le Web, RDF permet de relier une ressource à d'autres ressources sur le Web. Comme tous ses prédécesseurs, ce langage se base sur la syntaxe d‘XML. Doté d‘un schéma de représentation riche, incluant des classes, sous-classes, propriétés, sous-propriétés et des règles d‘héritage de propriétés. -OWL Nous avons vu que RDF et RDFS permettent de définir, sous forme de graphes de triplets, des données ou des métadonnées. Cependant, de nombreuses limitations bornent la capacité d'expression des connaissances établies à l'aide de RDF/RDFS. On peut citer, par exemple, l'impossibilité de raisonner et de mener des raisonnements automatisés sur les modèles de connaissances établis à l'aide de RDF/RDFS. C'est ce manque que se propose de combler OWL. OWL (OntologyWeb Language) a été créé en 2001 par le W3C, hérite du langage DAML+OIL et doit permettre de représenter des ontologies sur le Web. OWL fournit en fait trois sous-langages, d‘expressivité croissante, nommés OWL Lite, OWL DL et OWL Full.

Figure 2.5. Les langages d'exploitation des ontologies (Gomez-Pérez, 2004)

OWL est devenu un standard du Consortium W3C qui a publié en 2004 une recommandation définissant le langage OWL fondé sur le standard RDF et en spécifiant une syntaxe XML. Plus expressif que RDFS, il tend à détrôner les autres langages et à s‘imposer de plus en plus en maitre absolu.

6.2 Les éditeurs d’ontologies

50

Chapitre 2. Les ontologies

-PROTEGE PROTEGE 9 est un éditeur d'ontologies, distribué en open source par l'institut d‘informatique médicale de Stanford. C‘est un éditeur hautement extensible, capable de manipuler des formats très divers. Il existe deux moyens pour modéliser une ontologie avec PROTEGE, PROTEGE-Frame et PROTEGE-OWL. Une ontologie en PROTEGE peut être exportée dans différent formats incluant RDF(s), OWL, XML schémas. PROTEGE est une plateforme Java, il est flexible et supporte plusieurs langues dont l‘Anglais, le Français, l‘Arabe, le Chinois le Russe…etc. Une large communauté de développeurs académiques, de gouvernements et d‘entreprises utilise PROTEGE dans divers domaines. L‘interface permet de créer, supprimer, modifier et mettre à jour les concepts, les propriétés, les instances et les relations. En plus de la visualisation de la hiérarchie ontologique, PROTEGE permet une visualisation graphique à l‘aide de plugins comme OntoGraph ou OWL-Viz16, il dispose de raisonneurs comme Racer17, Fact++, Hermitt, Pellet. OntoGraph, Fact++, Hermitt, Pellet sont fournis avec PROTEGE.

Figure2.6: L’éditeur protégé

-SWOOP Il est développé par l'Université du Maryland. Contrairement à Protégé, il a été développé de façon native sur les standards RDF et OWL. C'est une application plus légère que Protégé, moins évoluée en termes d'interface, mais qui intègre aussi des outils de raisonnement. - JENA

9 http://protege.stanford.edu/

51

Chapitre 2. Les ontologies

JENA est un environnement de travail open source en Java, pour la construction d‘application web sémantique. JENA permet de manipuler des documents RDF, RDFS, OWL et SPARQL. Il fournit un moteur d'inférences permettant des raisonnements sur les ontologies. JENA est maintenant sous Apache Software Licence. 7. Conclusion

En RIG sémantique, les ontologies visent à représenter la connaissance en étant à la fois interprétables par l‘homme et par la machine. L‘utilisation de cette connaissance à pour but de faciliter la modélisation du processus de recherche, Nous nous sommes appuyés dans ce chapitre, en premier lieu sur la définition des ontologies dans ses différents domaines, ainsi que ses entités principales, ensuite nous avons cités les différents types d‘ontologies en donnant une importance aux ontologies géographiques et spatio-temporelles qui sont nécessaires pour notre étude, Nous n‘avons présenté aussi une liste succincte mais nous avons tenu à ce qu‘elle soit la plus représentative possible des outils existant pour chaque phase de la création d‘ontologies.

52

.

Deuxième partie Contributions

..

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique.

Sommaire

1. Introduction 2. Motivation 3. L‘ontologie STATO 4. Un GIRS a base de STATO 5. Etude de cas et évaluation 6. Conclusion

1. Introduction

Afin de faire face à l'explosion de l'information géographique apportée par l'invention et la large diffusion du web, la plupart des gens se sont habitués à utiliser les systèmes modernes de GIR pour rechercher les informations nécessaires. Dans la plupart des cas, avec l'aide de moteurs de recherche web Google et Yahoo, on peut rapidement trouver presque toutes sortes d'informations à partir de tonnes de pages Web, y compris des informations pour la recherche de la vie quotidienne, le divertissement, l'aide à trouver des emplacements, le travail, etc. Ces moteurs de recherche Web aident les gens à trouver de l'information rapidement dans la plupart des cas, mais pas dans tous les cas. L'incapacité d‘effectuer des recherches efficaces est causée, soit par l‘incapacité à comprendre les demandes d'information des personnes exprimées dans les phrases de recherche du langage naturel humain, soit par l‘incapacité à comprendre ou à extraire la vraie sémantique contenue dans les pages Web à récupérer. A travers ce chapitre, nous présentons notre contribution traduisant notre point de vue relatif à l‘amélioration des GIRS. Nous proposons un système de récupération d‘information géographique spatio-temporelle basé sur une ontologie d‘application STATO (Spatio-Temporal Algerian Toponyms Ontology) développée. L‘approche que nous proposons utilise l‘ontologie pour l‘indexation sémantique des documents. Ce chapitre est organisé en deux parties, d‘abord on présente notre ontologie, la méthodologie de conception, la création, puis l‘interrogation par des requêtes SPARQL. L‘ontologie a montré son efficacité de réponse à différents genres de questions spatiaux, et temporels. Dans la deuxième partie, nous présentons notre système qui permet de détecter, identifier des termes et des relations spatiales sémantiques, les récupérer, et les visualiser.

2. Motivation :

Une estimation globale indique que jusqu‘à 80 % des informations générées dans le web ont une composante spatiale et/ou temporelle. Pour faciliter la tâche, plusieurs moteurs de recherche ont vu le jour (Google, Yahoo, Altavista…etc). Ces outils, bien qu‘ils répondent à une bonne partie des besoins des utilisateurs, présentent quelques problèmes critiques : Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique.

– La masse énorme des documents retournés, – La sensibilité au vocabulaire utilisé dans la requête, – Le résultat fractionné en pages Web. – La variabilité des langages utilisés sur le web et le non structuration des documents, ce qui rend cette tâche de plus en plus laborieuse. La réflexion sur le web sémantique a été essentiellement fondée sur ce problème de la GIR. En effet, les ontologies peuvent améliorer la pertinence d‘une recherche et ce, en recherchant des informations faisant référence à un concept précis au lieu de se baser sur des mot-clés qui peuvent être ambigus. Avec l‘utilisation d‘une ontologie spatiale et/ou temporelle, un moteur de recherche fera la différence. Entre la recherche d‘une localisation ou bien des événements, et quelle est l‘information pertinente lorsqu‘il s‘agit d‘une recherche des endroits géographiques. Cette recherche basée sur les ontologies se présente comme une recherche intelligente qui repose sur la sémantique des ressources et sur les concepts contenus dans les documents qui leur sont associés. Ces ontologies géographiques peuvent ainsi, d‘une part, guider la création d‘annotations sous la forme de métadonnées sur les ressources, et d‘autre part, décrire leurs contenus de manière à la fois formelle et signifiante pour être exploitable aussi bien par les humains que par les machines. Dans cette optique, plusieurs systèmes de la GIR à base d‘ontologies ont été proposés, parmi lesquels on peut citer : le projet SPIRIT, qui consiste en un moteur de recherche spatiale. Maintient une ontologie géographique des noms de lieux, par exemple . geoXwalk qui est un projet visant à fournir un service de gazetteer britannique et irlandais. SONADUS qui est une ontologie des toponymes suisses développée pour assister à la GIR (Felix gantner, 2011). Dans cette première contribution, on propose : - une méthodologie de conception pour la construction de l‘ontologie spatio- temporelle STATO basée sur l'ontologie BFO et la division administrative Algérienne. Notre ontologie retrace l'évolution des unités administratives de L‘Algérie entre 1988 et 2014. Cette ontologie sera riche de la sémantique géographique, y compris les éléments géographiques tels que les relations spatiales, des concepts, termes et noms historiques liés à un lieu, et qui peut aider dans le processus de la GIR. - l‘interrogation de l‘ontologie STATO, en effet, on a essayé d‘interroger l‘ontologie à l‘aide de requêtes SPARQL, nous montrons des exemples de requêtes spatiale, et temporelle, dont l‘ontologie a montré son efficacité. - un système de récupération d‘informations spatio-temporelles sémantiques depuis des documents web non structurés. Notre approche consiste à détecter, identifier et extraire toute entité et/ou relation spatiale et/ou temporelle, et de combiner les informations extraites afin d‘obtenir une connaissance spatio-temporelle au lieu de traiter les informations spatiales et les informations temporelles séparément. Notre système regroupe plusieurs modules collaboratifs. L‘élément de base est l‘ontologie spatio-temporelle STATO. .

56

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique.

3. L’ontologie STATO

3.1 Complexité de la construction d’une ontologie toponymique

La construction d‘ontologies des noms de lieux (places, endroits) n‘est pas une tache facile, la complexité réside sur les représentations et les expressions des lieux c'est-à- dire: - Un lieu peut avoir plus d'un nom, - plusieurs endroits peuvent partager le même nom, - aussi de nombreux types de relations spatiales existent entre des lieux tels que: parties-du, type-de, attribut-de, l'instance-de…etc. - Les frontières d'un lieu peuvent être floues. - Le même nom de lieu peut être écrit différemment dans un autre texte. - Certains noms de lieux qui se produisent dans des textes sont des conventions temporelles ou culturelles plutôt que des noms officiels. - Encore, les lieux historiques introduisent plus de défis pour les systèmes de recherche d‘information géographique. En effet, La Coalescence d‘espace et de temps a été un défi majeur de GIScience au cours des dernières décennies, Car la valeur temporelle manie dans différentes types d‘applications, par exemple : les métadonnées historiques font souvent des références spatio-temporelles dans les régions et les lieux historiques en utilisant des noms dont la signification est inexistante ou changée au fil du temps. Aussi, Les gens relient souvent la distance géographique avec le temps par exemple: Il faut deux heures pour aller de 'A' à 'B' en voiture…etc. Et donc, la nécessité d'une solution satisfaisante ne sera pas cesser d'exister et cela s'applique également à l'évolution des noms de lieux. D‘une autre part, les ontologies de haut niveau sont une technologie clé pour l'intégration d'informations hétérogènes provenant de différentes sources. DOLCE (Descriptive Ontology for Linguistic and Cognitive Engineering) et BFO, sont les candidats préférés qui proposent des principes fondamentaux rigoureux pour modéliser n'importe quel domaine. 3.2 Méthontology

Le procédé cyclique suivant rende la méthode définit très attractive pour construire des ontologies dynamiques -Spécification : Identifier le but de l‘ontologie, les utilisateurs, les scénarios d‘usage et la portée de l‘ontologie comprenant l‘ensemble de termes à représenter, leurs caractéristiques et leur granularité ; -Conceptualisation : Les termes du domaine sont identifiés comme concepts, instances, relations ou propriétés en utilisant une représentation intermédiaire (semi- formelle) par le biais de tableaux et de graphes ; -Formalisation : L‘ontologie est formellement représentée en logique de descriptions ; -Intégration : Afin d‘obtenir une certaine uniformité à travers des ontologies, des définitions d‘autres ontologies devraient être incorporées ;

57

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique.

-Implémentation : L‘ontologie est implémentée dans un langage ; -Maintenance. Chaque étape peut intégrer une phase d'acquisition des connaissances, documentation et évaluation.. La formalisation et l‘implémentation doivent être des étapes de traduction quasi-automatique du modèle qui les précède : le véritable effort de construction a lieu pendant la conceptualisation. 3.2.1Spécification Le but de notre ontologie spatio-temporelle (STATO) est de fournir un vocabulaire conceptuel, qui permet l'annotation sémantique des documents contenant des informations sur les toponymes Algériens, les relations spatiales, le changement d‘un nom de lieu à travers le temps, et les événements. Le choix du territoire Algérien est justifié par la disponibilité des données pour construire l‘ontologie d‘une part, et d‘autre part la possibilité de construire une base documentaire extensible dont les termes sont sémantiquement liés aux concepts de l‘ontologie. 3.2.1.1. Les noms des lieux : Les noms des lieux (toponymes) constituent la première indication des entités géographiques. Les caractéristiques géographiques représentées par les toponymes sont des concepts fondamentaux dans notre ontologie. Un toponyme est formalisé en tant que triple: P = F (S, T, A) Dont P est le nom de lieu, S: définit les caractéristiques spatiales, T: les caractéristiques temporelles et A définit les caractéristiques thématiques du toponyme. Un toponyme peut être défini comme un nom de lieu ou un nom géographique, ou encore un nom propre d'une localité ou d‘une région ou d‘une certaine autre partie de la surface de la Terre ou de ses objets naturels ou artificiels (Hill 2006). Brièvement, un toponyme est un nom propre qui sert à désigner un emplacement géographique. Le sens du terme toponyme est vaste. Le Tableau3.1 suivant montre les différents types de toponymes. Table3.1. les types des toponymes

3.2.1.2 L’ambiguïté des toponymes L‘ambiguïté est inhérente aux langues naturelles. Les toponymes –autant que termes de la langue– sont très ambigus. En fait, l‘ambiguïté des toponymes a 2 types : l‘ambiguïté géo/géo, l‘ambiguïté géo/non-géo. L’ambiguïté géo/géo se pose

58

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique. lorsqu‘un toponyme représente plusieurs lieux (Amitay, et al. 2004), par exemple, selon les gazetteer Getty et Geonames Constantine est le nom de 5 lieux habités dans le monde (voir Figure 3.1).

Figure 3.1. L’ambiguïté des toponymes : exemple constantine

L‘ambiguïté géo/non-géo apparaît lorsqu‘un toponyme se réfère à d‘autres types d‘entités (ex. Arafat est le nom d‘un lieu à coté de La Mecque et aussi le nom de l‘ex- président de Palestine) ou possède d‘autres sens (ex. java un langage de programmation et Java une ile indonésienne).

3.2.1.3 La division administrative Algérienne :

La carte administrative de l'Algérie connaissait d'importantes transformations influencées par les circonstances politiques, économiques et humaines. En fait, la division administrative algérienne se compose de 3 niveaux: niveau-province, le niveau de dayrat (sous-préfectures) et au niveau de la commune. Quand l'Algérie était sous administration française, les noms officiels de division étaient en français. Avec l'indépendance, l'arabe a été la langue nationale.

3.2.2. Conception de l’ontologie

Cette étape repose sur la création de plusieurs structures appelées représentations intermédiaires. Tout d‘abord, il faut créer un glossaire de termes, que l‘on divise en concepts et verbes. Les concepts vont devoir être regroupés en arbres de classification de concepts et les verbes servent à créer des diagrammes de relations binaires. A partir de ces deux structures, on va construire un dictionnaire des concepts, qui regroupe toutes les informations concernant les concepts (nom et synonymes, instances, attributs de la classe et de ses instances, relations rattachées au concept). D‘autres structures vont également apparaître : table des relations binaires, table des attributs d‘instances, table des attributs de classes, table des axiomes logiques, table des constantes, table des formules (pour calculer des valeurs d‘attributs), arbres de classification des attributs et table des instances. Notre ontologie spatio-temporelle consiste en un modèle conceptuel global constitué de différentes classes et qui inclut différents sous modèles (les caractéristiques géographiques, le temps, la géométrie,

59

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique. les événements et les relations spatiales) et chaque sous-modèle est constitué d‘un ensemble de classes et de propriétés. Notre modèle conceptuel global est illustré dans la figure 3.2 et la figure 3.3:

Figure 3.2. Modèle conceptuel globale de notre système

Figure 3.3. Structure de notre ontologie

Comme la montre la figure 3.2, notre ontologie consiste en 05 sous-modèles (classes) :

60

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique.

3.2.2.1 Caractéristique géographique :

Plusieurs noms sont pris en charge pour chaque entité géographique (nom standard, les abréviations, les noms alternatifs, des noms élégants, les noms locaux, ID, une courte description, etc.). 3.2.2.2 Relations Spatiales : On définit les relations entre les caractéristiques géographiques, en tenant compte de la topologie (disjoints, le toucher, se chevauchent, l'égalité, contiennent, à l'intérieur, couverture, etc.) et les relations directionnelles (se trouve au nord, est au sud de ..., est l'est de, etc.). Qui peuvent être issues d‘une déclaration explicite de la part de l‘utilisateur ou bien inférées à partir des informations existantes.

- Relations topologiques :

Les deux principaux formalismes pour la représentation de relations topologiques entre régions sont le RCC et le 9-Intersection Modèle. Ce dernier et le sous-ensemble RCC-8 définissent huit relations spatiales équivalentes possédant la propriété d'être exhaustives et mutuellement exclusives, signifiant ainsi qu'une seule de ces relations est valide entre toute paire de régions. Etant le plus répandu dans les approches visant à intégrer une dimension spatiale au Web Sémantique, le RCC-8 est choisi comme formalisme dans notre étude des relations spatiales entre régions. Les relations définies dans le RCC-8 sont rappelées dans la figure 3.4 suivante :

Figure 3.4. Les différentes relations RCC-8 possibles entre deux régions x et y.

- Relations directionnelles :

* Les relations métrologiques (relation de partie à tout) : Le concept de la méréologie est celui de partie. Bien qu‘il existe différentes versions de cette discipline théorique, toutes s‘accordant sur quelques principes de base : · Chaque chose est une partie d‘elle-même. · Deux choses distinctes ne peuvent pas être des parties l‘une de l‘autre. · N‘importe quelle partie d‘une partie d‘une chose est elle-même une partie de cette chose. La relation centrale en méréologie est celle de la partie propre (PP): PP(x, y)= P(x, y) Ù Ø P (y, x) (x est une partie propre de y est égale par définition à x est une partie de y et y n‘est pas une partie de x). Elle s‘intéresse aussi aux différentes relations possibles entre objet, conçus comme des parties ou comme des toutes. Il s‘agit des relations de recouvrements (Overlap),

61

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique. de chevauchement (underlap), de sur-croisement (Over-crossing), de sous-croisement (under-crossing), de recouvrement propre (proper overlap) et de chevauchement propre (proper underlap). Voici la représentation formelle de certaines se ces relations : O(x, y) = $ z (p (z, x) Ù P (z, y)). (x recouvre y est égal par définition à il existe z tel que z est une partie de x et z est une partie de y). OX(x, y) = O(x, y) Ù Ø P (x, y). (x surcroise y est égal par définition a x recouvre y et x n’est pas une partie de y) "x $ y (P(y, x) Ù Ø $ z PP(z, y)). (Pour tout x, il existe y, tels que y est une partie de x et il n’existe pas z tel que z est une partie propre de y).

3.2.2.3 Géométrie:

Nous représentons les objets dont la géométrie peut être un point, poly ligne ou un polygone.

3.2.2.4 Evénement:

Nous décrivons les événements qui se sont produits à un moment donné, Par exemple : l‘établissement d‘une nouvelle zone, ou bien la fusion ou la division de deux zones géographiques dans le temps.

3.2.2.5 Temporel: nous utilisons la définition du temps dans BFO, il se compose à la fois de l'intervalle temporel qui représente une région temporale connecté dure depuis plus d'un seul instant de temps, par exemple une durée temporelle continue au cours de laquelle se produit un processus. Et l‘instant temporel qui définit une région temporale connecté comprenant un seul instant de temps, par exemple en ce moment, le moment où un événement se produit.

3.2.3. Les classes et les relations de STATO

Plusieurs allers-retours ont été faits lors du développement de l'ontologie ‗STATO‘ pour les raisons suivantes : - Il n'était pas possible de savoir dés le départ, que les termes collectés sont suffisants pour répondre à l'objectif pour lequel l'ontologie a été construite. Nous avons ajouté des nouveaux termes lorsque c'était nécessaire, tout de même nous avons retiré des termes que nous avons jugés inutiles. - Il n'était pas toujours facile de prédire qu'un terme va jouer le rôle d'une classe ou celui d'un attribut, plusieurs modifications ont été effectuées dans ce sens. Le tableau suivant illustre les différents classes et relations de STATO

62

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique.

Table 3.2. les classes et les relations de STATO Le sous Concept de Exemple de la classe modèle Les principales de l’entité base principale

Entité les toponymes -Noms -nom standard géographique géographiques -nom alternatif -Nom historiques -id -Nom actuels -a une empreinte -Emprinte

Relation Aucune Aucune -relations topologiques : spatiale contient, -relations de direction : est au sud, est au nord, à l‘est de, à l‘ouest de, est partie de, est

Géométrie Type de - Point, -Est spécifié avec géométrie -polygone, - est composé de -polyline -a les coordonnés -coordonnés, -système de références spatiales Temps temps temps Occured at

Evénement Evénement division Est relié avec (le nom fusion historique) Establishement

Figure 3.5. Propriétés d’Objets

63

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique.

Figure 3.6. Les individus

3.2.4 Codification L‘étape de codification consiste à représenter l‘ontologie dans un langage de représentation de connaissances doté de capacités d‘inférences comme par exemple le fameux OWL. Cette phase est une étape de traduction automatique à l‘aide du logiciel Protégé, on cliquant juste sur le menu « code » ensuite « show RDF/XML source code » pour obtenir le code résultant, comme il est indiqué dans la

Figure 3.7. Codification sous protégé

64

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique.

Figure 3.8. Architecture globale de l’ontologie spatio—temporel

65

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique.

3.2.5 visualisation de STATO

Figure3.9 visualisation de STATO

4. Interrogation de STATO

Après le stockage des données sémantique sous forme de graphes de données, c.a.d sous la forme de triplets RDF (RDF triple store). . On peut

66

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique. procéder à l‘interrogation de notre ontologie STATO pour valider le but de sa création.

Pour cela, on utilise le langage SPARQL.

4.1 Le langage SPARQL

SPARQL est à la fois un langage et un protocole de requête. Le protocole va permettre à un client Web de consulter, en exécutant une requête SPARQL, un service ou point d‘accès SPARQL (endpoint) qui traitera la requête pour retourner la réponse sous différents format (HTML, XML, RDF/XML, N3, JSON …etc.). Le langage permet d‘interroger des descriptions RDF en utilisant des clauses (similaires dans certains cas à celles du langage SQL) telles que PREFIX (spécifie l‘adresse exploitée dans la construction de la requête), SELECT … [FROM] … WHERE (requête interrogative), CONSTRUCT (requête constructive), UNION, OPTIONNAL (jointures, conditions optionnelles), FILTER (conditions obligatoires) et DESCRIBE, ASK (description d‘une ressource, évaluation d‘une requête).

4.2 Requêtes SPARQL Cette section présente des exemples de requêtes de test et affiche les requêtes SPARQL correspondantes envoyées au serveur. En outre, elle fournit une brève explication de chaque requête SPARQL et présente résultats retournés. Dans la plupart des cas, il existe une variété de possibilités pour formuler une requête SPARQL afin de récupérer les informations souhaitées. Les requêtes SPARQL utilisées ne représentent donc qu'une seule solution possible. Il pourrait y avoir beaucoup d'autres qui font le même travail.

4.2.1 Requête spatiale

- Où se trouve la province de Constantine?

La requête SPARQL de la figure 3.10 sélectionne d'abord tous les objets de type (province) avant de rechercher les noms de ces objets pour la chaîne Constantine. Ensuite, la requête sélectionne la durée de vie de cet objet particulier (pvg_province). Après avoir extrait les dates de début et les dates de fin de la (pvg_province), la requête trouve les objets géométriques en relation avec ces (pvg_province), Par conséquent, le tableau 3.3 illustre le résultat obtenu.

PREFIX son :< http://www.wsl.ch/Stato #> PREFIX rdf : PREFIX owl: Prefix rdfs: SELECT distinct ?object ?objectName ?geometry ?pvg_valideDE ?pvg_valideA WHERE { ?object rdf:type son: province ?object son:hasName ?objectName FILTER regex{? objectName , ‘’constantine’’} ?object son:haslife ?life. ?life son: pvg_province ?pvg. ?pgv ?r ?pvg_valideDe FILTER (?r=son:beginAt||?r=son:endAt) ?pvg_valideDe dc :date ?pvg_valideDe_date ?pvg ?e ?pvg_valideA_date

67

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique.

FILTER(?e=son:endAt ||?e=son :endAt) ?pvg_son :haspart ?objectGeometry ?objectGeometry son :represtby ?geometry } ORDER BY ?pvg_valideDe_date Figure3.10 requête SPARQL (Où se trouve la province de Constantine?)

Table3.3 résultats (géometrie) objectName geometry pvg_valideDe_date pvg_valideA_date Constantine 36° 21' 54 N 01/01/2000 01/01/2014 6° 36' 52 E

2- quelle sont les communes de la province de setif?

Tout d'abord, la requête SPARQL de la Figure 3.11 recherche le graphique RDF pour les triples ayant le prédicat (hasName) et un objet contenant la chaîne ‗‘Setif ‗‘. Par la suite, la requête sélectionne la durée de vie de cet objet de type (province). Ensuite, la requête sélectionne les objets correspondants du niveau de la classe (commune) que contient cet objet du type (province). Après avoir récupérer les noms des objets du niveau de la commune. Par conséquent, le résultat établi dans le tableau 3.4 contient les noms de toutes les communes dans la province de Setif.

PREFIX son :< http://www.ifomi.org/Stato #> PREFIX rdf : PREFIX owl: Prefix rdfs: SELECT distinct ?commune as ?objectName ?commune_valideDe_date as ?valideDE ?commune_valideA_Date as ?valideA ?communeName as ?objectName ?pv-commune_valideDe_date as ?pv_valideDe ?pv_commune_valideA_date as?pv_valideA WHERE { ?object son:hasName ?provinceName. FILTER regex{? provinceName , ‘’Setif’’} ?object son:haslife ?life. ?plife_unité rdf :type son :temporal_plife_province. ?province son: ?hasName ? provinceName. ?province son: ?haslife ? plife_province. ? plife_province ?a ? plife_province_valideDe FILTER (? A= son:begginAt || ?a=son:detectA) ? plife_commune_valideDe dc:date ? plife_commune_valideDe ? plife_commune ? r ? plife_commune_valideA FILTER (?r= son:begginAt || ?a=son:detetcA) ? plife_commune_valideA dc:date ? plife_commune_valideA_date ? plife_commune ?c ? plife_commune_valideDe FILTER (?c= son:begginAt || ?c=son:detectA) ? plife_commune_valideDe dc:date ? plife_commune_valideDe_date ? plife_commune ? f ? plife_commune_valideA. FILTER (? F= son:endAt || ?f=son:detectD) ? plife_commune_valideA dc:date ? plife_commune_valideA_date ? plife_commune son :haspart ? commune

68

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique.

? commune son ;hasName ? communeName. } ORDER BY ? communeName Figure3.11 requête SPARQL (quelle sont les communes de la province de setif?)

Table3.4 résultats (communes) communeName plife_commune_valideD plife_commune_valideA e Aïn Abessa 01/01/2000 01/01/2014 Aïn Azel 01/01/2000 01/01/2014 Aïn Arnat Aïn El Kebira 01/01/2000 01/01/2014 Aïn Lahdjar 01/01/2000 01/01/2014 Aïn Legradj 01/01/2000 01/01/2014 Aïn Oulmene 01/01/2000 01/01/2014 Aïn Roua 01/01/2000 01/01/2014 Aïn Sebt 01/01/2000 01/01/2014 Aït Naoual Mezada 01/01/2000 01/01/2014 Aït Tizi 01/01/2000 01/01/2014 01/01/2000 01/01/2014 Babor 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 Beni Mouhli 01/01/2000 01/01/2014 Beni Ouartilene 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 Boutaleb 01/01/2000 01/01/2014 01/01/2000 01/01/2014 Djemila 01/01/2000 01/01/2014 01/01/2000 01/01/2014 El Ouldja 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 Hamma 01/01/2000 01/01/2014 01/01/2000 01/01/2014 Hammam Soukhna 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014

69

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique.

Maoklane 01/01/2000 01/01/2014 01/01/2000 01/01/2014 Oued El Barad 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 01/01/2000 01/01/2014 Serfj el ghoul 01/01/2000 01/01/2014 Setif 01/01/2000 01/01/2014 01/01/2000 01/01/2014 Talaifacen 01/01/2000 01/01/2014 taya 01/01/2000 01/01/2014 Tella 01/01/2000 01/01/2014 Tizi N’bechar 01/01/2000 01/01/2014

4.2.2 Requête temporel

-Quand l’établissement de Ali mendjeli à Constantine?

La requête SPARQL de la figure 3.12 sélectionne d'abord tout le changement de la classe de type (establishment). Ensuite, la requête récupère les objets ayant un nom contenant la chaîne Ali Mendjeli. Enfin, la requête extrait la date de début de la vie de cet objet. Cette date de début correspond à la date de l‘establishment. Par conséquent, montrée dans le tableau 3.5.

PREFIX son :< http://www.ifomi.org/Stato#> PREFIX rdf : PREFIX owl: PREFIX rdfs: SELECT distinct ?change ?Dateofestablishment WHERE { ?change rdf:type son: provinceestablishment. ?change son:hasName ?object. ?object son:hasName ?objectName. FILTER (? objectName =son : Ali mendjli || ? objectName:Constantine ) ?change son: ?life. ?life son:begin ?Dtaeofestablishment. }

Figure3.12 requête SPARQL (Quand l’établissement de Ali Mendjeli à Constantine?)

Table 3.5 résultats (établissement) objectName Date of establishment Ali mendjeli 01.01.2002

5. GIRS basé sur STATO 5.1 Architecture du système

70

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique.

Dans le but d‘assurer une modélisation cohérente de notre système, nous avons commencé par la création de certains modules où chacun d‘eux assure une fonctionnalité distincte. Le regroupement de ces modules nous a permis par la suite de construire l‘architecture générale du système qui intègre : l‘ontologie STATO, un corpus, des techniques TALN en utilisant GATE10 (General Architecture for Text Engineering), un module de géocodage et un de géo-visualisation. Figure 3.13

Figure 3.13 Structure de GIRS basé STATO

5.1.1. Techniques de TALN :

Le rôle de cette phase est le prétraitement du texte pour la détermination des entités géographiques (ex. les noms des Lieux, les organisations, …etc.), on a choisi l‘environnement GATE. GATE est un environnement d'ingénierie linguistique développé à l'université de Sheffield et a été largement utilisé pour l'enseignement et de la recherche depuis sa première version en 1996. Il propose un ensemble de ressources de traitement réutilisables en JAVA, qui forme un système d'information appelé ANNIE (a Nearly-New Information Extraction System). ANNIE comprend les principales ressources de traitement pour l'extraction des informations telles que: tokeniser, splitter, POS tagger, gazetteers (chapitre 2. Section 3.3), transducteur et orthomatcher. Les annotations sont effectuées dans GATE en mettant en surbrillance un mot dans le texte et en créant une nouvelle catégorie d'annotation. Une fois cette catégorie d'annotation créée, nous pouvons annoter autant de chaînes dans le document que cette catégorie.

10 http://gate.ac.uk

71

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique.

Exemple :

Figure3.14 exemple d’application de STATO et TALN

5.1.2 Géocodage :

Après avoir extraire l‘information géographique en utilisant l‘ontologie STATO et les techniques TALN, elle ne peut pas être exploitée sauf si les toponymes sont représentés d‘une façon formelle, La phase du géocodage consiste en l‘interprétation des entités géographiques trouvées dans le texte en des coordonnées spatiales (la représentation formelle). Notre méthode proposée pour le géocodage des chaînes de texte extraites est l‘utilisation de coordonnées correspondantes fournies par l‘ontologie STATO qui utilise la Base de données géographique GeoNames comme On a vue précédemment. On donne l‘exemple de géocodage de l‘entité ‗‘Djebel el Ouahch‘‘, un endroit a la ville de Constantine.

Table3.6 géocodage de l’entité ‘’Djebel el ouahch’’ Entité Province Country Djebel el constantine Algeria 36° 23.8201' N, ouahch 006° 39.508' E

72

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique.

5.1.3 Visualisation :

Cette phase consiste à relier les informations aux emplacements géographiques. Tous les résultats sont exportés dans une base de données qui comprend un ensemble de tuples {SID, SE, SG, X, Y, T}, où 1. SID est le numéro d'identification de la SE (un terme spatiale). GATE marque chaque terme annoté avec un numéro d'identification spécifique après les résultats sont triés. Les termes spatiaux peuvent être mappés en fonction de leur numéro d'identification qui détermine l'ordre de positions selon l'endroit où termes spatiaux se produisent dans les documents texte; 2. SE correspond à l'expression spatiale; 3. SG décrit granularité spatiale du terme spatiale (par exemple, ville, état, ou le nom du comté); 4. X et Y représentent coordonnées x, y pour l'emplacement du terme SE; 5. T fait référence à l'information temporelle associée (par exemple, 09/08/2012: 00con: 00). Une fois que tous les enregistrements sont stockés, les emplacements sont mappés avec une fonction d'affichage x, y.

5.2 Etude de cas : accidents de la route en Algérie

L'ensemble de données pour cette étude de cas comprend des informations sur les accidents de la route en Algérie, malheureusement chaque jour, on entend parler des dégâts routiers, et des articles sur ces accidents sont publiés sur le web. Initialement, Chaque article comprend un en-tête spécifiant sa date de publication De cette façon, la date du document peut fournir un calendrier pour les phénomènes analysés. Et peut être utilisée pour donner un ordre temporel aux emplacements spatiaux extraits. Cependant, en plus de l'information spatiale extraite, l‘extraction des entités temporelles contenues dans le contenu du texte enrichit notre compréhension de l‘événement. Notre approche consiste à l‘utilisation de l'information spatiale extraite plus la date du document. Pour notre approche, chaque document dans l'ensemble de données comprend un en- tête donnant la date de l'article publié, et l'information spatiale est extraite à l'aide des règles développées en Java, ce qui permet de classer les articles obtenus (10 articles) à partir du texte selon les différentes dates des documents (c.-à-d. Du 04 au 10 fev). Après la phase de l‘analyse des textes en appliquant les techniques TALN et L‘ontologie STATO (un exemple est montré dans la figure 3.15.), Une carte montre les zones qui ont été touchée par les accidents (figure 3.16), STATO capturent les références spatiales explicites qui peuvent être analysées et géocodées sur les cartes directement (Figure 3.16).

73

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique.

EL-WATAN 07/02/2013

Selon le dernier bilan de la direction de la Protection civile, ses services auraient comptabilisé pas moins de 14 accidents de la circulation durant les dernières 48 heures, qui ont causé la mort d‘une dizaine de personnes et fait près de 25 blessés. On relève que l‘hécatombe survenue dans la wilaya de Relizane, plus précisément dans la localité de Zemmoura, est la plus meurtrière. Toujours selon les services de la Protection civile, cet accident survenu en fin d‘après-midi au lieudit Chehaïbia, suite à la collision d‘un véhicule léger et un camion remorqueur, a fait 3 morts sur le coup et 2 blessés. Parmi les personnes décédées, un enfant âgé de 8 ans. Un jour auparavant, un autre accident avait mis fin aux jours d‘une personne, et causé des blessures à 17 autres. Ce drame a eu lieu dans la wilaya de Mila. L‘accident le plus dramatique reste celui de Aïn Defla, survenu suite au carambolage de 9 véhicules et un camion. Une personne est décédée sur le coup et 15 autres, âgées entre 15 mois et 61 ans, ont été blessées. Un contingent humain et matériel conséquent a été mobilisé lors de ce tragique accident qui a également causé un énorme bouchon dans les deux sens sur l‘autoroute Est-Ouest. Il est à noter que le milieu urbain n‘est pas à l‘abri de ce genre de sinistres. Selon un bilan de la Direction générale de la Sûreté nationale (DGSN), rapporté par l‘APS, 22 personnes sont décédées et 343 autres ont été blessées dans 250 accidents de la route survenus entre le 25 avril et le 1er mai.

Figure 3.15 les techniques TALN et L’ontologie STATO sur un document textuel

Résultat sur la carte

Figure 3.16 visualisation des résultats après le traitement de l’article EL-WATAN 07/02/2013

5.3 L'évaluation

L'évaluation est effectuée en utilisant 10 articles. L‘évaluation de l'extraction sémantique spatio-temporelle est faite selon les mesures d'évaluation de précision et de rappel. Précision= le nombre de Références correctement résolu/ le nombre de références que le système ou les utilisateurs tentent de résoudre;

74

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique.

Rappel= le nombre de Références correctement résolu / le nombre de toutes ces références. Pour calculer les valeurs de Précision et de rappel, Les résultats automatisés du système sont comparés à un standard doré pour acquérir le nombre de références sémantiques spatio-temporelles correctement résolues, les références incorrectement résolues et les Références manquantes. Pour cela, des évaluateurs humains ont été chargé pour fournir un standard doré, quatre volontaires ont été utilisés pour traiter manuellement les données d'évaluation. Chaque volontaire était formé par des exemples. Chaque volontaire a annoté les termes spatiaux, et les termes temporels manuellement. Les résultats sont exprimés sous la forme d'un ensemble de vecteurs de la combinaison de facteurs spatiaux, temporels et des informations sémantiques (c'est-à- dire un ensemble de vecteurs {spatiaux, temporels, sémantiques} stockés dans un fichier de base de données.csv. Pour obtenir le standard doré. Les résultats obtenus à partir du traitement automatique du texte par le système sont comparés à celui du standard doré. Le nombre des références correctes, des références incorrectes et des références manquantes pour les utilisateurs et les Système est déterminé. Les résultats pour la précision et le rappel basés sur la performance humaine et les résultats de performance du système sont illustrés dans le tableau 3.7. Ces résultats sont dérivés selon le standard doré (depuis 113 références trouvées). Pour l‘évaluation manuelle, il y avait 103 ensembles de références correctes, 10 références incorrectes, et 10 références manquées en moyenne. Les valeurs de précision et de rappel sont calculées : 0.91 Et 0,91 respectivement. Le système a été exécuté avec 94 références correctes, 19 incorrectes références et 21 références manquées. Sur la base de cette performance, la précision et le rappel sont calculé respectivement 0,83 et 0,82, on peut dire que les résultats pour la performance du système sont Acceptable (0.83 pour la précision et 0.82 pour le rappel).

Table3.7 les taux de précision et de rappel (manuel Vs automatique) Référe correctes incorrectes manquantes précision rappel nces manuel auto manuel auto manuel auto manuel auto manuel Auto

113 103 94 10 19 10 21 0.91 0.83 0.94 0.82

6. Conclusion

Dans ce chapitre, nous avons présenté notre contribution relative à la prise en compte de la sémantique via les ontologies. Afin de rendre opérationnel notre proposition, la mise en place d‘un ensemble de ressources externes était nécessaire. À cet effet, nous avons donc construit l‘ontologie d‘application spatio-temporelle STATO relative à la division administrative Algérienne, On a détaillé les étapes depuis la conception jusqu‘a la création, la

75

Chapitre 3. Contributions pour l‘Amélioration de la GIR par la Prise en Compte de la sémantique. deuxième étape était l‘interrogation de l‘ontologie STATO, en effet, on a utilisé des requêtes SPARQL (requêtes spatiales, et temporelles) pour le test et la validation dont l‘ontologie a montré son efficacité de repense. La dernière étape était d‘établir un système de récupération d‘informations spatio-temporelles sémantiques. Pour cela, Nous avons également proposé une architecture générale basée sur plusieurs modules complémentaires, elle utilise l‘ontologie lors de la phase d‘indexation sémantique (l‘annotation des entités spatiales) et aussi pendant le géocodage des entités spatiales, enfin, pour valider notre système, nous avons présenté une étude de cas, pour cela, on a collecté un ensemble de documents web sur les accidents routiers, les résultats sont ensuite illustrés sur des cartes géographiques, on a procédé aussi a une évaluation qualitative, on a obtenu un taux de précision de 81%, et un taux rappel de 78%. Il est a noté que notre ontologie STATO et notre système présentent l‘avantage d‘être génériques et adaptables à d‘autres types de recherche. Il suffit simplement d‘utiliser une autre base documentaire correspondante au domaine voulu. C-a-d toute domaine qui peut être géo-localisé (par exemple : les dangers naturels, la surveillance des maladies…etc, ) pour pouvoir exploiter les fonctionnalités offertes par notre système.

76

. Chapitre 4. Extraction d‘information spatio-temporel à partir de documentes textuels Arabes

Sommaire

1. introduction 2. motivation 3. les approches existantes 4. l‘approche proposée 5. évaluation du système 6. conclusion

1. Introduction

Les documents textuels arabes non structurés sont une source importante d'informations géographiques et temporelles. La possibilité de suivre automatiquement l'information spatio-temporelle, de capturer les modifications relatives aux événements à partir de documents textuels, est un nouveau défi dans les domaines de la GIR, de la récupération de l'information temporelle (TIR) et du traitement automatiques des langues naturelles (TALN). Il y a eu beaucoup de recherches sur l'extraction de l'information dans les langues qui utilisent l'alphabet latin, comme l'anglais, l'allemand, le français ou l'espagnol, mais la langue Arabe n'est toujours pas bien prise en charge dans la GIR et TIR. Dans ce chapitre, nous présentons une approche relative à l‘identification, la combinaison et l'extraction automatique d'informations spatio-temporelles à partir des documents textuels web en langue Arabes, afin de capturer et de modéliser ces informations avant qu'elles puissent être utilisées dans les tâches de recherche et d'exploration. Le système a été testé avec succès sur 50 documents qui incluent un mélange de types d'informations spatio-temporelles. Le résultat a atteint 91,01% de rappel et une précision de 80%. Cela illustre que notre approche est efficace et sa performance est satisfaisante.

2. Motivation

Au cours des dernières années, l'extraction et l'exploitation de l'information spatiale et temporelle du texte ont fait l'objet d'une grande attention dans les domaines de la GIR et du TIR et beaucoup de travaux ont été réalisés dans la plupart des langues en utilisant des scripts latins et ils ont donné des performances satisfaisantes. Mais il n'y avait que peu d'approches qui combinent les techniques, les modèles, et les applications de ces deux champs afin de gérer l'information avec des caractéristiques spatiales qui changent au fil du temps, c'est-à-dire l'information spatio-temporelle. En outre, les fonctionnalités de IR traditionnelles prises en charge par les moteurs de recherche d'aujourd'hui, de plus en plus d'outils de recherche et d'exploration ont mis l'accent sur la détection et l'exploitation de différents types d'entités dites nommées dans des documents texte. La reconnaissance de l'entité nommée (NER) est une technique de TALN qui classe les entités nommées définies telles que les organisations, les personnes, l'heure et les emplacements. En conséquence, le besoin Chapitre 4. Extraction d‘information spatio-temporel à partir de documentes textuels Arabes

de techniques pour extraire automatiquement ces entités nommées du texte non structuré est de plus en plus important. La construction d'un système pour extraire des entités nommées en Arabe est une tâche difficile. Étant une langue sémitique, la langue Arabe est bien connue pour sa morphologie complexe. De plus, l'Arabe a un cas orthographique unifié; Il n'a pas de majuscules. À l'inverse, dans la langue Anglaise qui permet des cas mixtes; Certaines entités nommées peuvent être distinguées parce qu'elles sont en majuscules. Il s'agit notamment des noms de personnes, des lieux et des organisations Nous présentons dans ce chapitre une méthode hybride pour l‘extraction des termes et des relations, nous avons d‘abord procédé à l‘extraction de termes simples à l‘aide d‘une approche statistique. A la fin, nous avons établi une liste de termes simples. Pour extraire des termes composés, nous avons utilisé d‘abord une approche linguistique, puis nous avons filtré les résultats avec une approche statistique. L‘information spatiale est définie comme emplacements géographiques, tels que les communes, pays, villes, des noms de rues, adresses résidentielles. L‘espace géographique qu‘on a choisi est l‘Algérie. L‘information temporelle se réfère au خالل temps, comme année, mois, jours, ou quelques heures, des durées tels que ‗‘ 3 des différentes ,‘‘ يٍ 06 جٕاٌ إنى 15 جٌٕهٍخ ’‗ Des intervalles temporels ,’’طُٕاد etc. Pour réaliser cette ,’’ فً انمزٌ انًبضً ‘‗ expressions – temporelles tels que approche, nous suivons une méthode linguistique à base de règles contextuelles écrites à la main. 3. Les approches existantes Le volume, la diversité et l'intensité des données spatiales et temporelles en croissance rapide posent des défis fondamentaux de GIScience, allant de la conceptualisation, de la représentation, du calcul et de la visualisation. Les associations entre différentes sources et documents de données spatiales et temporelles impliquent le développement de nouveaux mécanismes de récupération. Dans cette section, nous examinons certains travaux qui sont étroitement liés à notre travail proposé. Dans la GIR, un objectif clé est de détecter et de capturer des informations basées sur la localisation à partir du texte en langage naturel. De nombreuses études sur l'extraction d'informations géographiques à partir de documents texte ont été proposées et appliquées au cours des années précédentes. (Mani.et al, 2006, Jones, c.b.et al, 2008, Janowicz, k.et al, 2012, Machado et al, 2011). Dans le domaine du TIR, la recherche sur l'extraction de l'entité temporelle dans les langues qui utilisent l'alphabet latin, comme l'anglais, l'allemand, le français ou l'espagnol, utilise des grammaires locales, des automates d'états finis (Li, H., et al. 2009, Koen, d. et al.2000, Llid´o, d., et al, 2001) et des réseaux de neurones (Setzer, A,2001) Pour détecter les entités temporelles. Ces techniques ne fonctionnent pas bien directement pour l'Arabe en raison principalement de la morphologie riche et du taux d'ambiguïté élevé de l'arabe. Cependant, il existe peu d'approches qui considèrent à la fois les techniques de combinaison et d'extraction de l'information temporelle et spatiale, certains travaux réalisés par (B. Martins, 2008) Concentrer sur les flux RSS et extrayez des informations temporelles et géographiques à partir de ces flux. Le travail dans (Jannik Strötgen) a présenté une approche qui combine l'information

79

Chapitre 4. Extraction d‘information spatio-temporel à partir de documentes textuels Arabes temporelle et géographique extraite des documents et enregistrée dans les profils de documents temporels et géographiques. (wei wang et al 2014) a Présenté une méthode pour capturer les modèles spatio-temporels des événements liés aux dangers des textes et suivre les différents types d'événements liés aux perspectives environnementales et humaines au cours de l'espace-temps. Une ontologie basée sur les dangers a été construite pour faciliter le processus d'extraction et de récupération d'informations spatio-temporelles et sémantiques. Au contraire a d'autres langues, la langue Arabe n'est toujours pas bien prise en charge dans GIR et TIR, les recherches en Arabe du TALN tentent continuellement de développer et d'améliorer la reconnaissance des entités nommées en Arabe, certains efforts dans (O'Steen et al 2009) présentent une approche basée sur SVM pour le NER arabe avec Les caractéristiques du langage générique et spécifiques au langage, ce qui entraîne une augmentation de 10 à 30 points du score de F1 par rapport à la ligne de base pour la personne, l'emplacement et l'organisation appelés catégories d'entités. Les auteurs de (shaalan et al.2009) ont développé un nouveau système appelé (NERA)‘‘. Le but de ce système est d'améliorer les règles basées sur l'entité nommée reconnue par l'application de l'apprentissage par machine. Certains travaux sur (Abdulgabbar Mohammad et al.2012, Oudah, M., et al 2012, Zayed, O.H., et al. 2012) ont réalisé une approche basée sur les règles pour l'extraction de relations fonctionnelles explicites et implicites entre les noms de personnes et les organisations pour les entités appelées en arabe. (Elsayed et al.2015) Introduit une méthode pour extraire les entités nommées (NE) des entités de localisation et de drogue et la relation entre ces deux entités du journal de l'arabe égyptien. Aussi quelques outils de traitement automatique de la langue arabe existent, Ces outils abordent les sujets : les analyseurs morphologiques (section 5.3.1), les concordanciers (section 5.3.2) et les racineurs (section 5.3.3) du premier chapitre. Les outils de l'industrie qui extraient les entités temporelles des textes arabes existent (Cohen, S. 2006, Technologies, B. 2010, COLTEC. 2007). Cependant, les techniques sous-jacentes à ces outils n'ont pas encore été révélées et évaluées à l'échelle académique.

4. l’Approche proposée

Dans cette recherche, un prototype système est employé pour l‘extraction automatique d‘informations spatio-temporelles à partir des documents textes écrits en langue Arabe. Notre système inclut plusieurs composants : 1) la création des gazetteers spatiaux et temporels, 2) l‘analyser et la combinaison des références spatio- temporelles des événements, 3) l‘exportation les résultats annotés vers une base de donnés pour le géocodage et la géo-visualisation. Une telle méthodologie doit fournir une approche systématique pour traiter les informations spatiales et temporelles qui correspond aux événements.

Table 4.1 notre méthode choisit Méthode une méthode linguistique

80

Chapitre 4. Extraction d‘information spatio-temporel à partir de documentes textuels Arabes

Textes les documents textes écrits en langue Arabe et des reportages journalistiques disponibles en ligne.

Objet de Toute Information spatiale, et information temporelle (événements) l‘extraction

4.1 l’architecture du système

Figure 4.1. Système d'extraction automatique des informations spatio-temporelles des documents texte

Afin de valider ce système, on a choisi l‘environnement GATE, car il regroupe de nombreux outils de traitement des langages, développés en Java, GATE offrent aussi des outils très variés afin de traiter le plus de problème de linguistique possible.

4.2 Création des gazetteers Arabes : spatial et temporel

Traditionnellement, un gazetteer est considéré comme un dictionnaire qui contient des listes des références géographiques, et qui est utilisé pour l‘extraction des noms des lieux dans un system de recherche d‘information. Les termes et les phrases Géographiques dans les documents textes sont comparés avec les locations du gazetteer, et lorsqu‘un mot ou une phrase dans le texte ressemble à une référence dans le gazetteer, le mot ou la phrase sera annoté comme une information spatiale. Le terme ‗gazetteer‘ dans le TALN est appliqué plus que pour un gazetteer géographique. Dans ce domaine, un gazetteer consiste en un dictionnaire d‘une liste

81

Chapitre 4. Extraction d‘information spatio-temporel à partir de documentes textuels Arabes

des termes ou des phrases spécifiques (exemple : les organisations, les locations, le temps, etc.) qui est utilisé pour correspondre aux informations dans les textes. Dans notre travail, des gazeteers différents stockent plusieurs types de vocabulaire des événements spatio-tmporels trouvés dans les articles.

4.2.1 Création du gazetteer spatial

Le gazetteer par default de GATE supporte l‘extraction des locations Et les dates à partir des documents textes. Mais, la plupart de références régionales sont reliées aux lieus géographiques de UK, ou GATE a était développé. Le répertoire géographique Arabe par défaut de GATE ne couvre pas la géographie de territoire Algérien. Le gazetteer spatial développé pour cette recherche étends le gazetteer par default de GATE par l‘importation des informations géographiques et spatiales de l‘Algérie, et comme il n‘existe pas de répertoire géographique de l‘Algérie en langue Arabe, nous avons collecté les données géographiques à partir de différentes sources, la source principale était GeoNames et STATO. Actuellement notre répertoire spatial inclus presque un millions de toponymes des cités, villages, willayas…etc. Afin de prouver les performances de notre répertoire spatial développé, on l‘a comparé avec le répertoire de GATE, il a détecté 301 d‘information géographiques et locations de 08 documents de test de (El Chorouk-online news, Jazayress), à seulement 30 locations par le répertoire de GATE.

Exemple de reconnaissance d’entités spatiales : ثٕيزداص-أكذد يصبنح انحًبٌخ انًذٍَخ أَّ نى رظجم اٌخ خظبئز يبدٌخ أ ثشزٌخ جزاء انشنشال انذي ضزة ٌٕو .انظجذ جُٕة شزق سيٕري ثٕالٌخ ثٕيزداص ٔنى ٌحذس انشنشال اٌخ خظبئز ثًُبطك ثزط يُبٌم ٔ طً يصطفى انغٍز ثعٍذح عٍ يزكش انٓشح حٍش ظم اصحبة انًحالد ٔانًمبًْ ًٌبرطٌٕ َشبطٓى

4.2.2 Création du gazetteer temporel

Comme pour le spatial, on a créé un gazetteer temporel pour compléter le répertoire par défaut de GATE, pour notre étude on s‘intéresse a extraire l‘information لجم temporelle soit explicite ou implicite, par exemple : les expressions (Il y a un an ,(فً ٔلذ يزأخز يٍ نٍهخ االصٍٍُ) tôt le matin ou tard lundi soir , (فً ألزة ٔلذ or (dès que (طُخ Ce qui a offert un traitement temporel de 350 références supplémentaires, pour étendre les capacités d'annotations temporelles.

Exemple de reconnaissance d’entités de type temporelle : طُخ كبيهخ يزد عهى فٍضبَبد ثبة انٕادي. آصبر انكبرصخ يحزٓب عًهٍبد انززحٍم انزً ي ّظذ انًزضزرٌٍ ٔانضحبٌب. “األطالل” انزً خهّفزٓب انظٍٕل أسٌهذ. ُسٌُّذ ٔاجٓخ انحً، ٔأطفبل األيض أصجحٕا شجبثب، ٔال شًء .ٌُذ ّكز ثأٌ انًكبٌ شٓذ “يأطبح” ٌٕيب

Dans notre travail, nous nous intéressons à l‘étiquetage des dates, des durées, des différentes expressions temporelles. Cela permettra ultérieurement d‘associer une information temporelle à la relation extraite. Pour l‘achèvement de cette tâche, nous

82

Chapitre 4. Extraction d‘information spatio-temporel à partir de documentes textuels Arabes faisons appel aux expressions régulières ainsi qu‘à des règles d‘explorations contextuelles.

 Détection des dates Les dates peuvent apparaître sous une :

- une forme numériques (1990/01/15,1990-01-15, … etc) ; ; (15 جبَفً une forme mixte (1990 - ( خًظخ عشز جبَفً أنف ٔ رظعخ يئخ ٔ رظعٌٕ(seulement de mots- ; ( فً يبي, 5 يبرص) les dates non absolues - ; (فً 05 جٌٕهٍخ les dates absolues (2009 -

 Détection des durées (خالل 3 طُٕاد) Des durées quelconques - (يٍ 06 جٕاٌ إنى 15 جٌٕهٍخ) Des intervalles temporels - (اَطاللب يٍ 05 جٌٕهٍخ) Des durées absolues - (يُذ عبو) Des durées relatives au moment d‘élocution -

 Détection des expressions temporelles - Ce sont des expressions qui regroupent : par exemple : ; (فً انمزٌ انًبضً،األطجٕع انفبرط،فً ثذاٌخ انظُخ) Des dates relatives, de forme particulière - En traitant ces différents types d‘informations temporelles, on a trouvé quelques anomalies, un exemple est montré dans le tableau 4.2

Table 4.2 anomalies trouvées

Cas Exemple Un simple numéro de 4 chiffres est 2056 annoté comme une année 23 ظٕاٌ 2015 Seul le suffixe est annoté

75 ظاَفً 2019 Erreur en la date

30 افشٌم 2012 Partielment annoté

Nous avons trouvé la solution en utilisant un algorithme développé de plusieurs règles JAPE, l‘exécution permet de récupérer séparément les différents composants de la date (année, mois et jour) et puis, restaurer la date complète dans un format standard et l'ajouter au type d'annotation "Date". Comme le montre le tableau 4.3:

Table 4.3. Date avant et après la normalisation

83

Chapitre 4. Extraction d‘information spatio-temporel à partir de documentes textuels Arabes

4.3 Le corpus Un corpus est un ensemble de textes homogènes, présentés sous un format brut ou semi-structuré. Le corpus doit être soigneusement choisi en fonction du domaine et de l'application visée. La taille des corpus et la masse d'informations contenues impliquent l'utilisation d'outils de terminologie textuelle spécifiques. On a constitué On a .انخجز et El-Khabar انشزٔق notre corpus a partir des sites web El-Chorouk téléchargé un groupe de 70 articles.

4.4 Traitement du texte

4.4.1 La segmentation La segmentation est une étape quasiment obligatoire avant l‘extraction d'information. Elle permet de découper le texte en unités linguistiques suffisamment élémentaires pour qu‘elles soient traitées. C‘est une étape qui permet de découper un texte d‘abord en section puis en phrase et enfin en mots. Exemple :

Sera segmenté comme suit:

4.4.2. L’étiqueteur : permet l‘identification de la catégorie grammaticale (nom, verbe, adjectif, particule…) de chaque mot. Un texte étiqueté ressemblera grossièrement à ceci :

4.4.3 Le concordancier C‘est un programme qui, pour un mot donné, recherche dans un texte toutes ses concordances, c'est-à-dire les phrases ou les groupes de mots dans lesquels il apparaît. La concordance finale arabe tourne autours du trio : unité lexicale, position et analyse morphologique. L‘outil prend en entrée un texte ou un ensemble de textes. Il permet : • La construction de listes de fréquences d‘items, de racines ou tout autre trait de l‘analyse morphosyntaxique, par ordre alphabétique ou par ordre fréquentiel. • La construction d‘une concordance, La consultation de la concordance peut se faire par item, par la racine, par la base ou par analyse morpho-syntaxique. Le concordancier est très utilisé dans la recherche d‘information. 4.4.4. L’analyseur morphologique Dans notre travail, Nous avons utilisé l'analyseur morphologique Arabe standard SAMA, définit dans le premier chapitre en (section 5.3.1) 4.4.5. La base de règles elle contient tout les règles et algorithmes développées en java.

84

Chapitre 4. Extraction d‘information spatio-temporel à partir de documentes textuels Arabes

Figure 4.2. Exemple d'extraction automatique des informations spatio-temporelles d’un documents textuels

4.5. Extraction et combinaison des informations spatio-temporelles

4.5.1 types d’information à extraire

Pour extraire et combiner des informations spatiales et temporelles, un modèle est nécessaire qui définit précisément ces informations dans les documents (ou plutôt les expressions textuelles correspondants) et la façon de les combiner. Notre modèle est basé sur la nature des expressions textuelles et comment les conditions spatiales et temporelles sont présentées dans ces phrases. Pour cela, 04 cas sont déduits dans le tableau 4.4. Cependant, non chaque phrase contient des informations spatiales et temporelles. Nous avons traité quatre 04 cas possibles pouvant survenir en ce qui concerne l'information spatio-temporelle dans une phrase. Une phrase contient :

1. Un terme spatial et un terme temporel. 2. Un terme spatial et multiples termes temporels 3. Multiples terme spatiaux et un terme temporel

85

Chapitre 4. Extraction d‘information spatio-temporel à partir de documentes textuels Arabes

4. Multiples terme spatiaux et multiples terme temporels

Table4.4. Extraction de l'information spatiale et temporelle. Cas Examples

.طُخ كبيهخ يزد عهى فٍضبَبد ثبة انٕادي un terme spatial et un terme Une année complète est passée après les temporel; inondations de Bab-el-Oued

اجزٌذ انًجبراح فً يهعت شبكز عهى انظبعخ 2 ٔانذلٍمخ un terme spatial et multiple termes انعشزٌٔ ;temporels

Le match a eu lieu au Stade Shaker à 2 heures et vingt minutes.

أكذد يصبنح انحًبٌخ انًذٍَخ أَّ نى رظجم اٌخ خظبئز يبدٌخ Multiple terme spatial et une أ ثشزٌخ جزاء انشنشال انذي ضزة انظجذ جُٕة شزق ;référence temporelle سيٕري ةٔالٌخ ثٕيزداص

Les services de la protection civile ont confirmé qu'il n'y a pas eu de pertes matérielles ou des blessures causées par le tremblement de terre qui a frappé samedi au sud-est de Boumerdès Zemmouri

اَذنعذ انضٕرح انجشائزٌخ ٌٕو 01/َٕفًجز 1945 عهى انظبعخ multiple termes spatiaux et multiple .00.00طب.فً ججبل االٔراص ة ثبرُخ ;termes temporels

La révolution algérienne est déclenchée le 01 Novembre 1954 à 00: 00h sur les montagnes El-Aouress dans la ville de Batna.

4.5.2. Algorithme

Pour combiner des informations spatiales et temporelles extraites des documents textuels, un modèle est nécessaire qui définit et combine avec précision les informations spatiales et les informations temporelles dans les documents. Notre modèle utilise l‘algorithme suivant :

Algorithme 1: Extraction d’information spatio-temporelle à partir des textes Arabes

86

Chapitre 4. Extraction d‘information spatio-temporel à partir de documentes textuels Arabes

1: Input : document D, phrase E, terme spatial S, terme temporel T 2: Output : combine S, T : combinaison de références (spatiales, temporelles) 3: Begin 4: parcourir D, Lisez les mots w du texte 5 : Pour chaque phrase E en D faire 6 : Si un S et un T dans E alors 7 : Combiner (S, T) 8 : Si un S et plusieurs T dans E alors 9 : Combiner (S, T1), Combiner (S, T2), Combiner (S, T3) ... 10: Si plusieurs S et un T dans E alors 11 : Combinez (S1, T), Combinez (S2, T), Combinez (S3, T) ... 12 : Si plusieurs S et plusieurs T dans E 13: puis 14 : Vérifiez le contexte gauche et droit de S 15 : S'il y a une virgule alors 16 : Affecte S1 à T, Combinez (S1, T) 17 : Sinon, passez à S2 ... 18 : Fin

Dans la section suivante, nous présentons quelques résultats des expériences préliminaires en utilisant notre approche.

5. Évaluation du système

Cette section décrit les expériences préliminaires qui ont été entreprises pour confirmer l'efficacité de notre système. Comme expérience préliminaire, nous avons choisi les textes des journaux. En tant que corpus d'évaluation, nous avons organisé et 11انشزٔق environ 70 articles de nouvelles extraits du site de télévision Al-chorouk et puis on a comparé les résultats à une version manuellement traitée انخجزal-khaba[ 12 du texte. Afin d'évaluer les résultats, nous avons utilisé des mesures de rappel et de précision comme mesure d'évaluation. La précision de détection fait référence à la fraction des entités spatio-temporelles correctement Détecté contre le nombre total de références spatio-temporelles que le système tente de résoudre. Le rappel de détection se réfère à la fraction des entités spatio-temporelles détectées correctement par rapport au nombre total de toutes les références spatio-temporelles. Le tableau 4.5 ci-dessous montre les résultats obtenus.

Table 4.5 Annotation automatique VS manuelle Les références spatio-temporelles= 123 Manuel Auto correctes 105 99

incorrectes 06 10

11 http://tv.echoroukonline.com/ 12 http://www.elkhabar.com/

87

Chapitre 4. Extraction d‘information spatio-temporel à partir de documentes textuels Arabes

Manquées 08 03

A partir du table 4.5, nous pouvons voir que pour toutes les 123 références spatio- temporelles, les résultats obtenus par la version manuelle humaine sont: 105 références correctes, 06 références incorrectes et 08 références manquées, contre 99 références correctes 10 références incorrectes et 03 Les références manquées effectuées par le système, en fonction de ces résultats, nous calculons le rappel et la précision, comme le montre le tableau 4.6.

Table 4.6 les taux de précision des 04 cas Cas des références spatio-temporelles Précision

Une spatiale/ une temporelle 0.94

Une spatiale/plusieurs temporelle 0.89

Multiples spatiales/ une temporelle 0.79

Multiple spatiales/multiples temporelles 0.8

Figure 4.3. Illustrations des taux de précisions pour les 04 cas

A partir de cette comparaison, on peut déduire que notre système est en concurrence avec les systèmes de pointe en utilisant la nouvelle approche introduite en termes de précision et de rappel.

6. Conclusion

Dans cet article, nous avons présenté notre système d‘extraction automatiquement des informations spatio-temporelles à partir des documents textuels arabes en utilisant la

88

Chapitre 4. Extraction d‘information spatio-temporel à partir de documentes textuels Arabes fusion des techniques TALN, GIR et TIR. Notre système a traité le problème d‘extraction de termes simples et composés. De plus, Notre système gère l‘extraction de toutes sorte d‘information spatiales et temporelles soient explicitement et/ou implicitement exprimé. Plusieurs phases ont été utilisées pour développer notre système : la création des gazetteers spatiaux et temporels arabe, L‘utilisation de l'analyseur morphologique arabe SAMA et un concordancier, et le développement de bibliothèque de règles qui se compose d'un ensemble de règles grammaticales et d‘algorithmes. Nous avons fait des expériences préliminaires qui montrent l'amélioration de la possibilité d'obtenir l'information attendue dans les résultats renvoyés lors de l'utilisation de notre approche. Nous avons obtenu comme performance. 0,91% Rappel, et 0,80% de précision, en comparaison avec d'autres travaux connexes, nous pouvons dire que notre approche est efficace et sa performance est satisfaisante.

89

.

Chapitre 05. Extraction d’information spatio-temporelle à partir des Tweets Arabes

Sommaire

1. Introduction 2. Motivation 3. Les approches existantes 4. L‘approche proposée 5. Evaluation du système 6. Conclusion

1. Introduction

Récemment, Twitter comme un des réseaux sociaux a été considéré comme une source riche d'informations spatio-temporelles et un revenu important pour le data-mining. La détection des événements à partir de tweets peut aider à prédire des événements plus sérieux du monde réel. Tels que: les événements criminels, les dangers naturels et la propagation des épidémies. …etc. Ce chapitre traite l'extraction événementielle pour les incidents criminels à partir de tweets Arabes. Il présente un système qui soutient l'extraction automatisée de l'information spatiale et temporelle à partir des tweets. L'approche proposée est basée sur la combinaison de différents indicateurs, y compris les noms des lieux et les expressions temporelles qui apparaissent dans le message tweet, le temps d‘envoi connexe et les emplacements supplémentaires du profil de l'utilisateur. L'efficacité de notre système a été évaluée en termes de rappel, de précision et de f-mesure. 2. Motivation Au cours des dernières années, microblogging, comme une forme de médias sociaux, a rapidement augmenté l'attention du grand public en tant que mécanisme de diffusion de nouvelles, expression des opinions et promouvoir les contacts entre les personnes. L'objectif est de rendre l'information largement partagée par les scientifiques, mieux utilisés par les professionnels et bien compris par le public. Ce chapitre présente notre troisième contribution qui est une perspective de notre contribution présentée dans le chapitre 4, cette fois ci on a choisi d‘étendre et d‘appliquer notre approche d‘extraction d‘information spatio-temporelle sur les réseaux sociaux, pour cela on a choisi le réseau social : twitter. Aujourd'hui, Twitter est devenu l'un des principaux services de réseaux sociaux répandus et micro-blogging, il permet de 140 caractères maximum pour chaque tweet et permet à plus de 250 millions d'utilisateurs de partager des événements en temps réel qui se passe partout dans le monde chaque jour (Ozidkis, et al, 2013), un des avantages les plus significatifs de Twitter est le transfert rapide de l'information via l'Internet (Lau, 2014). Les résultats de la recherche indiquent que la propagation de nouvelles est souvent affiché sur Twitter premièrement avant d'être diffusées par les médias publics, d'autres avantages importants de Twitter est qu'il est accessible en temps réel et permet la détection des événements en temps réel. Les tweets peuvent être utilisés pour extraire non seulement des informations temporelles, mais aussi pour géo-localiser un incidents en temps réel. Environ 1% de tous les tweets ont des

91

Chapitre 05. Extraction d’information spatio-temporelle à partir des Tweets Arabes coordonnées GPS et ils sont expressément géo-tagué. A ce fait, (Schulz, Hadjakos & Paulheim 2013) ont résumé certaines études qui ont abordé ce défi de géo-localisation des utilisateurs de Twitter ou des Tweets. Ces données spatiales et temporelles dans les Tweets sont utiles pour la détection de motif d'événement et les requêtes spatio-temporelles. Dans notre travail, on a choisi de traiter les événements criminels, Il est connu que la diffusion de l'information est un axe clé dans la prévention des événements criminels et d‘actes terroristes. Le but de ce chapitre est donc d'identifier et d'extraire automatiquement les informations criminelles liées à des événements spatiaux et temporels de tweets. Les rapports ont indiqué que la langue Arabe est une des langues les plus dynamiques avec une croissance de 2000% en 12 mois dans l'histoire de Twitter. La tâche principale abordée dans ce travail est la possibilité de développer des algorithmes pour détecter et extraire les événements criminels et de tester l'applicabilité de ces algorithmes au contenu Arabe publié sur Twitter. En outre, les utilisateurs de micro-blogging et les sites de réseaux sociaux utilisent souvent les dialectes vernaculaires. Ces dialectes peuvent différer entre les pays Arabes dans l'orthographe, le vocabulaire et la morphologie de la norme Arabe qui rend le traitement du langage tâche plus difficile. La contribution présentée dans le présent document se compose sur les points suivants:  La détermination de la relation entre les activités et les événements Twitter.  Soutenir la découverte de l'information qui est explicitement et implicitement décrite dans les textes de tweets.  La capacité de détecter des événements criminels à un endroit donné pour un moment donné, par l'identification de l'information spatio-temporelle dans les tweets.  En utilisant la langue Arabe. Le système traite une tâche difficile dans le traitement du langage des tweets.  Notre approche peut estimer le temps le plus tôt et les régions les plus touchées en relation avec les différents événements criminels.  Enfin, l'approche proposée est validée quantitativement et qualitativement pour prouver son efficacité.

3. les approches existantes La recherche sur la détection des informations à partir de Twitter augmente rapidement. Les auteurs en (Sugitani, Shirakawa & Hara, 2013) ont développé une approche pour la détection d'événements en fonction de leur configuration spatio-temporelle. Dans cette étude, les événements locaux, indépendamment du type et de la taille, ont été identifiés en utilisant des techniques de regroupement spatio-temporelles. Une autre étude menée par (Schulz, Hadjakos & Paulheim, 2013) a proposé le premier modèle multi-indicateur pour déterminer l'emplacement de la résidence de l'utilisateur ainsi que l'emplacement où un Tweet a été envoyé. La méthode est basée sur trois types d'indicateurs, y compris les toponymes dans le texte de Tweet, les localisations, et les informations du profil utilisateur. Les thèmes de recherche généraux basés sur la détection d'événements Twitter comprennent la gestion du trafic, l'analyse des sentiments, l'estimation de la prévalence des maladies, la

92

Chapitre 05. Extraction d’information spatio-temporelle à partir des Tweets Arabes détection des risques naturels, etc. L'idée d'utiliser Twitter comme source valable d'information géographique est de plus en plus étudié. De nombreuses études ont porté sur la détection de dangers naturels, les auteurs (Sakaki, Okazaki et Matsuo, 2010) ont tenté de détecter les endroits du tremblement de terre au Japon en temps réel à partir des messages Twitter. Un modèle spatio-temporel probabiliste a été développé. Tout d'abord, les auteurs classent les tweets basés sur des caractéristiques telles que les mots-clés: tremblement de terre. Ensuite, ils ont essayé d'estimer le centre et la trajectoire de l'emplacement de l'événement en utilisant des filtres bayésiens, tels que Kalman et les filtres à particules. Une autre étude (Crooks et al, 2013.) Visant à la détection des événements géographiques pertinents; ils ont procédé en analysant le contenu des tweets, et en tenant compte de chaque utilisateur Twitter comme un capteur mobile. A côté de la détection des événements géographiques, Twitter a été un sujet d'étude pour l'exploitation d'opinion. A titre d'exemples, les auteurs (Tumasjan, Sprenger & Sandner, 2010) ont fait une étude en utilisant le contenu Twitter comme un indicateur précieux du paysage politique pendant les périodes électorales. Des chercheurs (Hazmi et al., 2015) ont présenté une approche pour identifier le sujet de l'opinion exprimée à partir de tweets écrient en langue Arabe. Afin d'améliorer la surveillance de la grippe, les auteurs (Dredze et al., 2013) ont proposé un système pour obtenir des informations de localisation structuré de Twitter. Pour une utilisation dans la gestion du trafic, certaines études ont discuté la valeur des données de Twitter en temps réel, en (Daly, Lecue & Bicer, 2013) les auteurs ont développé une application appelé Dub-STAR (Semantic Traffic Annotator de Dublin et Reasoner) qui combine à la fois des données sources de la ville et les données dynamiques provenant de médias sociaux afin de fournir des explications en temps réel sur les conditions de circulation. Dans (Mai & Hranac, 2013) les auteurs ont évalué l'utilisation des données à partir des interactions sociales publiques sur Twitter comme un complément possible aux données de la circulation. La majorité de ces études ont été testés sur des Textes Anglais. En outre, dans la littérature, les systèmes qui traitent les tweets en langue Arabe sont rares. L'attention de la RI sur l'Arabe est considérablement limitée par rapport à ce qui se fait dans d'autres langues. La plupart des travaux sont axés sur la classification de texte, les techniques utilisées pour le prétraitement de la langue comme la traduction, le filtrage, et les outils d'indexation. 4. L’approche proposée Twitter est une importante plate-forme de communication dans les événements récents, y compris le printemps arabe 2011 (Campbell, 2011), et plusieurs campagnes politiques… etc. Cette recherche est intéressée par la détection des événements criminels, en se basant sur les données spatio-temporelles présentes sur Twitter. Un événement criminel est défini comme l'utilisation prévue de la violence contre les personnes en vue d'atteindre des objectifs idéologiques, politiques ou religieuses. La méthode présentée est basée principalement sur la détection, l‘identification, puis l'extraction et la combinaison automatique de l'information spatiale et temporelle à partir de tweets arabes. Dans ce travail, l'extraction de l'information est mise en œuvre dans un environnement Java avec GATE. Il y a un ensemble de ressources de traitement réutilisables fournis avec GATE, qui forme un système d'information appelé ANNIE (A Presque - New IE système). 4.1. Les indicateurs spatiaux et temporels dans les Tweets

93

Chapitre 05. Extraction d’information spatio-temporelle à partir des Tweets Arabes

4.1.1 Les indicateurs spatiaux Les indicateurs spatiaux sont des morceaux d'informations qui nous aident à localiser un tweet, de nombreux indicateurs spatiaux peuvent faire partie d'un tweet comme: l‘emplacement dans le profil, liens de site Web, les coordonnées GPS attachées déterminées par des dispositifs mobiles, les emplacements exprimés dans le texte de tweet,… etc. Ce travail, estime que l'information spatiale est : (1) location sur le profil, (2) les endroits dans le texte de tweet. -Localisation sur le Profil : Les utilisateurs de Twitter peuvent maintenir un profil privé où ils ajoutent plusieurs informations de leurs tweets, entre ces informations, un champ d'emplacement où ils peuvent indiquer leur emplacement(s) est disponible, la première étude en profondeur du champ de localisation était dans (Hecht et al., 2011) où les auteurs ont montré que seulement 66% de l'information saisie dans le champ de localisation ont une information géographique valide, le reste des utilisateurs soit ils laissent l'emplacement du profil vierge ou ils entrent des informations non géographique. -Localisation dans le Texte du Tweet: Le texte de tweet est un message limité à seulement 140 caractères, en raison de cette limite dans la longueur du texte, les utilisateurs doivent communiquer leurs messages avec autant de brièveté que possible, ils créent des abréviations, des mots nouveaux, un dialecte spécial… etc. L'extraction d'informations spatiales à partir du message de tweet est une tâche difficile parce que l'information spatiale est ambiguë, les utilisateurs utilisent souvent des surnoms et des abréviations plutôt que l'utilisation du nom propre des lieux. Cela rend le message plus difficile à mener pour information, en raison de son manque de standardisation 4.1.2. Les indicateurs temporels -le temps dans le message: Comme l'information spatiale, l'information temporelle peut également être exprimée dans le texte de tweet, les informations temporelles peuvent être explicites telles que (jours, mois, années ... etc.) ou implicites intégrées au texte, par exemple: cinq ans ou quatre mois, et certains sont vagues, Comme: hier le matin. Cela rend l'extraction de l'information temporelle un processus non trivial qui implique le développement de nouveaux mécanismes d'extraction. -Timestamp: L'horodatage (Timestamp , tweeting time) ou temps de tweet est le moment où l'utilisateur publie un tweet. Dans notre travail, nous considérons l'horodatage pour nous aider à trouver l'information temporelle précise. 4.2. L’architecture du système Cette section présente en détail notre système. L'approche proposée construit un modèle pour explorer automatiquement des entités qui indiquent tout type d'occurrence spatiale et temporelle dans les tweets. Le système proposé se compose de plusieurs phases, comme le montre la figure 5.1.

94

Chapitre 05. Extraction d’information spatio-temporelle à partir des Tweets Arabes

Figure5.1. Architecture du Système.

- la phase de préparation: les informations sont collectées à partir de Twitter. - la phase de prétraitement: les tweets sont rassemblés et les filtres sont appliqués, -la phase d'analyse: consiste à traiter le texte du tweet en appliquant de nombreuses technologies TALN, et trois gazetteers ont été créés (événement, spatial et temporel) Contribuant aux étapes d'appariement du texte. La dernière étape consiste à extraire l'information spatio-temporelle en exécutant un ensemble d'Algorithmes développés et implémentés en Java. Ces phases sont décrites en profondeur, dans les sous-sections suivantes. 4.2.1. L'acquisition des données Les tweets sont obtenus à partir du serveur Twitter, en appliquant l'API de diffusion de Twitter13 , nous avons collecté environ un million (952859) de tweets Arabes entre les dates du 26 aout 2013 et 1er juin 2015. Comme notre objectif est de surveiller et de détecter les événements criminels, nous avons collecté des tweets en fonction d'un ensemble de mots-clés, aussi nous avons utilisé les Hashtags dans le processus de collecte de données. Tous les

13 https://dev.twitter.com/docs/api/streaming

95

Chapitre 05. Extraction d’information spatio-temporelle à partir des Tweets Arabes tweets postés par les agences de nouvelles ont également été collectés. Ensuite, les tweets sont stockés dans une base de données. 4.2.2 Prétraitement et normalisation Après avoir rassemblé des tweets, il est temps d'éliminer autant de bruit que possible de ces tweets. L'objectif de l'étape de prétraitement est de représenter les données sous une forme qui peut être analysée et d'améliorer la qualité des données en réduisant la quantité de bruit trivial. Pour cela, une procédure de filtrage a été appliquée pour supprimer les tweets qui n'étaient pas en Arabe. Un tweet n'est pas considéré en Arabe s'il contient moins de 45% de mots Arabes. De tous les tweets, seulement 41120 ont été sélectionnés au hasard. De plus, une mesure d'élimination du bruit est prise dans l‘analyse géographique, elle consiste à exclure les informations non géographiques des profils des utilisateurs. Pour le prétraitement des tweets, nous avons d'abord traité en supprimant le retweet: RT et toutes les mentions et les liens URL du tweet. Ensuite, supprimez les espaces avant et arrière, les caractères non alphabétiques tels que: : \ | * -, et les sauts de ligne, cette étape consiste à conserver uniquement les alphabets Arabes, les signes de ponctuation et les chiffres. Le tableau 5.1 montre un exemple d'un tweet et les résultats après la phase de prétraitement.

Table5.1. Résultats de prétraitement d’un tweet. Utilisateur @JournalAlgerien Journaux Algériens @JournalAlgerien NEWS#أخثاس RT# عهطاخ ٔالٌح إنٍضي : ذى انٍٕو األؼذ فشاس ػ 30ايال ظضائشٌا * يٍ انؽًرعضٌٍ ثزٍمُزٕرٌٍ ...... إٌ أيٍُبص) Tweet Original http://www.radioalgerie.dz/ar/2010-10-27-07-53-05/20023-2013-01- 17-09-30-05 …

عهطاخ ٔالٌح إٌهٍضي : ذى انٍٕو األؼذ فشاس ػ 30ايال ظضائشٌا * يٍ انؽًرعضٌٍ ثزٍمُزٕرٌٍ Pretreatment ...... إٌ أيٍُبص) de Tweet عهطاخ ٔالٌح إٌهٍضي ذى انٍٕو األؼذ فشاس ػ 30ايال ظضائشٌا يٍ انؽًرعضٌٍ ثزٍمُزٕرٌٍ إٌ أيٍُبص

Dans le tweet original, nous voyons qu'il contient des mentions (Journaux Algériens), (@JournalAlgerien), (#NEWS) et (RT). La première étape du prétraitement supprime le retweet et les mentions. La deuxième étape consiste à supprimer l'alphabet non Arabe, et finalement, nous annulons les points de départ (...) et le non alphabétique (*) (().

4.2.2.1 l’analyse du texte: Nous pouvons distinguer deux types d'approches existantes dans la littérature, les approches qui sont principalement basées sur la TALN qui n'utilisent pas d'informations externes, et d'autres basées sur les gazetteers. Dans notre approche, la phase d'analyse se compose des deux parties, de la création de gazetteer et de l'application de techniques TALN, notre méthode est novatrice dans plusieurs aspects par rapport aux travaux connexes. À notre

96

Chapitre 05. Extraction d’information spatio-temporelle à partir des Tweets Arabes connaissance, c'est la première approche utilisant des indicateurs spatiaux et temporels multiples pour extraire l'information spatio-temporelle des tweets en langue arabe.

4.2.2.2. Utilisation des gazetteers: Le principal moteur d'extraction d'informations utilise trois types de gazetteer différents. Traditionnellement, un gazetteer est considéré comme un dictionnaire contenant des listes de références géographiques (Goodchild & Hill, 2008) et sert à extraire des noms de lieux dans des systèmes de récupération d'informations. Les listes des gazetteers géographiques sont des fichiers textes simples avec une entrée par ligne, chaque liste représente un ensemble de noms tels que les noms des emplacements, les villes…etc. Ce type de gazetteer est construit manuellement. 4.2.2.2.1.- le gazetteer spatial La place est un concept de base dans la vie quotidienne et reflète la façon dont les humains comprennent leur environnement. Il existe de nombreuses applications pour lesquelles l'information spatiale extraite et normalisée est cruciale. Les auteurs (Lieberman et al., 2007) décrivent un moteur de recherche textuel spatial appelé STEWARD, qui traite des documents non structurés, extrait des informations spatiales et ajoute une orientation géographique aux documents, qui est ensuite utilisé pour visualiser les documents sur une carte. Beaucoup de gazetteers géographiques sont actuellement disponibles sur le Web. L'un des plus importants est l'ADL 14 (Alexandria Digital Library Gazetteer) avec environ 4,4 millions d'entrées. Geonames (http://www.geonames.org), contient plus de 10 millions de noms géographiques et se compose de plus de 9 millions de caractéristiques uniques. Quelques travaux (Popescu et al., 2008; Toral et al 2006; Uryupina, et al., 2003) présentent des propositions pour le peuplement et le maintien automatique des gazetteers. En fait, les Gazetteers sont des dictionnaires de noms de lieux géo référencés et jouent un rôle important dans la GIR. Trois attributs sont essentiels pour tout enregistrement dans un gazetteer: le nom de l'endroit, son empreinte (emplacement spatial) et son type. Avec ces attributs, un descripteur peut répondre à au moins deux requêtes basiques: trouver un lieu donné son nom et trouver des noms associés à un endroit donné. 4.2.2.2.2-Gazetteer géographique temporel La recherche sur l'extraction de l'information temporelle concerne l'identification des entités temporelles et des expressions et des relations entre elles. Un exemple de tagger temporel pour l'extraction et la normalisation des expressions temporelles est GUTime15, qui utilise le TimeML, Timex3 standard pour l'annotation temporelle d‘expressions. GUTime étend le tagger TempEx qui utilise la norme ACE Timex2 pour la normalisation et la reconnaissance des expressions temporelles (Pustejovsky et al., 2003). L'extraction Arabe des entités temporelles est une tâche difficile en raison de la morphologie de la langue Arabe et de la manière dont les entités temporelles sont exprimées. Le texte écrit par l'homme ne correspond pas spécifiquement aux expressions de la date, certaines entités représentent un temps absolu août 2010), certaines entités représentent un temps relatif tel 05 )05 أغغطظ tel que: 2010 après une semaine). Nous avons créé un descripteur temporel arabe pour) تؼذ أعثىٔع :que

14 http://www.alexandria.ucsb.edu/gazetteer 15 http://www.timeml.org/site/tarsqi/ modules / gui / index.html

97

Chapitre 05. Extraction d’information spatio-temporelle à partir des Tweets Arabes compléter le gazetteer par défaut de GATE, cela fournit un traitement temporel de 350 نٍهح انغثد aujourd'hui matin) ou) صثاغ انٍى ٔو références supplémentaires, comme .samedi soir) pour étendre les capacités d'annotation temporelle) انًاضٍح

4.2.2.2.3 Gazetteer des événements criminels Comme le gazetteer spatial et temporel, un gazetteer basé sur les événements criminels a été développé. Pour créer ce gazetteer, des mots, des données corpus et des expressions liées au murderer), (kidnaps لرم(، )ض س واا domaine criminel ont été collectées, par exemple (Crimes Actes de hooliganisme), etc. Les données du corpus ont été obtenues أػًال انشغة et (اخرطاف' depuis différentes sources, telles que, les dictionnaires des termes terroristes, les agences de force… etc.

4.2.3. Le clustering des tweets: Cette étape vise à rassembler des tweets en clusters (des classes) afin de faciliter la détection des modèles liés aux événements. Dans notre travail, il consiste à définir des événements criminels. Pour cela, nous avons utilisé l'algorithme de regroupement décrit dans la case 1. . Algorithme 2 ; The clustering Algorithm.

1: Input: g groupe de documents (D1,…,Dg), Limite L , the centroid similarity function C 2: Output: n clusters (n1,…,nk) 3: For L= value, do 4: For each cluster n do 5: For (i=1)&(j=1) do 6: calculer C(Di , nj ) 7: If C(Di , nj) ≥ L then: 8: Affecter Di à new cluster n 9: C(Di , nj) = Di 10: Else 11: IF E(Di , nj) < L then: 12: Affecter C(Di , nj) à n ( max C(Di ,nj)) 13: inclure Di in n j 14: Recalculer E (nj). 15: End if 16: End if 17: End for 18:End for 19:End for 20:End

4.2.4. Application de TALN:

Techniquement, l'utilisation de TALN est l'approche la plus commune pour extraire des informations à partir du texte, pour marquer le contenu du tweet (texte), nous procédons à l'événement en utilisant des outils TALN et NER pour extraire des contenus géographiques

98

Chapitre 05. Extraction d’information spatio-temporelle à partir des Tweets Arabes tels que: les lieux, les noms de rue, les repères…etc. Et le contenu temporel tel que: date, périodes. Etc. Les ressources de traitement de la langue Arabe que nous avons utilisées sont: le diviseur de phrases, l‘étiqueteur Arabe qui segmente un tweet en des entités nommées simples tels que des nombres et des mots de différents types. Nous avons également utilisé le ‗‘Stanford Arabic tagger ‗‘ pour marquer par un label (tag) les mots de texte.

4.2.5 Extraction spatio-temporelle de l'information:

4.2.5.1. Informations spatiales

Pour les tweets géo-localisés, nous estimons l'emplacement en utilisant à la fois les indicateurs spatiaux exprimés dans le texte du message et la localisation dans le champ de profil. Dans cette section, nous discutons de la façon dont les indicateurs spatiaux sont extraits et combinés. Comme nous l'avons mentionné ci-dessus, généralement un ou plusieurs indicateurs spatiaux peuvent être extraits depuis un seul tweet. Dans le cas où l'indicateur spatial n'existe que dans le contenu du texte, par exemple, le message: اغزٍبل 28 شخصب عهى خهفٍخ أحذاس غرداٌخ Assassinat de 28 personnes sur le fond des événements à Ghardaia,

Nous affectons l'indicateur spatial dans le message à l'événement criminel correspondant. .(ghardaia) غرداٌخ Assassinat de 28 personnes) est affecté à) اغزٍبل 28 شخصب ,Dans cet exemple Pour le deuxième cas où plusieurs indicateurs spatiaux existent en un seul tweet, nous avons choisi l'indicateur spatial dans le message pour toujours être le candidat. Dans le cas où les indicateurs spatiaux dans le message et du profil sont contradictoires et l'indicateur spatial dans le message est inclus dans l'emplacement exprimé dans le profil de l'utilisateur, nous combinons d'emplacement du profil avec l'information spatiale dans le message pour assigner l'événement. Par exemple, considérons le message tweet:

Un meurtre a eu lieu à EL-kasba,

لظُطٍُـــخ Constantine), les deux emplacements) لظُطٍُـــخ et l'emplacement du profil était AL-kasba) sont annotés comme indicateurs spatiaux. Il y a beaucoup) انمصجخ Constantine) et) El-kasba) en Algérie. L'emplacement du profil de) انمصثح de noms d'endroits référés à l'endroit l'utilisateur peut être utilisé comme référence pour distinguer l'endroit exact que les autres .(لظُطٍُـــخ. انمصجخ) endroits. En combinant les indicateurs spatiaux, l'emplacement géographique Notre algorithme développé à cet effet est décrit dans la case 1.

Algorithme.3. The spatial information extraction Algorithm.

1:Input: tweet T ( location in text Tspatial, profile location Sprofile) 2: Output: final location location. 3:Begin : 4: Parse and process T, 5: if only Tspatial in T then 6: affecter Tspatial à location 7: end if

99

Chapitre 05. Extraction d’information spatio-temporelle à partir des Tweets Arabes

8: if only Sprofile l in T then 9: affecter Sprofile à location 10: end if 11: If Sprofile and Tspatial in T then 11: comparer 12: If Sprofile == Tspatial then 13: affecter Sprofile à location 14: if Tspatial is within Sprofile 15: combiner (tspatial Sprofile ) 16: affecter (Tspatial Sprofile ) à location 17: else if , 18: affecter Tspatial à location 19: end if 20: end if 21: end if 22: End

4.2.5.2. L’information temporelle:

De la même manière que l'information spatiale, l'extraction de l'information temporelle est également considérée par cette recherche. Habituellement, chaque tweet a son temps d'envoi (timestamp, l‘horodatage) et peut inclure des indicateurs temporels dans son message texte, comme nous l'avons mentionné dans les sections précédentes, nous sommes intéressés à extraire ces deux types. Dans le cas où seul l'horodatage est disponible, l'horodatage est affecté à l'événement. Si des informations temporelles ont été trouvées à partir du message tweet, nous les combinons avec l'horodatage pour préciser l'information temporelle de l'événement. Par exemple, si le message tweet était: عٍرى انمصف فً انًُطمح غذا . كٍ ؼزسا

Il sera un bombardement dans la région demain. Faites attention

dimanche Janvier 08). Donc, les indicateurs temporels sont)األحذ 8 جبَفً :Et l'horodatage était traités en récupérant différentes composantes de la date (année, mois, Et le jour), pour reconstituer la date dans un format standard. Ensuite, les indicateurs temporels sont اإلصٍٍُ commandés et comparés temporellement dans la base de données, dans cet exemple bombardement). Pour cela, nous appliquons) انمصف Lundi), sera affecté à l'événement) l'algorithme, qui est décrit dans la case 2.

Algorithme. 4. The temporal information extraction algorithm.

Input: tweet T,( time stamp Tstamp , time in text Ttempral) Output: final time Time ; Begin: Parse and process T, if only Tstamp in t then affecter Tstamp à Time end if if Ttempral & Tstamp in T then comparer combiner (Ttempral, Tstamp)

100

Chapitre 05. Extraction d’information spatio-temporelle à partir des Tweets Arabes

process (Ttempral , Tstamp ) affecter (Ttempral Tstamp ) à Time else if , affecter tspatial à Time end if End

5. Application de l'approche proposée

Dans cette section, l'approche proposée décrite à la section 3 sera appliqué. Nous avons opté de valider notre système pour le crime d'enlèvement d'enfants (kidnapping) dans la région Arabe. Pour cela, un ensemble de 1223 de tweets Arabes ont été collectés du 24 mars 2013 au 17 octobre 2015. En raison du manque de sources fiables de gazetteers géographiques Arabes, nous avons limité la portée au pays algérien (notre pays). Pour cela, nous avons attribué quelques modifications sur l‘ontologie STATO en termes de la langue des attributs, et des relations spatiales, on a obtenu un outil fiable (gazetteer géographique spatial) en langue Arabe de la division administrative algérienne. Au début, nous avons recueilli des documents publics d'organisations telles que les entreprises postales, Wikipedia16 et certaines institutions gouvernementales locales. De ces sources, notre gazetteer était initialement peuplée d'environ 141 285 toponymes Algériens, y compris des noms de villes, cités, villages, etc. La plupart des données ont été recueillies auprès de nouvelles agences. En exécutant le filtre spatial à l'information de profil des utilisateurs, nous avons constaté que 79% des profils étaient liés à des informations géographiques, après avoir analysé les textes des tweets, on a constaté que 28% des tweets incluaient des informations spatiales dans leur contenu de texte. Nous illustrons la distribution calculée des événements criminels basés sur l'information spatiale détectée dans la figure 5.2.

Figure5.2. Distribution des événements criminels (kidnapping d’enfants) en Algérie.

16 http://www.wikipedia.org

101

Chapitre 05. Extraction d’information spatio-temporelle à partir des Tweets Arabes

5.1. Evaluation

Pour évaluer notre système, un ensemble plus petit de 210 tweets a été traité par le système et par des évaluateurs humains. Trois évaluateurs humains ont été utilisés pour fournir le standard d'or pour cette évaluation. Chacun a annoté manuellement des informations spatiales et temporelles. L'accord entre les annotateurs humains a été calculé; Un taux d'accord acceptable a été indiqué. Les résultats ont été enregistrés dans un fichier .csv pour obtenir le standard doré.

5.2 Les mesures Métriques

Pour évaluer l'efficacité de notre approche proposée, nous avons utilisé un ensemble de mesures d'évaluation bien connues: précision, rappel et f-mesure. La précision (p) fait référence à la fraction des références spatio-temporelles correctement affectées / au nombre de références que le système essaie d'attribuer. Rappel (R) égal au nombre de références spatio-temporelles correctement affectées / le nombre de toutes les références.

Pour cette évaluation, les résultats traités automatiquement par le système sont comparés au standard doré afin d'acquérir le nombre de références spatiotemporelles résolues, incorrects et manquées.

5.3 Résultats

On peut voir que pour tous les 235 tweets, les résultats obtenus par les humains sont: 216 références correctes, 23 références incorrectes et 19 références manquées, contre 202 références correctes 36 références incorrectes et 41 références manquées effectuées par le système basé Sur ces résultats, nous calculons le rappel, la précision et la f-mesure, les volontaires humains ont atteint une précision de 92% et 91% contre 85%, 79% de rappel et 82% de f-mesure par le système. Les résultats de nos expériences sont présentés dans le tableau 5.2 ci-dessous.

Table5.2 résultats Comparatives; manuel vs système. 235 Tweets : réferences Système Manuel Corréctes 202 216 Incorréctes 36 23 manquées 41 19

102

Chapitre 05. Extraction d’information spatio-temporelle à partir des Tweets Arabes

Les résultats du rappel obtenus par le système sont bas en raison de l'ambiguïté liée à la langue Arabe d'un côté, et les difficultés de dialect présenté dans les tweets de l'autre. En outre, les résultats de précision et de rappel obtenus par le système pour plusieurs cas sont indiqués dans le tableau 5.3.

Table5.3. Résultats de précision et de rappel pour différents cas. Spatial Locatin 풕풆풎풑풔 풕풆풎풑풔 Precisio Rappel ien T champ 풕풂풎풑 풆풏 푻 n

* / * / 0,80 0.767

/ * * / 0,83 0.824 235 tweets T * / * * 0,85 0.745

* * * / 0,92 0.789

6. Conclusion

Dans ce chapitre, nous avons présenté un système de détection, d‘identification, de combinaison et d‘extraction automatiques d‘informations spatio-temporelles liées aux événements criminels depuis des tweets écrits en Arabe. Notre approche repose sur la combinaison de différents indicateurs spatiaux et temporels du profil de l'utilisateur et du message texte du tweet. Notre approche peut détecter des informations explicites et implicites exprimées dans les tweets. Elle peut être utilisée pour la détection d'événements criminels à un endroit donné et à un moment donné. En plus, notre approche est capable d'estimer les régions les plus touchées et le plus tôt temps en relation avec des événements criminels.

Le processus d'extraction de l'information a été effectué par de nombreuses phases, y compris le prétraitement des tweets, l'élaboration d'algorithmes de regroupement et d'extraction, et l'analyse du texte des tweets par la création de gazetteers et aussi par l'application des techniques TALN.

L'efficacité de notre approche proposée a été évaluée à l'aide d'un ensemble de tweets collectés à partir du flux de l'API de Twitter sur le crime de kidnapping d'enfants. Nous avons pu tester notre approche pour différents types d'incidents criminels, comme par exemple: le meurtre, les attentats de bombe. Etc., le processus d'évaluation a été effectué quantitativement et qualitativement. Les résultats obtenus ont montré que notre système présenté donne un taux de précision acceptable a peu près de 85% et 79% de rappel. Nous avons également procédé au test de différents cas. Dans cette dernière contribution, notre étude est concernée par des événements criminels. On pourrait également appliquer notre approche pour d'autres domaines. Par exemples la médecine : la prévalence des maladies, la détection des risques

103

Chapitre 05. Extraction d’information spatio-temporelle à partir des Tweets Arabes naturels…etc , Et les méthodes peuvent être étendues à d'autres médias et réseaux sociaux comme Facebook, flicks,..etc . comme extension futurs de cette approche, nous voulons s‘orientés vers la création d'autres gazeteers spatiaux en langues Arabes pour d'autres pays comme l'Arabie saoudite, qui est le premier pays à utiliser Twitter par environ six millions d'utilisateurs. Et aussi l‘amélioration les gazztteers pour gérer des relations plus complexes entre les expressions spatiales et temporelles, nous concentrerons ainsi sur l'amélioration de la phase de géocodage en intégrant les coordonnées Gps.

104

Conclusion générale

Au terme de cette thèse nous tentons de tirer des conclusions des travaux présentés et de discuter les perspectives d‘amélioration de nos propositions

L‘objectif principal de cette thèse était d‘apporter des contributions sur deux axes complémentaires, d‘abord l‘amélioration du processus de la GIR par la prise en compte de la sémantique. Puis, la définition des nouvelles approches d‘indexation et d‘extraction d‘informations pour l‘amélioration des performances des systèmes de GIR en langue Arabe. En effet, les moteurs de recherche Web aident les gens à trouver de l'information rapidement dans la plupart des cas, mais pas dans tous les cas. L'incapacité des moteurs de recherche à effectuer des recherches efficaces est soit causée par leur incapacité à comprendre les demandes d'information des personnes exprimées dans les phrases de recherche du langage naturel humain, soit par leur incapacité à comprendre ou à extraire la vraie sémantique contenue dans les pages Web à récupérer, De plus, contrairement à la langue anglaise, la langue Arabe n‘est pas bien prise en charge par les GIRS. Pour cette raison :

- Afin d‘améliorer le processus RI, nous avons proposé dans une première approche d‘établir un système de récupération d‘information géographique spatio-temporelle basée sur une ontologie géographique. Pour cela, nous avons développé une ontologie spatio-temporelle STATO. Donc, nous avons suggéré une méthodologie de conception et de création basée sur BFO et la division administrative Algérienne. Nous avons testé également l‘ontologie STATO par des requêtes (spatiale et temporelle) SPARQL pour montrer son efficacité. Puis, on l‘a intégré dans notre système établit afin d‘assister les phases de l‘indexation sémantique des documents ainsi le géocodage des références extraites. Enfin, Notre système a permis de détecter, identifier et annoter automatiquement les termes spatio-temporels, les récupérer, et les visualiser dans une carte géographique. - Pour ce qui est de l‘amélioration des performances des systèmes de GIR en langue Arabe, on a proposé deux nouvelles approches.  Notre première approche s‘inscrit dans le cadre de l‘indexation spatiale, nous avons proposé un système d‘extraction automatiquement des informations spatio- temporelles à partir des documents textuels Arabes en utilisant la fusion des techniques TALN, GIR et TIR. Notre système a traité le problème d‘extraction de termes simples et composés. De plus, Notre système gère l‘extraction de toutes sorte d‘information spatiales et temporelles soient explicitement et/ou implicitement exprimée.  Afin d‘assurer une continuité dans l‘enchaînement de nos contributions, on a proposé une deuxième approche pour l‘extraction automatique et à temps réel des événements criminels depuis des Tweets Arabes, pour cela, nous avons developé un système de détection, d‘identification, de combinaison et d‘extraction automatiques d‘informations spatio-temporelles liées aux événements criminels depuis Twitter. Notre système repose sur la combinaison de différents indicateurs spatiaux et

105

temporels du profil de l'utilisateur et du message texte du tweet. Et capable de t détecter des informations explicites et implicites. Détecter des d'événements criminels à un endroit donné et/ou à un moment donné. En plus, estimer les régions les plus touchées et le plus tôt temps en relation avec des événements criminels.

Perspectives de recherche :

Ce travail ouvre la voie vers diverses perspectives qui se situent les plans suivants :

-En ce qui concerne l‘utilisation de la sémantique dans la GIR : nous estimons que plus les documents sont correctement indexés plus les résultats retournés sont pertinents. Ainsi, il serait intéressant d‘appliquer la méthode d‘indexation sur les requêtes fournis par l‘utilisateur, puis dresser une comparaison avec le contenu des documents pour répondre le mieux au besoin de l‘utilisateur.

-concernant l‘ontologie STATO, elle peut être exploitée pour d‘autres types de recherche spatiaux et /ou temporels de l‘Algérie, par une combinaison avec une autre ontologie de domaine ou bien un gazetteer, elle pourra jouer un rôle intéressant dans l‘annotation sémantique ainsi le géo référencement des faits, par exemple. En combinant STATO avec une ontologie simple qui modélise les termes des catastrophes géographiques, on obtiendra un outil performant capable de suivre l‘enchainement de ces catastrophes géographique. Tandis, il serait intéressant d‘approfondir le travail pour les relations spatiales entre deux zones géographiques, surtout au niveau des dayrats et des communes. L‘ontologie reste cohérente, c-a-d- le changement dans la division Algérienne n‘entraine pas le changement de toute l‘ontologie, il suffit juste d‘ajouter des nouvelles instances a l‘ontologie. D‘autre par, il serait intéressant également d‘exploiter l‘information temporelle exprimée dans les textes. En ce qui concerne la phase de géocodage, Actuellement, pour les références géographiques généralisées dans les articles, tels que les états, et les entités géographiques régionales, le géocodage sélectionne le centroïde dans la région., cependant, d‘autre solutions peuvent exister, parmi ces solution, on peut par exemple géo-référencer une références selon la compréhension du textes, il se peut que la référence exact situe dans une paragraphe loin, de la référence généralisé et floue. -pour l‘extraction d‘information spatio-temporelle à partir des documents textuels Arabes, Une perspective est de proposer de nouvelles expérimentations en exploitant des connaissances plus pertinentes d‘un point de vue linguistique. Des connaisances qui peuvent traiter les dialects Arabes, nous envisageant aussi, la création d'autres gazetteers spatiaux en langues Arabes plus précis. -pour l‘extraction d‘information spatio-temporelle à partir des Tweets Arabes On pourrait appliquer notre approche pour d'autres domaines. Par exemples la médecine : la prévalence des maladies, la détection des risques naturels…etc , Et les méthodes peuvent être étendues à d'autres médias et réseaux sociaux comme Facebook, flicks,..etc . Comme extension future de cette approche, nous voulons s‘orientés vers

106

la création d'autres gazeteers spatiaux en langues Arabes pour d'autres pays comme l'Arabie saoudite, qui est le premier pays à utiliser Twitter par environ six millions d'utilisateurs. Et aussi l‘amélioration les gazztteers pour gérer des relations plus complexes entre les expressions spatiales et temporelles, nous concentrerons ainsi sur l'amélioration de la phase de géocodage en intégrant les coordonnées Gps.

107

Acronymes

GIR Geographic Information Retrieval GIRS Geographic Information Retrieval System TALN Traitement Automatique des Langues Naturelles BFO Basic Formal Ontology DOLCE Descriptive Ontology for Linguistic and Cognitive Engineering IR Informaton Retrieval TIR Temporal Information Retrieval STATO Spatio-Temporal Algerien Toponyms Ontology SIG Système d‘Information Géographique SOC Systèmes d'Organisation des Connaissances SPARQL Protocol and RDF Query Language OWL OntologyWeb Language RDF Resource Description Framework W3C World Wide Web Consortium SGBD Systèmes Gestion Dase des Données GPS Global Positioning System XML eXtensible Markup Language GML Geography Markup Language KML, Keyhole Markup Language SpatialML spatial Markup Language TimeML Temporal Markup Language GATE General Architecture for Text Engineering SPIRIT Spatially-Aware Information Retrieval on the Internet

108

BIBLIOGRAPHIE

Abdelmoty, A.I., Smart, P.D., Jones, C.B., Fu, G., and D. Finch (2005): A critical evaluation of ontology languages for geographic information retrieval on the Internet. In Journal of Visual Languages and Computing 16: 331-358.

Abraham, T. and J.F. Roddick (1999): Survey of Spatio-Temporal Databases. In GeoInformatica 3(1): 61-99.

Jones, C.B., et al, The SPIRIT Spatial Search Engine: Architecture, Ontologies and Spatial Indexing. GIScience 2004, LNCS 3234, 125-39.

Agarwal, P. (2005): Ontological considerations in GIScience. In International Journal of Geographical Information Science 19(5): 501-536.

Gaizauskas, R., Humphreys, K., Azzam, S., & Wilks, Y. (1997). Concepticons vs. lexicons: An architecture for multilingual information extraction. Dans P. M. Teresa (Éd.), Information extraction: A multidisciplinary approach to an emerging information technology , International Summer School, SCIE-97, Frascati, Italy, 14-18, 1997 (Vol. 1299, pp. 28-43). Berlin: Springer-Verlag.

Bruno Martins, Hugo Manguinhas, and José Luis Borbinha. Extracting and Exploring the Geo-Temporal Semantics of Textual Resources.In ICSC, pages 1–9. IEEE Computer Society, 2008.

Xavier Tannier and Philippe Muller. Evaluation Metrics for Automatic Temporal Annotation of Texts. In European Language Resources Association (ELRA), editor, Proceedings of the Sixth International Language Resources and Evaluation (LREC‘08), Marrakech, Morocco, may 2008. Watters, C., and G. Amoudi. 2002. "GeoSearcher: GeoSpatial ranking of search engine results." Asist 2002: Proceedings of the 65th Asist Annual Meeting, Vol 39.

Inderjeet Mani, Barry Schiffman, and Jianping Zhang. Inferring Temporal Ordering of Events in News. In HLT-NAACL, pages 55–57, 2003.

F. GEY et D.W. OARD. The trec-2001 cross-language information retrieval track: Searching Arabic using english, french or arabic queries. In TREC, pages 16–26, 2001.

R. ABBES. La conception et la réalisation de concordancier électronique pour l’arabe. Thèse de Doctorat, Institut national des sciences appliquées de Lyon, Lyon, France, 2004.

S. KHOJA et G. GARSUDE, R.AND KNOWLES. A tagset for the morphosyntactic tagging of arabic. In 2001 conference, pages 1–13, Lancaster, UK, 2001.

L.S. LARKEY, L. BALLESTEROS et M.E. CONNELL. Improving for Arabic information retrieval: light stemming and co-occurrence analysis. In Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, pages 275 –282, Tampere, Finland, 2002.

109

BIBLIOGRAPHIE

G. SALTON. The state of retrieval system evaluation. Information Processing and Management, 28(4), 1992. B. Smith et C. Welty. Ontology: Towards a new synthesis. In N. Guarino, editor, Formal Ontology in Information Systems, Proceedings of the 2nd International Conference (FOIS-01), Ogunquit, Maine, 17-19 October 2001.ACM.

Kulick Seth, Ann Bies et Mohamed Maamouri (2010). Consistent and Flexible Integration of Morphological Annotation in the Arabic , dans Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC)

R. T. Gruber, A Translation Approach to Portable Ontology Specification, Knowledge Acquisition (5), pp 199-220, 1993

N. Guarino. Understanding, building, and using ontologies: A commentary to Using Explicit Ontologies in KBS Development, by van Heijst, Schreiber, and Wielinga”. International Journal of Human and Computer Studies 46: 293- 310.,1997

Antoniou, G. and F. van Harmelen (2009): Web Ontology Language: OWL. In Handbook on Ontologies, eds. S. Staab and R. Studer, 91-110. Springer.

J. Charlet. L‘Ingénierie des connaissances : développements, résultats et perspectives pour la gestion des connaissances médicales. Habilitation à diriger des recherches, Université Paris 6, 2002.

Thomas R. Gruber. The Role of Common Ontology in Achieving Sharable, Reusable Knowledge Bases. In Proceedings of the Second International Conference Principles of Knowledge Representation and Reasoning, (KR & R- 91), J. Allen, R. Fikes, et E. Sandewall (Eds.), Morgan Kaufmann Publishers: San Mateo, CA, pp.601-602, 1991.

T.R. Gruber. Toward Principles for the Design of Ontologies Used for Knowledge Sharing. Revision of paper presented at the international workshop on Formal Ontology, Padova, Italy, March 1993, in Special issue of the International Journal of Human-Computer Studies, Vol. 43, N° 5-6, Nicola Guarino et Roberto Poli (Eds.), 1995.

VanHeijst, G., Schreiber, A.T. & Wielinga, B.J., 1997. Using explicit ontologies in KBS development. Int. J. Hum.-Comput. Stud., 46(2), pp.183–292.

Sowa, J.F., 1995a. Syntax, Semantics, and Pragmatics of Contexts. In G. Ellis et al., eds. ICCS. Lecture Notes in Computer Science. Springer, pp. 1–15.

Sowa, J.F., 1995b. Top-level ontological categories. Int. J. Hum.-Comput. Stud., 43(5-6), pp.669–685.

Mizoguchi, R. et al., 2000. Construction and Deployment of a Plant Ontology. In R. Dieng & O. Corby, eds. EKAW. Lecture Notes in Computer Science. Springer, pp. 113–128.

Stumme, G. & Maedche, A., 2001. FCA-MERGE: Bottom-Up Merging of Ontologies. In B. Nebel, ed. IJCAI. Morgan Kaufmann, pp. 225–234.

110

BIBLIOGRAPHIE

Smith, B., 2013. The Blackwell Guide to the Philosophy of Computing and Information. In L. Floridi, ed. The Blackwell Guide to the Philosophy of Computing and Information. Oxford :Blackwell, pp. 155–166.

CASATI R., B. Smith, and A.C. Varzi: "Ontological tools for geographic representation". In N. Guarino, editor, Formal Ontology in Information Systems, pages 77–85. IOS Press, Amsterdam, 1998.

Hill, L. L. (2006). Georeferencing: The geographic associations of information. Cambridge, MA, USA: The MIT Press.

Leidner, J. L. (2006). An evaluation dataset for the toponym resolution task. Computers,Environment and Urban Systems , 30 (4), 400–417.

Grenon, P. and B. Smith (2004): SNAP and SPAN: Towards Dynamic Spatial Ontology. In Spatial Cognition and Computation 5(1): 69–104.

Felix Gantner (2001) :a spatio temporal ontology for the administrative units of switzerland. Geo-511, Master‘s thesis.

Amitay, E., Har‘El, N., Sivan, R., & Soffer, A. (2004). Web-a-where: geotagging web content. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval (pp. 273 - 280). New York: ACM.

Bensalem, I., & Kholladi, M. K. (2009b). la désambigüisation des toponymes, thèse de magistère.

Bensalem, I., & Kholladi, M. K. (2009c). Toponym Disambiguation by Arborescent relationships. International Arab Conference on Information Technology (ACIT'2009). Yemen.

Mani, I., Anderson, D. and Hitzeman, J. (2006) A framework for interring spatial locations and relationships from text. National Center for Geographic Information & Analysis (NCGIA) Digital Gazetteer Research and Practice Workshop, http://ncgia.ucsb.edu/projects/nga/docs/mani-paper.pdf

Jones, C.B. and Purves, R. (2007) Geographical information retrieval. International Journal of Geographical Information Science, 22(3): 219-228.

Janowicz, K., Scheider, S., Pehle, T., and Hart, G. (2012) Geospatial semantics and linked spatiotemporal data-past, present, and future. Semantic Web, 3(4): 321-332.

Machado, I. M. R., Alencar, R. O. D., Campos, R. D. O., and Clodoveu, A., D. (2011) An ontological gazetteer and its application for place name disambiguation in text. Journal of the Brazilian Computer Science, 17(4): 267-279.

Li, H., Hu, Y., Gao, G., Shnitko, Y., Meyerzon, D., Mowatt, David: Techniques for extracting authorship dates of documents (December 2009).

111

BIBLIOGRAPHIE

Koen, D.B., Bender, W: Time frames: temporal augmentation of the news. IBM Systems journal Journal 39 (July 2000) 597–61.

Llid´o, D., Berlanga, R., Aramburu, M.J.: Extracting temporal references to assign document event-time periods. In: Proceedings of the 12th International Conference on Database and Expert Systems Applications, Springer Verlag (2001).

Setzer, A.: Temporal Information in Newswire Articles: An Annotation Scheme and Corpus Study. PhD thesis, University of Sheffield (2001)

B. Martins, H. Manguinhas, and J. Borbinha. Extracting and Exploring the Geo-Temporal Semantics of Textual Resources. Intl. Conf. on Semantic Computing, 1–9, 2008.

Jannik Strötgen , Extraction and Exploration of Spatio-Temporal Information in Documents.10 ‟: Proceedings of the 6th Workshop on Geographic Information Retrieval. wei wang et al, ―Automated spatiotemporal and semantic information extraction for hazards‖ in journal of Computers, Environment and Urban Systems http://dx.doi.org/10.1016/j.compenvurbsys.2014.11.001 0198-9715/_ 2014 Elsevier Ltd.

David O'Steen et al, „Named Entity Recognition in Arabic: A Combined Approach‟ June 4, 2009 Final Project .CS 224N / Ling 237.

Khaled shaalan et al „nera: named entity recognition for arabic ‟ journal of the american society for information science and technology‟ (impact factor: 2.23). 08/2009; 60(8). Doi: 10.1002/asi.21090.

Abdulgabbar Mohammad Saif et al,‟ An Automatic Extraction from Arabic Corpus‟ Journal of Computer Science 7 (1): 6-11, 2011 ISSN 1549-3636 © 2011 Science Publications.

Oudah, M., & Shaalan, K. F. (2012). A Pipeline Arabic Named Entity Recognition using a Hybrid Approach. In COLING (pp. 2159-2176).

Zayed, O.H., El-Beltagy, S.R et al .: Person Name Extraction from Modern Standard Arabic or Colloquial Text. In: Proceedings of the eighth (08) International Conference on Informatics and Systems, INFOS 2012, pp. NLP-44–NLP-48.Egypt (2012)

Hala Elsayed et al „Information Extraction from Arabic News‟ in IJCSI International Journal of Computer Science Issues, Volume 12, Issue 1, No 2, January 2015 ISSN (Print): 1694- 0814 | ISSN (Online): 1694-0784.

Cohen, S.: Entity extraction enables ―discovery‖. Technical report, Basis Technology (2006).

Technologies, B.: BBN IdentiFinder Text Suite [Online; accessed 22-April- 2010].

COLTEC: Anee: Arabic named entity extraction. Technical report, Computer & Language Technology (2007).

Ozidkis, O., Halit, O., & Pinar, K.(2013). Evidential location estimation for events detected in Twitter. Paper presented at the 7th Workshop on Geographic Information Retrieval (GIR '13). New York: ACM

112

BIBLIOGRAPHIE

Lau, C. H. (2014). Detecting News Topics from Microblogs Using Sequential Patterns Mining. PhD thesis, Queensland University of Technology, from http://eprints.qut.edu.au/68159/1/Cher%20Han_Lau_Thesis.pdf

Schulz, A., Hadjakos, A., & Paulheim, M. (2013). A Multi-Indicator Approach for Geolocalization of Tweets. Paper presented at the Seventh International Conference on Weblogs and Social Media (ICWSM). Palo Alto, California: AAAI Press

Sugitani, T., Shirakawa, M., & Hara, T. (2013). Detecting local events by analyzing spatiotemporal locality of tweets. Paper presented at the 27th Advanced Information Networking and Applications Workshops (WAINA). (pp.191-196).

Sakaki, T., Okazaki, M., & Matsuo, M. (2012). Tweet Analysis for Real-Time Event Detection and Earthquake Reporting System Development. (Vol 25. Pp 919 - 931). DOI ; 10.1109/TKDE.2012.29, Journal of Transactions on Knowledge and Data Engineering ). IEEE.

Crooks, A., Croitoru, A., Stefanidis, A., & Radzikowski, J. (2013). Earthquake: twitter as a distributed sensor system. Paper presented at GIS‘ 17(1). (pp. 124-147).

Tumasjan, A., Sprenger, T.O., Sandner, P.G., (2010). Predicting elections with twitter: What 140 characters reveal about political sentiment. Paper presented at the Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media. (pp.178-185). Washington, DC USA

Dredze, M., Paul, M.J., Bergsma, S., & Tran, H. (2013) Carmen: a twitter geolocation system with applications to public health. In Processing of AAAI Workshop on Expanding the Boundaries of Health Informatics Using AI (HIAI), (pp. 20-24) .Bellevue, WA.

Daly, E.M., Lecue, F., & Bicer, F. (2013). Westland row why so slow?: Fusing social media and linked data sources for understanding real-time traffic conditions. Paper presented at the the 8 th International Conference on Intelligent User Interfaces.( pp.203-212). Santa Monica, CA, USA

Mai, E., & Hranac. R. (2013). Twitter interactions as a data source for transportation incidents. Paper presented at the Transportation Research Board 92nd Annual Meeting. (pp.13-1636). Washington, USA

Schulz, A., Ristoski, P., & Paulheim, H. (2012), I See a Car Crash: Real-time Detection of Small Scale Incidents in Microblogs.

Campbell, D. G. (2011). Egypt Unshackled: Using Social Media to @#:) the System. Amherst, New York, NY: Cambria Books.

Hecht, B., Hong, L., Suh, B., & Chi, E.H. (2011). Tweets from Justin Biebers Heart: The Dynamics of the ‖Location‖ Field in User Profiles. Paper presented at Conference on Human Factors in Computing Systems (CHI ‘11), Vancouver, BC, Canada: ACM.

Cheng, Z., Caverlee, J., Lee, K. (2010). You Are Where You Tweet: A Content-Based Approach to Geo-locating Twitter Users. Paper presented at 19th ACM international

113

BIBLIOGRAPHIE

conference on Information and knowledge management (CIKM ‘10), Toronto , ON, Canada: ACM

Goodchild, M.F. (2008) Formalizing place in geographic information systems. Pdf

Lieberman, M., Samet, H., Sankaranarayanan, J., & Sperling, J.(2007). STEWARD: Architecture of a Spatio-Textual Search Engine. Paper presented at GIS ‘07 conference, (pp.186–193).

Popescu, A., Grefenstette, G., Moëllic, PA.(2008). Gazetiki: automatic creation of a geographical gazetteer: Proceedings of the n8th ACM/IEEE-CS joint conference on digital libraries, JCDL‘08. (pp. 85–93). New York: ACM.

Toral, A., & Munoz, R. (2006) A proposal to automatically build and maintain gazetteers for Named Entity Recognition by using Wikipedia. In: EACL.

Uryupina, O. (2003). Semi-supervised learning of geographical gazetteers from the Internet.: Proceedings of the HLT-NAACL 2003 workshop on analysis of geographic references,( Vol 1. pp. 18–25). Association for Computational Linguistics, Strasbourg

Pustejovsky, J., & Castaño, J. M., Ingria, R., Sauri, R., Gaizauskas, R., & Setzer, A. (2003). TimeML: Robust Specification of Event and Temporal Expressions in Text. Paper presented at IWCS-5.

Popescu, A., Grefenstette, G., Moëllic, PA.(2008). Gazetiki: automatic creation of a geographical gazetteer: Proceedings of the n8th ACM/IEEE-CS joint conference on digital libraries, JCDL‘08. (pp. 85–93). New York: ACM.

Armstrong, M.P. (1988): Temporality in spatial databases. In Proceedings of GIS/LIS’88, San Antonio, TX: 880-889.

Arp, R. and B. Smith (2008): Function, Role, and Disposition in Basic Formal Ontology. In Proceedings of Bio-Ontologies Workshop (ISMB2008): 45-48.

Atkinson, M., Bancilhon, F., DeWitt, D., Dittrich, K., Maier, D., and S. Zdonik (1989): The Object-Oriented Database System Manifesto. In Proceedings of the International Conference on Deductive and Object-Oriented Databases (DOOD): 40-57.

Baader, F. (2003): Description Logic Terminology. In The Description Logic Handbook: Theory, Implementation, and Applications, eds. F. Baader, D. Calvanese, D. McGuinness, D. Nardi, and P.F. Patel-Schneider, 495-505. Cambridge University Press.

Baader, F. and W. Nutt (2003): Basic Description Logics. In The Description Logic Handbook: Theory, Implementation, and Applications, eds. F. Baader, D. Calvanese, D. McGuinness, D. Nardi, and P.F. Patel-Schneider, 47-100. Cambridge University Press.

Baader, F., Horrocks, I., and U. Sattler (2005): Description Logics as Ontology Languages for the Semantic Web. In Mechanizing Mathematical Reasoning: Essays in Honor of Jörg H. Siekmann on the Occasion of his 60th Birthday, Lecture Notes in Artificial Intelligence 2605: 228-248. Springer.

114

BIBLIOGRAPHIE

R.Laurini, K Makki and N Pissinou, Information Systems for Urban Planning pp 82–5. Schuler P (1996) New Community Networks: Wired for Change. Addison-Wesley Longman, 1996.

Becker, L., Voigtmann, A., and K.H. Hinrichs (1996): Temporal Support for Geo-Data in Object-Oriented Databases. In Proceedings of Database and Expert Systems Applications: 79- 93.

Beckett, D. and T. Berners-Lee (2008): Turtle – Terse RDF Triple Language. W3C Team Submission 14 January 2008. http://www.w3.org/TeamSubmission/turtle/, accessed January 10, 2011.

Bittner, T., Donnelly M., and B. Smith (2004): Endurants and perdurants in directly depicting ontologies. In AI Communications 14(4): 247-258.

Brickley, D. and R.V. Guha (2004): RDF Vocabulary Description Language 1.0: RDF Schema. W3C Recommendation 10 February 2004. http://www.w3.org/TR/rdf-schema/, accessed January 12, 2011.

Bubenko, J.A. (1977): The Temporal Dimension in Information Modeling. In Architecture and Models in Data Base Management Systems, ed. G.M. Nijssen, 93-118. Amsterdam: North-Holland.

Claramunt, C. and M. Thériault (1995): Managing Time in GIS: An Event-Oriented Approach. In Proceedings of the International Workshop on Temporal Databases: Recent Advances in Temporal Databases, Zurich, Switzerland, eds. J. Clifford and A. Tuzhilin, 23-42. London, UK: Springer.

Borges, K. A., Laender, A. H., Medeiros, C. B., Silva, A. S., & Davis, C. A. (2003). The web as a data source for spatial databases. Anais do V Brazilian Symposium on Geoinformatics,

Campos do Jordão. SP, Brazil. Bunescu, R. C. (2007). Learning for information extraction: From named entity recognition and disambiguation to relation extraction. Thèse de doctorat de philosophie, University of Texas, Austin.

Buscaldi, D., & Rosso, P. (2008c). Map-based vs. knowledge-based toponym disambiguation. Proceeding of the 2nd international workshop on Geographic information retrieval, Napa Valley, California, USA (pp. 19-22). ACM. Chinchor, N. (1998). MUC-7 named entity task definition (version 3.5). Proceedings of the 7th Message Understanding Conference (MUC-7). Fairfax, Virginia.

115