Reconnaissance De Plan Probabiliste Par
Total Page:16
File Type:pdf, Size:1020Kb
View metadata, citation and similar papers at core.ac.uk brought to you by CORE provided by Savoirs UdeS RECONNAISSANCE DE PLAN PROBABILISTE PAR EXPLORATION PARTIELLE DES HYPOTHÈSES par Julien Filion Mémoire présenté au Département d’informatique en vue de l’obtention du grade de maître ès sciences (M.Sc.) FACULTÉ DES SCIENCES UNIVERSITÉ DE SHERBROOKE Sherbrooke, Québec, Canada, 15 octobre 2015 Le 15 octobre 2015 le jury a accepté le mémoire de Monsieur Julien Filion dans sa version finale. Membres du jury Professeur Froduald Kabanza Directeur de recherche Département d’informatique Monsieur Abder Rezak Benaskeur Codirecteur de recherche RDDC-Valcartier Madame Hengameh Irandoust Codirectrice de recherche RDDC-Valcartier Professeur Shengrui Wang Membre interne Département d’informatique Professeur Sévérien Nkurunziza Membre interne Département de mathématiques Professeur André Mayers Président-rapporteur Département d’informatique i Sommaire La capacité à reconnaître les intentions d’un agent est un élément important de l’analyse de la situation. Connaître ces intentions est souvent un facteur clé de la prise de décision dans plusieurs domaines tels que la robotique, les jeux vidéo, la sécurité informatique et l’analyse du renseignement. Une des approches algorithmiques souvent utilisées pour reconnaître les inten- tions d’un agent suppose une connaissance préalable de tous les plans exécutables par l’agent observé. À partir de ces plans et des données d’observation, on peut alors prédire les comportements et les intentions de l’agent observé simplement en géné- rant les modèles d’exécution de plans cohérents avec les données d’observation. Ces modèles d’exécution constituent en quelque sorte les hypothèses sur le plan et le but poursuivi par l’agent observé. Ainsi, la probabilité que l’agent observé poursuive un but particulier est établie comme étant la proportion des modèles cohérents avec ce but. Cette approche existe depuis une dizaine d’années et fait partie des approches les plus étudiées en ce moment. Cependant, elle comporte des lacunes fondamentales, notamment une explosion combinatoire de la taille de l’espace d’hypothèses. Ce mé- moire de maîtrise propose un algorithme permettant d’aborder ce dernier problème en contrôlant l’exploration de l’espace d’hypothèse. Avec ce nouvel algorithme, on peut approximer la probabilité du but, de sorte que la précision de l’approximation s’améliore graduellement avec le temps de calcul. Cette approche a été publiée dans l’une des deux plus prestigieuses conférences scientifiques sur l’intelligence artificielle : International Joint Conference on Artificial Intelligence (IJCAI), en 2013. ii Sommaire Mots-clés: intelligence artificielle; raisonnement probabiliste; reconnaissance de plan; jeux de stratégie en temps réel. iii Remerciements Je tiens à remercier Froduald Kabanza, Abder Rezak Benaskeur et Hengameh Irandoust d’avoir accepté de diriger les travaux effectués au cours de ma maîtrise. Leurs suggestions et conseils m’ont permis de bien cerner les lignes directrices de ma recherche, et de réorienter mes travaux lorsque ceux-ci s’en éloignaient. Je vou- drais également remercier mes collègues du laboratoire PLANIART pour l’assistance inconditionnelle qu’ils m’ont accordée, à la fois à titre technique et moral. J’espère avoir été en mesure de les assister similairement dans leur propre cheminement. Je souhaite aussi remercier l’entreprise Smart Information Flow Technologies (SIFT) de nous avoir permis d’utiliser leur implémentation de l’algorithme Yappr. Finalement, je tiens également à remercier le Conseil de recherches en sciences naturelles et en génie du Canada (CRSNG) pour l’aide financière qui m’a été octroyée dans le cadre de ma maîtrise. iv Abréviations DOPLAR Decision-Oriented PLan Recognizer HTN Réseau de tâches hiérarchiques (Hierarchical Task Networks) IA Intelligence Artificielle MDP Processus de décision de Markov (Markov Decision Process) MMC Modèle de Markov Caché POMDP MPD partiellement observable (Partially Observable MDP) poms-CFG Grammaire hors contexte de multiensemble partiellement ordonnée (Partially-Ordered Multi-Set Context-Free Grammar) STR Stratégie en Temps Réel Yappr Yet Another Probabilistic Plan Recognizer v Table des matières Sommaire ii Remerciements iv Abréviations v Table des matières vi Liste des figures ix Liste des tableaux x Liste des algorithmes xi Introduction 1 Un grand nombre d’applications ........................ 1 Désirs, buts, plans et intentions ........................ 2 Hypothèses de travail .............................. 3 Idée fondamentale ............................... 3 Organisation du mémoire ........................... 4 1 Banc d’essai 5 1.1 Jeux de stratégie en temps réel ..................... 5 1.2 StarCraft ................................. 7 1.3 Reconnaissance de plan dans StarCraft ................. 8 vi Table des matières 2 État de l’art 9 2.1 Approches par analyse grammaticale .................. 10 2.2 Modèles graphiques ............................ 12 2.3 Planification inverse ........................... 14 3 Représentation de la bibliothèque de plans 16 3.1 Syntaxe .................................. 16 3.2 Bibliothèque de plans pour StarCraft .................. 18 3.3 Sémantique ................................ 19 3.4 Notations ................................. 20 4 Algorithme de base 21 4.1 Génération d’hypothèses ......................... 22 4.2 Modèle probabiliste ............................ 25 4.2.1 Probabilité d’une hypothèse ................... 25 4.2.2 Probabilité des buts ....................... 28 4.3 Algorithme ................................ 30 5 Contrôler l’exploration d’hypothèses 36 5.1 Calcul des intervalles ........................... 38 5.2 Ordre d’exploration ............................ 40 5.3 Critères d’arrêt .............................. 41 5.4 Algorithme ................................ 42 6 Expérimentations 46 6.1 Domaine artificiel ............................. 46 6.2 Jeux de stratégie en temps réel ..................... 51 Conclusion 54 A Résultats Mathématiques 56 A.1 Proposition A.1.1 ............................. 56 A.2 Lemme A.2.1 ............................... 58 A.3 Démonstration du Lemme 5.1.1 ..................... 60 vii Table des matières A.4 Démonstration du Théorème 5.1.2 .................... 63 A.5 Démonstration du Théorème 5.1.3 .................... 64 Bibliographie 72 viii Liste des figures 1.1 Exemples de jeux STR populaires .................... 6 2.1 Grammaire hors contexte inspiré de Vilain ............... 10 2.2 Structure du DBN de Pynadath et Wellman .............. 13 3.1 Exemple simple de bibliothèque de plans inspiré du jeu StarCraft .. 17 3.2 Représentation graphique d’une bibliothèque de plans ......... 18 3.3 Exemple d’arbre de dérivation complète et partielle .......... 20 4.1 Exemples d’hypothèses .......................... 23 4.2 Arbre d’hypothèses ............................ 25 5.1 Frontière d’un arbre d’hypothèses .................... 37 6.1 Comparaison du temps moyen sur un domaine artificiel (Seuil) .... 49 6.2 Comparaison du nombre moyen d’hypothèses sur un domaine artificiel (Seuil) ................................... 49 6.3 Comparaison du temps moyen sur un domaine artificiel (Marge d’erreur) 50 6.4 Comparaison du nombre moyen d’hypothèses sur un domaine artificiel (Marge d’erreur) ............................. 50 6.5 Graphe des régions d’un scénario StarCraft ............... 51 6.6 Temps moyen sur un scénario StarCraft ................. 52 ix Liste des tableaux 6.1 Requêtes complétées en moins de 2 minutes .............. 53 x Liste des algorithmes 1 Yappr - Génération des hypothèses ................... 34 2 Yappr - Calcul des probabilités ..................... 35 3 DOPLAR - Génération des hypothèses ................. 44 4 DOPLAR - Calcul des probabilités ................... 45 xi Introduction La capacité à reconnaître les intentions sous-jacentes au comportement d’un agent observé est une aptitude fondamentale pour des agents intelligents dans plusieurs do- maines. De façon générale, le problème est posé comme suit. Un agent observe d’autres agents et essaie de prédire les buts et les intentions de ces derniers. L’observation des autres agents est généralement effectuée à travers des capteurs et peut être bruitée ou partielle. On suppose que l’agent observé poursuit en effet des objectifs précis. Un grand nombre d’applications La reconnaissance de plan est une capacité centrale pour développer une compré- hension détaillée d’un environnement où plusieurs agents interagissent. Il n’est donc pas surprenant de retrouver ce problème dans une grande variété d’applications. Par exemple dans les jeux vidéo, connaître les intentions de son adversaire permettra à une intelligence artificielle de contrer ses actions futures [6, 38]. En robotique, un robot autonome voudra comprendre et anticiper les intentions des agents avec qui il interagit, que ce soit des humains ou d’autres robots [12]. En domotique, on voudrait une maison capable de comprendre et anticiper les désirs de ses habitants pour maxi- miser leur confort et les assister dans leurs activités quotidiennes. Il s’agit en quelque sorte d’un habitat robotisé [23] et de tels concepts sont motivés par des besoins divers, de l’assistance aux personnes avec des capacités cognitives réduites à la réduction de la charge de travail pour des habitats complexes tels qu’une station spatiale. Dans le domaine de la sécurité informatique, un outil sophistiqué de détection des intrus doit observer les actions des usagers du réseau