Reconnaissance Structurelle De Formules Mathématiques : État De L’Art 9

Reconnaissance Structurelle De Formules Mathématiques : État De L’Art 9

CORE Metadata, citation and similar papers at core.ac.uk Provided by HAL-UNICE Reconnaissance Structurelle de Formules Math´ematiques Typographi´eeset Manuscrites St´ephaneLavirotte To cite this version: St´ephaneLavirotte. Reconnaissance Structurelle de Formules Math´ematiques Typographi´ees et Manuscrites. Interface homme-machine [cs.HC]. Universit´eNice Sophia Antipolis, 2000. Fran¸cais. <tel-00523373> HAL Id: tel-00523373 https://tel.archives-ouvertes.fr/tel-00523373 Submitted on 5 Oct 2010 HAL is a multi-disciplinary open access L'archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destin´eeau d´ep^otet `ala diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publi´esou non, lished or not. The documents may come from ´emanant des ´etablissements d'enseignement et de teaching and research institutions in France or recherche fran¸caisou ´etrangers,des laboratoires abroad, or from public or private research centers. publics ou priv´es. UNIVERSITEDENICE–SOPHIAANTIPOLIS´ Ecole´ Doctorale des Sciences et Technologies de l’Information et de la Communication Reconnaissance structurelle de formules math´ematiques typographi´ees et manuscrites THESE` de doctorat pour obtenir le titre de Docteur en Sciences Discipline : Informatique par St´ephane LAVIROTTE Soutenue le 14 juin 2000 a` l’ESSI (Sophia-Antipolis) Composition du jury Pr´esident : Jean-Marc FEDOU Professeur `a l’Universit´e de Nice Sophia-Antipolis Rapporteurs : Karl TOMBRE Professeural’ ` Ecole´ des Mines de Nancy Guy LORETTE Professeura ` l’Universit´e de Rennes I Examinateurs : Lo¨ıc POTTIER Charg´e de Recherche `a l’INRIA Sophia-Antipolis Peter SANDER Professeura ` l’Universit´e de Nice Sophia-Antipolis Marc BERTHOD Directeur de Recherchea ` l’INRIA Sophia-Antipolis Universit´e de Nice Sophia-Antipolis / Institut National de Recherche en Informatique et Automatique Mis en page avec la classe thloria. Remerciements Je tiens à remercier : – Loïc Pottier pour ses conseils, son expérience et l’encadrement de cette thèse ; – les membres du jury, Jean-Marc Fédou, Peter Sander, Marc Berthod, et plus particu- lièrement Karl Tombre et Guy Lorette qui ont accepté de rapporter cette thèse ; – les anciens membres de l’équipe SAFIR ainsi que les membres des projets CAFE et LEMME de l’INRIA qui m’ont tous accueilli avec beaucoup de gentillesse et de bien- veillance. – France Limouzis et Patricia Lachaume pour leur soutient et leur aide dans les dé- marches administratives. Je veux aussi remercier toutes les personnes qui ont travaillé ponctuellement, de près ou de loin avec moi : – Andréas Kosmala dans le cadre d’une collaboration avec l’Université de Duisburg ; – Olivier Arsac avec qui les collaborations de travail furent nombreuses et toutes plus enrichissantes les unes que les autres ; – Colas Nahaboo et Jean-Michel Léon ainsi que toute l’équipe KOALA pour leurs outils de développement, leur bonne humeur et leurs conseils avisés ; – José Grimm pour tous ses précieux conseils sur LATEX. Enfin, je remercie collectivement tous ceux qui ont bien voulu relire ma thèse, m’apporter leur aide et plus particulièrement Frédérique, qui a su me soutenir au quotidien. i ii I do not fear computers. I fear the lack of them. Isaac Asimov iii iv Table des matières Table des figures vii Introduction 1 1 Nos buts initiaux ............................... 3 2 Motivations et applications possibles . ................. 3 3 Objectifs de l’étude . ........................ 5 4 Résultats obtenus ............................... 5 4.1 Le composant OFR .......................... 5 4.2 Irma : une application ........................ 6 5 Plan de lecture . ............................... 6 6 Conventions typographiques . ........................ 7 Chapitre I Reconnaissance structurelle de formules mathématiques : état de l’art 9 1 Historique ................................... 10 2 De nombreuses applications possibles . ................. 11 2.1 Édition de formules mathématiques ................. 12 2.1.1 Syntaxe linéaire . ................. 12 2.1.2 Palette de modèles . ................. 14 2.1.3 Édition bidimensionnelle ................. 15 2.1.4 Des modes d’édition “coûteux” . .......... 15 2.1.5 Vers une édition manuscrite................ 16 2.2 Bases de formules . ........................ 17 2.3 Extension des systèmes de reconnaissance de documents . 18 2.4 Diverses autres applications . ................. 18 3 Définition des notations mathématiques . ................. 19 4 Difficultés par rapport à la reconnaissance de textes . .......... 20 v Table des matières 4.1 Bruit et petits symboles . ..................... 21 4.2 Segmentation . ............................ 22 4.3 Reconnaissance des symboles . .............. 22 4.4 Ambiguïtés sur le rôle d’un même symbole . .......... 23 4.5 Ambiguïté sur le placement relatif des symboles .......... 24 4.6 Ambiguïté dans la notation . ..................... 25 4.7 Peu de redondance de l’information . .............. 26 5 Quelques traitements préliminaires . ..................... 27 5.1 Seuil de numérisation . ..................... 29 5.2 Réduction du bruit . ..................... 30 5.3 Réalignement de l’image . ..................... 31 5.4 Isoler une formule dans un document . .............. 33 5.5 Conclusion . ............................ 34 6 Segmentation et reconnaissance des symboles . .............. 35 6.1 Caractères typographiés . ..................... 35 6.2 Caractères manuscrits . ..................... 37 6.3 Conclusion . ............................ 39 7 Reconnaissance de la structure . ..................... 39 7.1 Identification des relations spatiales et logiques entre les symboles . 40 7.2 Reconnaissance de la structure de la formule . .......... 42 8 Diversité des approches existantes . ..................... 42 8.1 Diversité des méthodes pour l’analyse structurelle .......... 42 8.1.1 Méthodes syntaxiques . .............. 43 Grammaire de coordonnées . .............. 43 Schémas de spécification de structure . .......... 45 Grammaires probabilistes . .............. 45 Grammaires de graphes . .............. 46 8.1.2 Méthodes logiques ..................... 47 8.1.3 Méthodes mixtes liant analyse géométrique et syntaxique 48 Méthodes procédurales . .............. 48 Méthode de découpage par projections . .......... 48 8.2 Difficultés pour comparer les approches . .............. 50 8.2.1 Diversité dans les données traitées . .......... 51 8.2.2 Grande diversité des approches .............. 51 8.2.3 Diversité des notations mathématiques .......... 51 9 Conclusion . ............................ 52 vi Chapitre II Concepts pour la reconnaissance de formules 53 1 Réutilisabiblité . ............................... 54 1.1 Équations, matrices et notations “exotiques” . .......... 54 1.2 Manuscrit et Typographié . ................. 54 2 Évolutivité ................................... 55 2.1 Introduction de nouvelles notations ................. 55 2.2 Adaptation aux différentes notations ................. 56 3 Interprétation de l’arbre de syntaxe . ................. 56 4 Communication des résultats . ........................ 57 5 Composants pour l’analyse de formules . ................. 58 5.1 Détail des différents composants . ................. 58 5.2 Critiques possibles de l’architecture en modules . .......... 59 6 Conclusion . ............................... 59 Chapitre III Méthode et outils 61 1 Architecture d’OFR .............................. 61 2 Analyse de l’image . ........................ 63 2.1 Enveloppe d’un symbole . ................. 63 2.2 Résultat type attendu de l’OCR . ................. 65 2.3 Extrapolation de données . ................. 66 2.3.1 Taille relative . ................. 66 2.3.2 Ligne de base . ................. 66 3 Analyse lexicale . ............................... 67 4 Analyse géométrique . ........................ 69 4.1 Introduction des graphes . ................. 69 4.2 Définition d’un graphe ........................ 70 4.3 Construction du graphe initial . ................. 71 4.3.1 Analyse de proximité . ................. 71 4.3.2 Critères géométriques et graphiques . .......... 72 4.3.3 Critères divers . ................. 74 4.3.4 Rôle du type lexical . ................. 75 4.3.5 Conclusion . ........................ 75 4.4 Optimisation . ........................ 76 4.5 Les limites de la construction du graphe . .......... 78 5 Rappels sur les grammaires . ........................ 79 5.1 Rappels sur les grammaires . ................. 80 vii Table des matières 5.1.1 Grammaires formelles . .............. 80 5.1.2 Grammaires attribuées . .............. 81 5.2 Grammaires de graphes . ..................... 83 6 Analyse structurelle . ............................ 86 6.1 Grammaire de graphes et formules mathématiques . 86 6.2 Construction du contexte des règles . .............. 87 6.2.1 Exemple . ..................... 87 6.2.2 Superpositions dans l’application des règles . 88 6.2.3 Grammaire sans ambiguïté . .............. 91 6.3 Analyse structurelle . ..................... 93 6.3.1 Analyse ascendante . .............. 93 6.3.2 Attributs synthétisés . .............. 94 6.3.3 Mise à jour incrémentale du graphe . .......... 95 6.4 Optimisation . ............................ 95 7 Conclusion . ............................ 96 Chapitre IV Applications et Validation 99 1 Notations mathématiques typographiées . .............. 99 1.1 Un comparatif des logiciels pour la reconnaissance de symboles . 100 1.1.1 Quelques critères ..................... 101 Formats

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    201 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us