Guide De Production De Ressources Linguistiques : Analyse Des Aspects Techniques, Juridiques Et Stratégiques
Total Page:16
File Type:pdf, Size:1020Kb
Guide de production de ressources linguistiques : analyse des aspects techniques, juridiques et stratégiques Franck Gandcher, Khalid Choukri, Olivier Hamon, Valérie Mapelli, Nicolas Moreau, Niklas Paulsson, Djamel Mostefa Référence : ELDA/2008/GPROD Titre : Guide de production de ressources linguistiques : analyse des aspects techniques, juridiques et stratégiques Auteurs : Franck Gandcher, Khalid Choukri, Olivier Hamon, Valérie Mapelli, Nicolas Moreau, Niklas Paulsson, Djamel Mostefa Date de publication : 15 septembre 2008 Format : Version 4.0, 101 pages Diffusion : Rapport interne ELDA Langue : Français Copyright : © 2008. ELDA, 55-57, rue Brillat-Savarin, 75013 Paris, France. Tous droits réservés. ELDA – rapport interne Réf. ELDA/2008/GPROD Date:15 septembre 2008 Page 1/101 TABLE DES MATIERES 1. Introduction..................................................................................................................... 5 1.1 Contexte........................................................................................................................................ 5 1.2 Objectifs........................................................................................................................................ 5 2. Aspects techniques........................................................................................................... 7 2.1 Standards et bonnes pratiques pour la production de ressources linguistiques .................... 7 2.1.1 Corpus ............................................................................................................................................. 7 2.1.1.1 Historique.................................................................................................................................... 7 2.1.1.2 Spécifications .............................................................................................................................. 9 2.1.1.3 Formats de codage..................................................................................................................... 10 2.1.1.4 Formats de stockage.................................................................................................................. 11 2.1.1.5 Standards de validation ............................................................................................................. 12 2.1.2 Ressources orales .......................................................................................................................... 13 2.1.2.1 Historique.................................................................................................................................. 13 2.1.2.2 Spécifications ............................................................................................................................ 16 2.1.2.3 Formats de codage..................................................................................................................... 18 2.1.2.4 Formats de stockage.................................................................................................................. 18 2.1.2.5 Standards de validation ............................................................................................................. 19 2.1.3 Ressources multimodales .............................................................................................................. 20 2.1.3.1 Historique.................................................................................................................................. 20 2.1.3.2 Spécifications ............................................................................................................................ 22 2.1.3.3 Infrastructure de collecte de données audiovisuelles ................................................................ 23 2.1.3.4 Formats de données collectées .................................................................................................. 24 2.1.3.5 Formats des annotations............................................................................................................ 25 2.1.3.6 Procédures de validation ........................................................................................................... 26 2.2 Standards et bonnes pratiques pour la diffusion des ressources linguistiques .................... 29 2.2.1 OLAC (Open Language Archives Community)............................................................................ 29 2.2.2 IMDI (International Standards for Language Engineering Metadata Initiative) ........................... 30 2.2.3 Catalogue de ressources linguistiques ELRA................................................................................ 30 2.2.4 Catalogue LDC.............................................................................................................................. 32 3. Qualification juridique des ressources linguistiques et droits afférents ..................... 33 3.1 Introduction ............................................................................................................................... 33 3.1.1 Notion(s) de « ressource linguistique ».........................................................................................33 3.1.1.1 Pratique professionnelle et définitions dans le domaine contractuel......................................... 34 3.1.1.2 Perspective Communautaire sur la notion de « ressource linguistique »................................... 34 3.1.2 Problématiques et annonce de plan ...............................................................................................35 3.2 Qualification et protection juridiques des ressources linguistiques ...................................... 35 3.2.1 Ressources linguistiques primaires ............................................................................................... 35 3.2.1.1 Le Corpus et les documents qu’il comporte.............................................................................. 35 3.2.1.2 Bases de données....................................................................................................................... 37 3.2.2 Ressources linguistiques dérivées ................................................................................................. 38 3.2.2.1 Les modifications apportées à la ressource primaire par le développeur de ressource linguistique................................................................................................................................................ 38 3.2.2.1.1 La création et la modification de bases de données............................................................ 38 3.2.2.1.2 Le commentaire linguistique de corpus.............................................................................. 38 3.2.2.1.3 L’annotation linguistique de corpus ................................................................................... 38 3.2.2.2 Rapports d’intégration et titulaires des droits............................................................................ 38 3.2.2.2.1 Qualification juridique de l’œuvre et existence de rapports entre les différents acteurs de la production 39 3.2.2.2.2 Intégration de ressource et persistance des droits............................................................... 40 3.2.2.2.3 Régime de l'exercice des droits en cas de pluralité d’auteurs............................................. 40 3.3 Droits exercés dans l’exploitation d’une œuvre à titre de ressource linguistique................ 41 3.3.1 Monopole d’exploitation de l’auteur et mise en cause de droits patrimoniaux ............................. 42 3.3.1.1 Définition des droits patrimoniaux reconnus à l'auteur............................................................. 42 3.3.1.2 Notion de public(s).................................................................................................................... 42 ELDA – rapport interne Réf. ELDA/2008/GPROD Date:15 septembre 2008 Page 2/101 3.3.1.3 Modalités de diffusion de la ressource et exercice des droits de reproduction et de représentation............................................................................................................................................ 43 3.3.2 Limites du monopole de l’auteur et perspectives d’exploitation licite sans autorisation du titulaire des droits. ...................................................................................................................................................... 43 3.3.2.1 Question de la portée de l’article L.122-5-3° points a) et e) au regard de l'exploitation d'oeuvres à des fins linguistiques. ............................................................................................................................. 44 3.3.2.2 Perspectives de dépassement des exceptions catégorielles visées à l'article L.122-5-3°........... 46 3.3.3 Mise en cause de droits moraux de l’auteur sur l’oeuvre.............................................................. 47 3.4 Protection des données à caractère personnel......................................................................... 48 3.4.1 Applicabilité aux ressources linguistiques du régime d’encadrement du traitement de données à caractère personnel........................................................................................................................................ 48 3.4.1.1 Domaine d’application : notions de « donnée personnelle » et de « traitement » ..................... 48 3.4.1.2 Absence d’opposition de principe à la