SHS Web of Conferences 27, 11004 (2016) DOI: 10.1051/shsconf/20162711004 Congrès Mondial de Linguistique Française - CMLF 2016 Enrichir le balisage de corpus footballistiques pour en augmenter le pouvoir documentaire1 Nathalie Gasiglia Univ. Lille, CNRS, UMR 8163 - STL - Savoirs Textes Langage, F-59000 Lille
[email protected] Résumé. La présente contribution ambitionne de revenir sur l'élaboration, durant la dernière décennie, de deux corpus de commentaires footballistiques – l'un d'oral transcrit et l'autre de sources écrites – de taille modeste mais constitués afin qu'ils présentent un haut rendement exploratoire. L'objectif de ce retour est de réexaminer les choix de balisage XML mis en œuvre au sein de chacun et d'étudier la pertinence d'une annotation plus fine de certains phénomènes non encore traités. Après avoir présenté le contexte qui a motivé l'élaboration de ces corpus puis leurs contenus, nous exposons les éléments majeurs du balisage de chacun, en valorisant ce qui les différencie, avant d'entrer plus finement dans leurs données et d'analyser l'impact des modalités ou des moments de production des énoncés sur leur forme, et conséquemment la pertinence d'une annotation de ces paramètres dans le balisage. Si les deux corpus ont à l'heure actuelle un haut rendement exploratoire du fait de leur thématisation et de la sélection de commentaires, donc de productions d'un ensemble de locuteurs spécialisés qui s'adressent à un large public, la spécificité des situations d'énonciation propres aux énoncés oraux ou écrits de chaque corpus a un impact sur la nature des données observables au sein de chacun.