Estudio Sobre Datos Reutilizables Como Recursos Lingüísticos

ESTUDIO SOBRE DATOS REUTILIZABLES COMO RECURSOS LINGÜÍSTICOS Plan de impulso de las Tecnologías del Lenguaje Antonio Moreno, Doroteo Torre, Ana Valverde, Leonardo Campillos Enero 2019 Revisado en Septiembre de 2019 Plan de Impulso de las Tecnologías del Lenguaje Este estudio ha sido realizado dentro del ámbito del Plan de Impulso de las Tecnologías del Lenguaje con financiación de la Secretaría de Estado para el Avance Digital y Red.es, que no comparten necesariamente los contenidos expresados en el mismo. Dichos contenidos son responsabilidad exclusiva de sus autores. Reservados todos los derechos. Se permite su copia y distribución por cualquier medio siempre que se mantenga el reconocimiento de sus autores, no se haga uso comercial de las obras y no se realice ninguna modificación de las mismas. Estudio sobre documentos reutilizables como recursos lingüísticos Página 2 Plan de Impulso de las Tecnologías del Lenguaje ÍNDICE 1 INTRODUCCIÓN ............................................................................................................................... 7 2 CONCEPTOS ..................................................................................................................................... 8 3 METODOLOGÍA DEL ESTUDIO ....................................................................................................... 10 3.1 ASPECTOS NORMATIVOS....................................................................................................... 10 3.2 ASPECTOS TÉCNICOS ............................................................................................................. 12 3.2.1 Diferencia entre recursos de datos abiertos y recursos lingüísticos ............................. 12 3.2.2 Portales nacionales y extranjeros de referencia para la recogida de datos ................. 14 3.2.3 Censo de sitios y tipos de RL ......................................................................................... 16 3.3 FICHA TÉCNICA PARA LA RECOGIDA DE INFORMACIÓN ....................................................... 17 3.3.1 Identificación del recurso. ............................................................................................. 19 3.3.2 Persona de contacto u organización responsable ......................................................... 19 3.3.3 Creación del recurso ...................................................................................................... 20 3.3.4 Descripción del recurso ................................................................................................. 20 3.3.5 Otros recursos relacionados .......................................................................................... 20 3.3.6 Grado de madurez de datos conforme al modelo de la metodología .......................... 20 3.3.7 Plantilla de evaluación de la madurez de los datos para conversión en recurso lingüístico 20 3.3.8 Posibles aplicaciones del futuro recurso lingüístico ...................................................... 22 4 CENSADO DE DOCUMENTOS ......................................................................................................... 23 4.1 INTRODUCCIÓN ..................................................................................................................... 23 4.2 LISTADO DE DOCUMENTOS CENSADOS ................................................................................ 24 4.2.1 Inteligencia competitiva ................................................................................................ 25 4.2.2 Cultura ........................................................................................................................... 54 4.2.3 Sanidad .......................................................................................................................... 66 4.2.4 Justicia ........................................................................................................................... 93 5 CONCLUSIONES PRELIMINARES SOBRE LOS CONJUNTOS DE DATOS ANALIZADOS ................... 121 Estudio sobre documentos reutilizables como recursos lingüísticos Página 3 Plan de Impulso de las Tecnologías del Lenguaje 6 DATOS ABIERTOS Y SU USO COMO RL EN OTROS PAÍSES ........................................................... 129 6.1 ESTUDIOS SIMILARES E INICIATIVAS DE IMPULSO DE RECURSOS Y TECNOLOGÍAS LINGÜÍSTICAS EN OTROS PAÍSES ..................................................................................................... 130 6.1.1 Hispanoamérica ........................................................................................................... 130 6.1.2 Europa ......................................................................................................................... 130 6.1.3 Reino Unido, Estados Unidos y Canadá ....................................................................... 134 6.1.4 Comparación por países de datos con potencial de convertirse en RLs ..................... 134 6.2 COMPARACIÓN POR TEMÁTICAS DE INTERÉS. ................................................................... 140 6.2.1 Inteligencia competitiva .............................................................................................. 140 6.2.2 Sanidad ........................................................................................................................ 143 6.2.3 Justicia ......................................................................................................................... 147 6.2.4 Cultura ......................................................................................................................... 150 7 PLAN DE ACCIÓN PARA LA CREACIÓN DE RECURSOS LINGÜÍSTICOS .......................................... 154 7.1 INTRODUCCIÓN ................................................................................................................... 154 7.2 SITUACIÓN DE ESPAÑA EN EL CONTEXTO INTERNACIONAL EN CUANTO A DOTACIÓN DE RECURSOS LINGÜÍSTICOS ................................................................................................................ 155 7.3 RECOMENDACIONES PARA EL DESARROLLO DE UN PLAN DE ACCIÓN ............................... 158 7.3.1 Recomendaciones Genéricas ...................................................................................... 158 7.3.2 Estrategias concretas para recursos seleccionados .................................................... 171 8 CONCLUSIONES ........................................................................................................................... 177 9 ANEXO 1: Tipología de recursos lingüísticos ............................................................................... 179 10 ANEXO 2: ficha técnica utilizada para el censo DE RECURSOS .................................................... 180 11 ANEXO 3: FORMATOS RECOMENDADOS .................................................................................... 183 12 ANEXO 4: recomendaciones de actuación .................................................................................. 184 13 REFERENCIAS ............................................................................................................................... 185 14 GLOSARIO DE SIGLAS Y ACRÓNIMOS .......................................................................................... 186 Estudio sobre documentos reutilizables como recursos lingüísticos Página 4 Plan de Impulso de las Tecnologías del Lenguaje ÍNDICE DE FIGURAS Figura 1: Posición de España en Europa en cuanto a madurez de datos abiertos .............................. 135 Figura 2: Posición de España en Europa en cuanto a madurez de datos abiertos. La cifra debajo a la izquierda de cada bandera indica la posición en el ranquin mundial, y la cifra a la derecha, la puntuación asignada. .............................................................................................................................................. 136 Figura 3: Indicación de disponibilidad de datos abiertos en el portal www.data.gouv.fr .................. 162 Figura 4: Información detallada sobre los datos abiertos en el portal www.data.gouv.fr ................. 162 Figura 5: Palabras clave asociadas al recurso “U.S. Chronic Disease Indicators (CDI)” en el portal de datos abiertos de Estados Unidos http://data.gov ............................................................................. 163 Figura 6: Metadatos asociados al recurso “U.S. Chronic Disease Indicators (CDI)” en el portal de datos abiertos de Estados Unidos http://data.gov ....................................................................................... 163 ÍNDICE DE TABLAS Tabla 1: Tipología de recursos lingüísticos ............................................................................................ 17 Tabla 2: Plantilla para la evaluación de la madurez como RL de un recurso ........................................ 21 Tabla 3: Madurez del recurso 1: Oficina Española de Patentes y Marcas (OEPM). .............................. 30 Tabla 4: Madurez del recurso 2: Patentes, modelos de utilidad e informes técnicos digitalizados de la Oficina Española de Patentes y Marcas (OEPM). .................................................................................. 35 Tabla 6: Madurez del recurso 3: Diccionarios terminológicos del Centro de Terminología (TERMCAT). ............................................................................................................................................................... 38 Tabla 7: Madurez del recurso 4: Padrón:

Estudio Sobre Datos Reutilizables Como Recursos Lingüísticos

2020 Vision: Info Pro Skills for a New Decade

Ciência De Dados Na Ciência Da Informação

Cc5212-1 Procesamiento Masivo De Datos Otoño 2020

Dataset Search: a Lightweight, Community-Built Tool to Support Research Data Discovery

Talks & Abstracts

Search, Reuse and Sharing of Research Data in Materials Science and Engineering—A Qualitative Interview Study

A Day Without a Search Engine: an Experimental Study of Online and Ofﬂine Searches∗

U.S. Government Publishing Office Style Manual

JLEP-Issue-9.2.Pdf

Sustainability of (Open) Data Portal Infrastructures a Distributed Version Control Approach to Creating Portals for Reuse

A Study on the Veracity of Semantic Markup for Dataset Pages

Automl: a Survey of the State-Of-The-Art