Text Segmentation by Language

View metadata, citation and similar papers at core.ac.uk brought to you by CORE Cabeza, R. (2016). Text segmentation by language. Sistemas & Telemáticaprovided by Universidad, 14(38), Icesi, 65-74 Colombia: Portal de revistas Original Research / Artículo Original - Tipo 1 Text segmentation by language Robin Cabeza Ruiz / [email protected] Universidad de Holguín, Cuba ABSTRACT There are two approaches for text segmentation by language: first, assuming that language changes happen in the “border” between sentences (never within a sentence); second, assuming that language changes can happen anyplace in the text. This work presents methods for both types of text’s segmentation by languages. On the first proposal, the text is initially segmented by sentence, then the language of each sentence is obtained; the second proposal is an adaptation of hidden Markov model to this task. Both cases, according to results obtained in experimental proofs, exceed the state of art. KEYWORDS Hidden Markov model; text segmentation by language; natural language processing. Segmentación de textos por idioma Segmentação de textos por idioma RESUMEN La segmentación de textos por idioma puede ser RESUMO A segmentação de textos por idioma pode ser abor- abordada de dos maneras: la primera, asumiendo que los cam- dada de duas maneiras: a primeira, assumindo que as alterações bios de idioma solo ocurren en los saltos entre oraciones; y la da linguagem ocorrem apenas nos saltos entre as frases; e a segunda, asumiendo que el idioma puede cambiar en cualquier segunda, partindo do princípio que o idioma pode mudar em lugar del texto. En este trabajo se presentan métodos para seg- qualquer parte do texto. Este trabalho apresenta métodos para mentar ambos tipos de textos por idiomas. Para el primer caso segmentar ambos os tipos de textos por idioma. No primeiro se segmenta el texto a analizar por oraciones y luego se identifica caso, o texto é segmentado para analisar frases e, em seguida, el idioma de cada oración; la segunda propuesta consiste en la identifica-se a língua de cada frase; a segunda proposta consiste adaptación de los modelos ocultos de Markov a la tarea de seg- na adaptação dos modelos ocultos de Markov à tarefa de seg- mentación de textos por idiomas. El estado del arte es superado mentação de textos por idioma. O estado da arte é ultrapassado por ambas propuestas, según los resultados obtenidos en la expe- por ambas as propostas, de acordo com os resultados obtidos na rimentación realizada. experimentação realizada. PALABRAS CLAVE Modelos ocultos de Markov; segmenta- PALAVRAS-CHAVE Modelo oculto de Markov; segmentação ción de textos por idioma; procesamiento del lenguaje natural. de textos por idioma; processamento de linguagem natural. Received / Recepción: Septiembre 5, 2016 - Accepted / Aceptación: Septiembre 27, 2016 doi 10.18046/syt.v14i38.2289 65 Cabeza, R. (2016). I. Introduction I. Introducción The development currently reached on the web has led to El desarrollo alcanzado actualmente en la web ha motivado la aparición de muchas fuentes de información en forma de the emergence of many sources of information in text form texto (ya sean sitios de noticias, blogs, redes sociales, etcé- (for example news sites, blogs, social networks, etc.), so the tera), por lo que el volumen de datos disponible en forma volume of data available in textual form is growing. The textual es cada vez mayor. La Minería de Textos [MT] es Text Mining [TM] is the research area dedicated to obtain el área de investigación que se dedica a obtener informa- valuable new information from these texts. To apply techni- ción valiosa y novedosa de estos textos. Para poder aplicar ques of Text Mining, documents are usually represented as técnicas de MT suelen representarse los documentos como vectores de términos, donde los términos generalmente son vectors of terms where the terms are usually nouns, verbal sustantivos, formas verbales o adjetivos, de acuerdo con la forms or adjectives, according to the task to be solved. For tarea a resolver. Para la extracción y selección de los térmi- the extraction and selection of terms are used Natural Lan- nos se utilizan técnicas de Procesamiento de Lenguaje Na- guage Processing [NLP] techniques (Vasquez, Quispe, & tural [PLN] (Vásquez, Quispe, & Huayana, 2009). Muchas Huayana, 2009). Many NLP techniques are language-de- técnicas de PLN son dependientes del idioma, por lo que pendent, so the Language Identification [LI] is an essential la Identificación de Idiomas [II] es una fase imprescindible en el preprocesamiento de los textos, y tiene como objetivo phase in the preprocessing of the texts, and aims to identify identificar el idioma en que está escrito un documento dado. the language in which it is written a given document. La mayoría de los trabajos reportados en la literatura Most of the work reported in the literature base their basan su funcionamiento en la II en documentos monolin- operation on the LI in monolingual documents, only one gües, solo un idioma por cada documento. No obstante, los language per document. However, existing documents on documentos existentes en la web pueden estar escritos en más de un idioma; por ejemplo, muchos artículos científi- the web can be written in more than one language; for cos contienen un resumen en inglés y el resto en el idioma example, many scientific articles contain a summary in principal del artículo. Al analizar este tipo de documentos, English and the rest in the main language of the article. los algoritmos tradicionales de II suelen fallar, dar el idioma Examining such documents, traditional algorithms of LI más representado en los textos, o bien abstenerse. often fail, give the language most represented in the texts, Entre los trabajos reportados en la literatura en el área de or abstain. II en documentos multilingües, algunos solo identifican los idiomas presentes en el texto –Identificación de Idiomas en Among the works reported in the literature in the LI area Documentos Multilingües [IIDM]– (Lui, Lau, & Baldwin, in multilingual documents, some only identify the langua- 2014), mientras que otros identifican además los segmentos ges present in the text –Languages Identification in Multi- de texto para cada idioma –Segmentación de Textos por lingual Documents [LIMD]– (Lui, Lau, & Baldwin, 2014), Idiomas, [STI]– (Yamaguchi & Tanaka-Ishii, 2012). while others also identify text segments for each language Una herramienta preparada para la IIM, al analizar la –Text Segmentation by Languages [TSL]– (Yamaguchi & cadena de ejemplo “english string para prueba”, debería solamente reconocer que están presentes los idiomas inglés Tanaka-Ishii, 2012). y español; mientras que una preparada para la STI debería A tool prepared for the LIMD, when analyzing the retornar: [(“english string”, inglés), (“para prueba”, espa- example string “english string para prueba”, should only ñol)]. Este trabajo se enfoca en la segunda variante, pues recognize that English and Spanish languages are pre- es la que permitirá aplicar herramientas de MT una vez segmentados los textos por idiomas. sent; while one prepared for TSL should return: [(“english STI puede orientarse a una tarea de etiquetado de secuen- string”, inglés), (“para prueba”, español)]. This work focu- cias, ya que es posible analizar un texto como una secuencia ses on the second variant, because it will allow applying TM de rasgos (palabras, por ejemplo), en la que cada rasgo tiene tools once the texts are segmented by languages. asignada una etiqueta (es decir, cada palabra está escrita en TSL can target a sequences labeling task, since it is pos- un idioma). Por ejemplo, en la cadena de texto anterior, un sible to analyze a text as a sequence of features (words, for algoritmo preparado para la tarea debería retornar [(“english”, en), (“string”, en), (“para”, es), (“prueba”, es)]. Entre los example), in which each feature has assigned a tag (that is, algoritmos más populares para el etiquetado de secuencias each word is written in a language). For example, in the se encuentran los modelos ocultos de Markov, que son los text string above, an algorithm prepared for the task should que se propone utilizar en este trabajo, motivado por los return [(“english”, en), (“string”, en), (“para”, es), (“prue- buenos resultados obtenidos por esta técnica en otras tareas ba”, es)]. Among the most popular algorithms for sequence de PLN. 66 http://www.icesi.edu.co/revistas/index.php/sistemas_telematica Text segmentation by language. Sistemas & Telemática, 14(38), 65-74 II. Estado del arte labeling are hidden Markov models, which are proposed to El principal trabajo reportado en la literatura para la STI be used in this work, motivated by the good results obtained es el propuesto por Yamaguchi y Tanaka-Ishii (2012). Los by this technique in other NLP tasks. autores proponen un método que utiliza el concepto de Descripción de Longitud Mínima (Barron, Rissanen, & Yu, II. State of the art 1998) para encontrar los bordes de los idiomas (sitios en los Yamaguchi and Tanaka-Ishii (2012) proposed the main que ocurren los cambios entre idiomas). En su trabajo se work reported in the literature for the TSL. The authors denota un texto multilingüe a ser segmentado X como una secuencia de caracteres , donde es el i-ésimo ca- propose a method that uses the concept of Minimum Des- x1,…,x|X| xi rácter. La segmentación se realiza encontrando el conjunto cription Length (Barron, Rissanen, & Yu, 1998) to find the de bordes , donde cada denota el i-ésimo bor- B=B1,…,B|B| Bi borders of languages (sites where changes occur between de como el número de caracteres desde el principio del tex- languages). In their work, it is denoted a multilingual text to. La lista de segmentos obtenida de B es denotada como to be segmented as a sequence of characters , , donde la concatenación de estos elementos es X x1,…,x|X| X=[X0,…,X|B| igual al texto .

Text Segmentation by Language

Automatic Correction of Real-Word Errors in Spanish Clinical Texts

Natural Language Toolkit Based Morphology Linguistics

Practice with Python

Question Answering by Bert

Arxiv:2009.12534V2 [Cs.CL] 10 Oct 2020 ( Tasks Many Across Progress Exciting Seen Have We Ilo Paes Akpetandde Language Deep Pre-Trained Lack Speakers, Billion a ( Al

Natural Language Processing Based Generator of Testing Instruments

Download Natural Language Toolkit Tutorial

Corpus Based Evaluation of Stemmers

Healthcare Chatbot Using Natural Language Processing

Using Natural Language Processing to Detect Privacy Violations in Online Contracts

Bnlp: Natural Language Processing Toolkit for Bengali Language

Resume Refinement System Using Semantic Analysis