A Computational Model of Modern Standard Arabic Verbal Morphology Based on Generation
Total Page:16
File Type:pdf, Size:1020Kb
A computational model of Modern Standard Arabic verbal morphology based on generation by Alicia González Martínez under the supervision of Dr Antonio Moreno Sandoval Dissertation submitted in partial fulfillment of the requirements for the degree of PhD Madrid, December 2012 Universidad Autónoma de Madrid Facultad de Filosofía y Letras Departamento de Lingüística Laboratorio de Lingüística Informática LLI-UAM This dissertation was completed thanks to an FPU scholarship from the Universidad Autónoma de Madrid, and was carried out in the LLI-UAM Laboratory of Computational Linguistics, Department of Linguistics, under the supervision of Dr Antonio Moreno Sandoval para Tronspmkins, que me mostró cerdos volar para Su, que me regaló un encinar y me enseñó a hozar "Why are you working so hard? Why don't you come and play?" But the stubborn bricklayer pig just said "no". "I shall finish my house first. It must be solid and sturdy. And then I'll come and play!" Three little pigs Abstract The computational handling of non-concatenative morphologies is still a challenge in the field of natural language processing. Amongst the various areas of research, Arabic morphology stands out due to its highly complex structure. We propose a model for Arabic verbal morphology based on a root-and-pattern approach, which satisfies both computational consistency and an elegant formalization. Our model defines an abstract representation of prosodic templates and a set of intertwined morphemes that operate at different phonological levels, as well as a separate module of rewrite rules to deal with morphophonological and orthographic alterations. Our verbal system model asserts that Arabic exhibits two conjugational classes. The computational system, named Jabalín, is focused on generation—the program generates a full annotated lexicon of verbal forms, which is subsequently used to develop a morphological analyzer and generator. The input of the system consists of a lexicon of 15,452 verb lemmas of both Classical Arabic and Modern Standard Arabic— taken from El-Dahdah (1991)—comprising a total of 3,706 roots. The output of the system is a lexicon of 1,684,268 verbal inflected forms. We carried out an evaluation against a lexicon of inflected verbs provided by the analyzer ElixirFM (Smrž, 2007a; 2007b), which we considered a Golden Standard, achieving a precision of 99.52%. Additionally, we compared our lexicon with a list of the most frequent verb lemmas— including the most frequent verbs from each conjugation—taken from Buckwalter and Parkinson (2010). The list includes 825 verbs which are all included in our lexicon and passed an evaluation test with 99.27% of accuracy. Jabalín is available under a GNU license, and can be accessed and tested through an online interface, at http://elvira.lllf.uam.es/jabalin/, hosted at the LLI-UAM lab. The Jabalín interface provides different functionalities: analyze a form, generate the inflectional paradigm of a verb lemma, derive a root, show quantitative data, and explore the database, which includes data from the evaluation. i Key words: Computational Linguistics, Natural Language Processing, Arabic Computational Morphology, Root-and-Pattern Morphology, Non-concatenative Morphology, Templatic Morphology, Root-and-Prosody Morphology, Computational Prosodic Morphology. ii Resumen (Spanish) Los sistemas morfológicos de tipo no concatenativo siguen siendo uno de los mayores retos para el procesamiento del lenguaje natural. Entre las diversas líneas de investigación, el estudio de la morfología del árabe destaca por ser un sistema de gran complejidad estructural. En el presente proyecto de investigación, se propone un modelo de morfología verbal del árabe basado en un enfoque root-and-pattern, así como formalmente elegante y coherente desde el punto de vista computacional. El modelo propuesto se apoya fundamentalmente en una formalización abstracta de los esquemas prosódicos y su interrelación con el material morfológico. Paralelamente, el sistema cuenta con un módulo de reglas que tratan las alteraciones morfofonológicas y ortográficas del árabe. El modelo del sistema verbal propone, y se asienta en la idea de que, existen sólo dos clases conjugacionales en árabe. El sistema computacional, llamado Jabalín, está orientado a la generación: el programa genera un lexicón de formas verbales con la información lingüística asociada. El lexicón se emplea a continuación para desarrollar un analizador y generador morfológicos. Como entrada, el sistema recibe un lexicón de lemas verbales de 15.452 entradas (tomado de El- Dahdah, 1991), que combina léxico tanto del árabe clásico como del árabe estándar moderno, y cuenta con un total de 3.706 raíces. La salida es un lexicón de 1.684.268 formas verbales flexionadas. Se ha llevado a cabo una evaluación contra un lexicón de formas verbales extraído del analizador ElixirFM (Smrž, 2007a; 2007b), con una precisión de 99,52%. Por otro lado, el lexicón se ha evaluado también contra una lista de verbos más frecuentes (incluyendo los lemas más frecuentes de cada tipo de conjugación) sacada de Buckwalter y Parkinson (2010). El total de los 825 verbos que componen la lista están incluidos en nuestro lexicón de lemas verbales y presentan una precisión del 99.27%. El sistema Jabalín, desarrollado bajo licencia GNU, cuenta además con una interfaz web donde se pueden realizar consultas en árabe, http://elvira.lllf.uam.es/jabalin/, albergada en el LLI-UAM. La interfaz cuenta iii con varias funcionalidades: analizar forma, generar flexión de un lema verbal, derivar raíz, mostrar datos cuantitativos, y explorar la base de datos, que incluye los datos de la evaluación. Palabras clave: Lingüística Computacional, Procesamiento del Lenguaje Natural, Morfología Computacional del Árabe, morfología root-and-pattern, morfología no- concatenativa, morfología templática, morfología root-and-prosody, morfología prosódica computacional. iv Agradecimientos A todo cerdo le llaga su San Martín, y yo no iba a ser menos. Y es que cuando una tesis está ya terminada, el doctorando, ya fuera de sí, se empeña en seguir hozando y hozando en busca de más trufas y bellotas; “¡no es suficiente!, ¡no es suficiente!”. Pero por mucho que se obceque, y por mucho que le imponga, llega el momento de terminar. Uno entonces tiene que aceptar que ya no es un lechoncillo salvaje, sino un jabalí bien lustroso y satisfecho, listo para la matanza. Y es en ese preciso momento, cuando el jabalí levanta al fin el hocico, sereno, y se para a pensar, afortunado, en todos los que acompañaron su trote y en los que le enseñaron a bellotear. El tesinando es un animal ególatra donde los haya, a quien las largas noches trabajando en la tesis le han convertido en un ser retraído y huraño. Y mucho han tenido que sufrir y soportar los que se han mantenido a su lado. A todos ellos, que han agrantado refunfuñeos crónicos y berrinches descomunales, se lo agradezco con especial cariño. A Santa Bárbara bendita, que en el cielo estás escrita con papel y agua bendita, por darme constancia y paciencia, que como buen totem me has estado troleando para que finalmente pudiera registar esta tesis un 4 de diciembre. A mis profes de filología, que a pesar de mi arrebato tránsfuga en aras de la lingüística, me habéis marcado para siempre. ¡Ante todo, filóloga! A Waleed, que aunque quizá no lo recuerde, se hizo cargo de aquella olvidada asignatura de primero, de esas que a veces los profesores no quieren dar, pero que son las que marcan a los estudiantes. Sus clases, y su dedicación a los alumnos, no se olvidan. v A Iñaqui, por sus curradísimas clases de árabe y sus simpáticas chanzas. Gracias a sus enseñanzas, me pude defender en la lengua de la Dad en mis trotes por el mundo árabe y, como los buenos estudiantes, fui el chascarillo pedante de los zocos árabes. A Ana Ramos, de quien me acordé redactando esta tesis, por el sobrecogedor suicidio de las letras enfermas. A mis profesoras sirias, en aquel verano que tanto aprendí en Damasco. A Theophile, el maestro de la morfología, por ofrecerme sus valiosos consejos. To Jirka Hana, I am grateful for the opportinuty he gave me to stay those three months in UFAL. A Antonio, mi director de tesis, de quien nunca olvidaré su enorme paciencia durante mi etapa de formación y su inquebrantable apoyo, un privilegio del que disfrutan muy pocos tesinandos; por ofrecerme sus ideas y su experiencia, por acogerme en el laboratorio y animarme a investigar, y por darme siempre la mayor libertad. Y no puedo olvidar todos los que han pasado por el labo, con quienes he compartido grandes momentos y cuchufletas: Ana Ledesma y su paralelo mundo de la pragmática. Marta y Manuel, que no nos han dejado tiempo para aburrirnos con sus historietas. Doaa, a quien le debo su inestimable ayuda en mis difíciles comienzos. Sus consejos y su dedicación han sido el mejor de los recibimientos en éste, el espinoso mundo de la investigación. Conchi, esa primera informática que abrió la caja de pandora. Antonio Pastor, que siempre estaba ahí para instalarme los programas que necesitara. Leo, quien ha estado todos estos años trabajando al lado, y ambos nos hemos mantenido a flote en los momentos bajos del labo. Dalia, una de esas personas que el buen recuerdo siempre conserva. El glotón de Jordi Casanova, conocido en tierras niponas como Ryo Tzutahara, ¡gran gurú de la gastronomía! Carlos, “el de japo”, que nos trae vi nuevos aires a las filas de los becarios. Y, cómo no, no podría olvidarme de Azucena, que tantos días me ha hecho compañía cuando me quedaba hasta bien tarde trabajando en el labo. A Carlos, mi maestro, que me enseñó a pensar, que alumbró el trabajo de esta tesis y cada una de sus ideas; y que siempre me ha hecho sentir de pata negra. A Susana, que es todo lo que me gustaría ser.