A Large Coverage Verb Lexicon for Arabic
Total Page:16
File Type:pdf, Size:1020Kb
Titel der Bachelor-, Master, Diplom- oder Magisterarbeit A Large Coverage Verb Lexicon For Arabic Bachelor-, Master, Diplom- oder Magisterarbeit Dissertation submitted for the degree of Doctor of Philosophy vorgelegt von (Name, VornamePresented des/der by Studierenden) JaouadMousser anat der the Name der Sektion einfügen Name des Fachbereichs einfügen Geisteswissenschaftliche Sektion Fachbereich Sprachwissenschaft 1. Gutachter: (Name) 2. Gutachter: (Name) Datum der m¨undlichen Pr¨ufung:30.09.2013 Konstanz, Angabe des Jahres Referentin: Prof. Dr. Miriam Butt Referentin: Prof. Dr. Martha Palmer Referent: Prof. Dr. Christoph Schwarze Konstanzer Online-Publikations-System (KOPS) URL: http://nbn-resolving.de/urn:nbn:de:bsz:352-0-300004 To my parents, who always stood behind me and knew I would succeed. Gone now but never forgotten. I will miss them always and love them forever. Thanks for all you did. Acknowledgements I would like to express my deepest gratitude to my advisor, Prof. Dr. Miriam Butt, for her guidance, caring, patience, and providing me with an good atmosphere for doing research. I would like to thank Mohammed Attia, who provided me with his grammar and morpho- logical analyzer in the first phase of my work. I would like to thank Heike Zinsmeister for her advises and for giving me the opportunity to take part in her project on anaphora resolution and to assist her in her teaching on statistical language processing and automatic anaphora resolution. I would like to thank Annie Zaenan and Lauri Karttunen for giving me the opportunity to spend some months in the XEROX Research Cen- ter, where I acquired a valuable experience in the Lexical Functional Grammar and in the unification of lexical resources in a wonderful research atmosphere at the XEROX NLP lab. I also want to thank Daniel Bobrow for his inspiring discussions on verbal semantics and Dick Crouch for his explanations on the use of VerbNet in Question- Answering systems. I am grateful to Michael Strube for the months I spent in the EML research center in Heidelberg and for helping me to develop my back- ground in natural language processing. I would also like to thank Annette Hautli for proofreading my disserta- tion, Abdelatti Houari for answering my questions on Arabic grammar and morphology and Gulam Raza for his inspiring discussions on Arabic verbal semantics. Special thanks goes to my second adviser, Prof. Dr. Martha Palmer for providing me with the Arabic PropBank and the literature I needed for my work and to Christoph Schwarze, who was willing to participate in my final defense committee at the last moment. Finally I would like to thank my sisters, Saloua, Zineb and Kaoutar, my brothers, Youssef and Mouath, and my friends Abdellah Oukhlifa and Rabi Alalwani. They were always supporting me and encouraging me with their best wishes. Abstract Diese Arbeit hat das Ziel, Verben des Arabischen anhand von syn- taktischen Alternationen, auch Diathesenalternationen genannt, zu klassifizieren und am Beispiel des englischen VerbNets (Kipper Schuler, 2005) ein Verblexikon f¨urdas Arabische zu bilden. Als Ausgangpunkt gelten zwei Hauptannahmen: die erste besagt, dass die syntaktischen Alternationen die Bedeutung von Verben bewahren (Levin, 1993), so dass Verben, die am selben Set von Alternationen teilnehmen, auch die selben Bedeutungselemente haben. Die zweite Annahme besagt, dass diese Alternationen und die daraus resultieren- den Verbklassen Sprachen¨ubergreifend identifiziert werden k¨onnen (Jackendoff, 1990a,b; Talmy, 1987), sodass die etablierten Alternatio- nen und Klassen einer Sprache zum großten Teil in anderen Sprachen zu identifizieren sind. Das hier ausgef¨uhrteKlassifikationsverfahren erfolgt demnach in drei Schritten. Im ersten Schritt werden die syntaktischen Alternationen des Arabischen in drei Etappen identifiziert: a. Levins Alternationen f¨ursEnglische (Levin, 1993) werden auf ihre Pr¨asenzim Arabischen getestet, b. arabischspezifische syntaktische Alternationen werden identifiziert, c. syntaktische Alternationen, die klausale Komplemente involvieren, werden indentiziert, da sie in Levin's Alterationen nicht be- handelt werden. Im zweiten Schritt, werden sogenannte Superklassen, generische Klassen wie die Klasse der psychologischen Verben, Verben der Zustands¨anderung,Verben des Kontaktes, gebildet. Jeder dieser Klassen wird eine generische semantische Beschreibung zugeteilt, die aus semantischen Pr¨adikaten wie [CAUSE], [STATE] und [MOTION], thematischen Rollen und anderen Spezifikationen besteht. Ziel der Superklassen ist, das Inventar der Arabischen Verben in limitierten und anschaubaren Gruppen zu unterteilen, um den n¨achten Klassi- fikationsschritt zu erleichtern. Die feineren Klassen werden aus den Superklassen nach zwei Kriterien gebildet: a. wie diese Klassen die Bedeutungskomponenten der Superklassen lexikalisieren und b. wie sie diese Komponenten in der syntaktischen Ebene in Form von syn- taktischen Alternationen realisieren. Im dritten Schritt werden die resultierenden Verbklassen in einer elektronischen Format kodiert, die die morphologischen, syntaktischen und semantischen Eigenschaften reflektieren, aufgrund deren sich Verbklassen von einander unterschei- den. Eine Klasse in AVN enth¨alt eine Liste von Verben (Mitglieder), eine Liste von thematischen Rollen, eine Liste von Framen und, gegebe- nenfalls, Subklassen. Ein Frame enth¨alteine allgemeine Beschreibung seiner syntaktischen Eigenschaft oder der Alternation, in der er teil- nimmt, einen Bespielsatz und eine syntaktische Beschreibung gekoppelt mit einer semantischen Beschreibung. Die semantische Beschreibung verbindet jede thematische Rolle mit dem entsprechenden Argument und liefert eine Beschreibung der Eventsstruktur des Frames sowie seiner zeitlichen Struktur. Die zeitliche Struktur gibt Informationen dar¨uber, in welchem Zeitintervall der Event oder seine Teile stattfinden. Obwohl das arabische VerbNet (AVN) die generelle Architektur des englischen VerbNets adoptiert, f¨ugtes neue Elemente hinzu, um arabis- chspezischen Eigenschaften gerecht zu werden, wie den VSO Satzbau, den spezifischen Satzstrukturen wie den propositionalen Phrasen mit einen Objekt als klausalen Komplement, der produktiven Morpholo- gie, die Verben in vielen syntaktischen Alternationen markiert, sowie der Haufigkeit von deverbalen Strukturen. Beispiele der neuen Ele- menten sind neue lexikalische Eintr¨agewie Deverbale, Partizipien und Verbst¨amme,neue selektionale Restriktionen wie [+/-DUAL], neue Phrasetypen, neue semantische Predikate wie juridical state als spezi- fikation der generischen Pr¨adikat state in Verben der Zustands¨anderung, und nicht zuletzt ein neuer Type von Klassen, genannt Geschwisterk- lassen (sibling classes). Eine Geschwisterklasse beherbergt Verben, die in Alternationen teilnehmen, die eine morphologische Markierung des beteiligten Verbs erfordern. Viele der Geschwisterklassen werden automatisch mit einer Methode gebildet, die die internen Informationen der Klassen sowie die morphologische Struktur des Verbes ausnutzt. Die Evaluation von AVN erfolgt durch den Vergleich mit einem, vom Informationsgehalt her, ¨ahnlichen Lexikon, dem Arabischen PropBank (APB) (Palmer et al., 2008). Der Vergleich hob AVN gegen APB im Bezug auf den Umfang (Zahl der Eintr¨age,Zahl der Framen, Zahl der thematischen Rollen pro Klasse) hervor. Er zeigt gleichzeitig eine große Ubereinstimmung¨ in der Bedeutungszuweisung von klassen in beiden Lexika (Zahl und typen von Bedeutung pro Eintrag), in der Zuweisung von thematischen Rollen und im Type und der Zahl der Framen pro Klasse. Abstract This dissertation aims at classifying verbs in Arabic using syntactic alternations for the purpose of a large coverage verb lexicon inspired by the work of Kipper Schuler(2005) on English VerbNet. The main assumption is that the diathesis alternations are meaning preserving (Levin, 1993) and can be identified cross-linguistically. The classification schema includes three steps. First, building an alternation collection for Arabic to be used as filter for classifying verbs by a. testing the availability of Levin's alternations in Ara- bic, b. collecting Arabic-specific alternations, c. building a set of alternations involving complement clauses, which are not concidered by Levin. Second, building coarse-grained classes (super-classes) and providing them we generalized semantic descriptions composed of se- mantic predicates, thematic roles and other specifications and building finer-grained classes of verbs out of them considering two main criteria: a. how verbs lexicalize the meaning components of the super-classes and b. how they realize these components in the syntactic level (as diathesis alternations). Third, encoding the resulting classes into a computer readable form to reflect the morphologic, syntactic and se- mantic properties by virtue of which classes are distinguished from each others. The resulting lexicon, Arabic VerbNet, adopts the general architecture and the information elements of the English VerbNet, however, it adds many features to reflect the Arabic-specific properties such as the word order which is predominantly VSO, specific phrase structures such as PPs with clausal or deverbal objects and the pro- ductive derivational behavior of verbs which forces them to be marked in some alternations. Examples of new features are new entry types such as deverbals and participles, new selectional restrictions, new phrases types, new semantic predicates and a new class type called \sibling class". Sibling classes accommodate