Urdu/Hindi Motion Verbs and Their Implementation in a Lexical Resource

Urdu/Hindi Motion Verbs and Their Implementation in a Lexical Resource

Urdu/Hindi Motion Verbs and Their Implementation in a Lexical Resource Dissertation submitted for the degree of Doctor of Philosophy presented by Annette Hautli-Janisz at the Faculty of Humanities Department of Linguistics Date of the oral examination: July 4, 2014 First supervisor: Prof. Dr. Miriam Butt Second supervisor: Dr. Tracy Holloway King Abstract A central task of natural language processing is to find a way of answering the question Who did what to whom, how, when and where? with automatic means. This requires insights on how a language realizes events and the participants that partake in them and how this information can be encoded in a human- as well as machine-readable way. In this thesis, I investigate the ways that the spatial notions of figure, ground, path and manner of motion are realized in Urdu/Hindi and I implement these insights in a computationally-usable lexical resource, namely Urdu/Hindi VerbNet. I show that in particular the encoding of complex predicates can serve as a guiding principle for the encoding of similar constructions in other VerbNets. This enterprise involves a detailed investigation of the syntax-semantics interface of motion verb constructions in Urdu/Hindi, in particular the different syntactic al- ternation patterns that realize motion events. As it turns out, Urdu/Hindi employs complex predicates of motion that denote the manner of motion along a path with two verbal heads. This construction exhibits similar syntactic properties as aspec- tual complex predicates in the language (Butt 1995). The thesis shows that the combinatorial possibilities between main verb and light verb are driven by the man- ner/result complementarity established by Levin and Rappaport Hovav (2008, 2013), according to which verbs either lexicalize non-scalar manner of motion or denote a scalar result event. An analysis of the construction in Lexical-Functional Grammar (Bresnan and Kaplan 1982, Dalrymple 2001) shows that the two predicates merge their arguments at the level of argument structure, which in turn can be mapped onto the functional representation along the lines of Bresnan and Zaenen (1990). From a typological point of view, the combination of two verbal heads denoting manner of motion along a path in a monoclausal construction shows that Urdu/Hindi belongs to the group of equipollently-framed languages (Slobin 2004, 2005). iii iv A key component of the syntax-semantics interface, in particular with respect to the combination of syntactic and semantic information in Urdu/Hindi VerbNet, is the notion of event structure. Here, I differ with respect to other VerbNets in follow- ing an approach which assumes that syntax has predictable meaning correlates. In particular, I analyze Urdu/Hindi motion verbs in the event-decompositional frame- work of the first phase (Ramchand 2008) and show that the approach provides the right level of abstraction for encoding event-structural information on Urdu/Hindi verbs in a computational lexical resource. It makes the right design decisions as to the event structure of the different syntactic alternations that Urdu/Hindi motion verbs can appear in. In particular, it accounts for complex predicates of motion and allows for a consistent theoretical-linguistic treatment of the phenomena, which provides an optimal basis for encoding the construction in the lexical resource. Urdu/Hindi VerbNet follows the general assumption of other VerbNets, e.g. English VerbNet (Kipper-Schuler 2005, Kipper et al. 2008) and Arabic VerbNet (Mousser 2011), in that semantically similar events are identified by a common syn- tactic structure. However, due to the multitude of syntactic patterns available in the class of motion verbs in Urdu/Hindi, this principle cannot be ported straight- forwardly to Urdu/Hindi. In order to overcome this issue, I combine the theoretical linguistic insights gained in this thesis with those of a computational clustering ap- proach: In particular, the subclasses arising out of the manner/result complementar- ity are further subclassified by employing an algorithmic visualization system that automatically clusters verbs according to their syntactic and semantic properties. The system offers an interactive way of investigating the resulting clusters and their coherency. This grouping of verbs is the basis for the implementation of the class of motion verbs in Urdu/Hindi VerbNet. In conclusion, the factors that determine the syntax-semantics interface of Urdu/ Hindi motion verbs allow for a multitude of theoretical insights on motion verb ex- pressions in the language. These insights are used in encoding the concept of mo- tion in Urdu/Hindi VerbNet, a resource that explicitly encodes the relation between syntactic and semantic information and complements other computational lexical re- sources for the language. The theoretical as well as computational linguistic analyses of the syntax-semantics interface of Urdu/Hindi motion verbs yield insights into the concrete realization of spatial notions in the language, namely the ways of encoding the figure, the ground, the path and the manner of motion; concepts that are present in motion verb expressions across languages. Zusammenfassung Eine zentrale Aufgabe der maschinellen Sprachverarbeitung ist die Beantwortung der Frage Wer macht was mit wem, wie, wann und wo? mit automatischen Mit- teln. Um dieses Problem zu lösen, wird Wissen darüber benötigt, wie Sprachen Ereignisse und deren Mitwirkende realisieren und wie diese Information in eine vom Menschen als auch vom Computer lesbare Repräsentation transferiert werden kann. In dieser Dissertation werden die verschiedenen Arten des sprachlichen Ausdrucks von Bewegung in Urdu/Hindi analysiert und die auf theoretisch-linguistischer Basis erworbenen Einsichten werden in eine computationelle lexikalische Ressource für die Sprache, Urdu/Hindi VerbNet, implementiert. Die Einbettung zeigt insbesondere, dass die Art der Einbettung von komplexen Prädikaten in Urdu/Hindi VerbNet als ein Anhaltspunkt für deren Analyse in anderen VerbNets dienen kann. Dieses Vorhaben beinhaltet eine detaillierte Untersuchung der Syntax-Semantik- Schnittstelle von Ausdrücken der Bewegung, insbesondere der verschiedenen syntak- tischen Alternationen von konzeptuell ähnlichen Ereignissen. Wie sich herausstellt, macht Urdu/Hindi Gebrauch von komplexen Prädikaten der Bewegung, die mithilfe zweier Verben die Art der Bewegung entlang eines Pfades ausdrücken. Diese Kon- struktion hat aus syntaktischer Sicht Ähnlichkeit mit aspektuellen komplexen Prädi- katen in der Sprache (Butt 1995). Die Dissertation zeigt, dass die Kombinations- möglichkeiten zwischen Vollverb und schwachem Verb unterliegen der “manner/result” Komplementarität (Levin and Rapport Hovav 2008, 2013), gemäß derer Verben ent- weder die Art oder das Ergebnis eines Ereignisses lexikalisieren. Eine Analyse der Konstruktion im Formalismus der Lexikalisch-Funktionalen Grammatik (Bresnan and Kaplan 1982, Dalrymple 2001) zeigt, dass die zwei Prädikate ihre Argumente auf der Ebene der A-Struktur verschmelzen, die dann mit der Ebene der funk- tionalen Repräsentation im Stil von Bresnan and Zaenen (1990) verknüpft werden kann. Aus typologischer Sicht zeigt diese Kombination, dass Urdu/Hindi zur Gruppe v vi der “equipollently-framed languages” (Slobin 2004, 2005) gehört. Eine Schlüsselkomponente der Syntax-Semantik-Schnittstelle, insbesondere im Bezug auf die Verbindung von syntaktischer und semantischer Information in Urdu/ Hindi VerbNet, stellt die Analyse der Ereignisstruktur eines Verbes dar. Hierbei unterscheide ich mich von anderen VerbNets, indem ich einen Ansatz verfolge der annimmt, dass Syntax vorhersagbare Interpretationskorrelate hat. Genauer gesagt werden Bewegungsverben auf der Basis des “first phase”-Ansatzes von Ramchand (2008) untersucht. Dabei zeigt sich, dass diese Art der Eventstrukturanalyse eine Ebene der Abstraktion liefert, die bei der Kodierung von ereignisstruktureller Infor- mation in der computationellen lexikalischen Ressource bestens geeignet ist. Darüber hinaus trifft der Ansatz die richtigen Annahmen zur Analyse der verschiedenen gram- matischen Alternationen, in denen Bewegungsverben in Urdu/Hindi realisiert wer- den können. Dies trifft insbesondere auf die komplexen Prädikate der Bewegung zu und erlaubt eine konsistente, theoretisch-linguistische Behandlung der Konstruktion, die gleichzeitig eine optimale Basis für deren Einbettung in der computationellen lexikalischen Ressource liefert. Urdu/Hindi VerbNet folgt den grundlegenden Annahmen anderer VerbNets, so zum Beispiel English VerbNet (Kipper et al. 2008) und Arabic VerbNet (Mousser 2011), indem semantisch ähnliche Events durch gemeinsame syntaktische Alterna- tionen identifiziert werden. Jedoch zeigt die Vielzahl der Alternationsmuster in de- nen Bewegungsverben in Urdu/Hindi vorkommen können, dass dieses Prinzip nicht ohne Probleme für Urdu/Hindi angewendet werden kann. Um dieses zu überwinden, kombiniere ich die theoretisch-linguistischen Einsichten mit denen eines computa- tionellen Clusteringansatzes: Die Subklassen auf der Basis der “manner/result com- plementarity” werden mithilfe eines algorithmischen Visualisierungssystems weiter unterteilt. Dadurch werden automatisch Cluster von Verben identifiziert, die sich aufgrund ihrer syntaktischen und semantischen Eigenschaften ähnlich sind. Zudem erlaubt das System einen interaktiven Einblick in die generierten Cluster und deren Zusammensetzung. Die daraus resultierende Verbgruppierung dient als Basis für die Klassifizierung

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    332 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us