Information-Theoretic Causal Inference of Lexical Flow
Total Page:16
File Type:pdf, Size:1020Kb
Information-Theoretic Causal Inference of Lexical Flow Dissertation zur Erlangung des akademischen Grades Doktor der Philosophie in der Philosophischen Fakultät der Eberhard Karls Universität Tübingen vorgelegt von Johannes Dellert aus Stade Juli 2017 Erstbetreuer: Prof. Dr. Gerhard Jäger Zweitbetreuer: Prof. Dr. Friedrich Hamm Abstract This thesis starts out with the idea of modeling human languages as variables, and proceeds to define a conditional independence relation between the core vocabularies of languages. The conditional independence relationships are then used to infer two types of directed net- works over languages which have all the properties of causal graphs. Such a graph can be interpreted as a parsimonious explanation of how the lexicon of the investigated languages was shaped by inheritance and contact. Many preparatory steps were necessary to arrive at good test data for the new methods. Since none of the existing lexical databases has all the characteristics necessary for auto- matic computation of lexical overlaps across language family boundaries, considerable effort was put into compiling a new lexical database of Northern Eurasia from dictionary data. This database contains data for an unusually large list of more than a thousand concepts, and is the first database to cover the languages of a large continuous geographic area with more than 20 language families in a unified phonetic format. In this thesis, the phonetic forms are clustered into approximate cognate sets by means of information-weighted sequence alignment. This new alignment method makes it possible to refine established methods for automated cognacy detection in such a way that they work on dictionary forms, making it unnecessary to manually reduce all words to their stems before running cognate detection on them. The core part of this thesis starts by turning the cognacy overlaps into a consistent in- formation measure for sets of languages. This results in a conditional mutual information measure which quantifies a notion of lexical flow, where the lexical material needs to be distributed via paths connecting languages to explain their overlap. Standard causal in- ference algorithms are then applied to conditional independence constraints arising from vanishing mutual information. In phylogenetic lexical flow inference (PLFI), ancestral state reconstruction methods from bioinformatics are used to reconstruct cognates for the unat- tested proto-languages, which become part of the flow model as sources of lexical overlaps between related languages. In contrast, contact lexical flow inference (CLFI) does not ex- plicitly model the proto-languages, which then act as latent confounders causing spurious dependencies. This is not necessarily a problem for causal inference, because some advanced causal inference algorithms can distinguish such dependence relations from those caused by a direct causal relationship. In both variants, the discrete and unrealiable nature of the cog- nate data makes it necessary to develop alternative methods for the different steps of causal inference, with the purpose of increasing robustness against erroneous cognacy judgments. Both methods are evaluated on the lexical database as well as large amounts of simulated cognacy data. The model used to generate the simulated data is based on a simple evolution- ary model which models language change by lexical replacement and borrowing on the level of indidual words. The model is shown to produce realistic cognate data which will also be of use in validating other methods for inferring evolutionary networks from cognacy-encoded language data. Zusammenfassung Diese Arbeit beginnt mit der Idee, Sprachen als Variablen zu modellieren, und entwickelt eine bedingte Unabhängigkeitsrelation zwischen den Kernwortschätzen von Sprachen. Solche bedingten Unabhängigkeiten werden dann genutzt, um zwei neue Typen von gerichteten Net- zwerken über Sprachen zu inferieren. Die Netzwerke haben die Eigenschaften von kausalen Graphen, können also als minimale Erklärungen interpretiert werden, wie der Wortschatz der untersuchten Sprachen durch Vererbung und Sprachkontakt geformt wurde. Viele vorbereitende Schritte waren nötig, um gute Testdaten zur Bewertung der neuen Methoden zu erhalten. Da keine der bestehenden lexikalischen Datenbanken alle notwendi- gen Eigenschaften für die automatisierte Berechnung von lexikalischen Überlappungen über Sprachfamiliengrenzen hinweg besaß, musste viel Aufwand in die Zusammenstellung einer neuen lexikalischen Datenbank Nordeurasiens gesteckt werden. Diese Datenbank enthält Daten für eine ungewöhnlich lange Liste von mehr als 1.000 Konzepten, und deckt erstmals die Sprachen eines großen zusammenhängenden Gebietes mit mehr als 20 Sprachfamilien in einem einheitlichen phonetischen Format ab. Im Rahmen der vorliegenden Arbeit werden die rohen phonetischen Daten für jedes Konzept zunächst in Kognatenklassen zusammengefasst. Dies geschieht mit Hilfe einer neuen informations- gewichteten Alinierungsmethode, mit der bestehende Methoden für die automatische Kog- natenerkennung so verfeinert werden können, dass sie sich auch zur Verarbeitung von Wörter- buchformen eignen, ohne dass vorher von Hand der Wortstamm zu jedem einzelnen zu ver- gleichenden Wort bestimmt werden muss. Im Kernteil der Arbeit wird dann ein Informationsmaß für Mengen von Sprachen anhand der lexikalischen Überlappungen definiert. Das sich daraus ergebende Maß für bedingte Transinformation mathematisiert die Intuition eines Flusses von lexikalischen Material, das auf bestimmten Pfaden zwischen Sprachen verteilt werden muss, weil sonst die Überlap- pungen nicht erklärbar sind. Standardalgorithmen der kausalen Inferenz werden dann auf mit Hilfe des Informationsmaßes definierten bedingten Unabhängigkeiten ausgeführt. In der phylogenetischen Variante werden dabei die Kognatenklassen der in den Daten nicht vorhan- denen Ursprachen mittels Standardmethoden aus der Bioinformatik rekonstruiert, um damit auch die Ursachen für lexikalische Überlappungen zwischen verwandten Sprachen als Teil des Modells zu haben. In der Kontaktfluss-Variante werden die Ursprachen nicht explizit mod- elliert, sondern spielen die Rolle von Störfaktoren, deren Wirkung einige wenige Methoden für die kausale Inferenz von direktem Kontakt zwischen den verwandten Sprachen unter- scheiden können. In beiden Varianten müssen angesichts der diskreten und unzuverlässigen Natur der Kognatendaten spezielle Methoden für die Zwischenschritte der kausalen Inferenz entwickelt werden, die weniger leicht von einzelnen Fehlurteilen bei der Kognatenerkennung aus der Bahn geworfen werden. Neben der Auswertung auf den gesammelten lexikalischen Daten werden alle Methoden auch auf simulierten Daten getestet. Das für diesen Zweck entwickelte Simulationsmodell gener- iert anhand eines einfachen evolutionären Prozesses, in dem Sprachwandel durch lexikalische Substitution und Entlehnungen auf der Kognatenebene modelliert wird, realistische Kogna- tendaten, die sich zur Validierung von Methoden zur Inferenz evolutionärer Netzwerke auf Basis kognatenkodierter Daten eignen. Acknowledgements Many people have contributed to the completion of this work. My advisor Gerhard Jäger provided me with a stable and rich research environment, with lots of opportunities to meet fascinating people, while always leaving me a maximum of freedom to explore my linguistic interests. He also provided the seed idea which this thesis grew out of, and when initial experiments failed due to low data quality, he gave me the chance to spend time and re- sources on collecting high-quality data. He also helped with many suggestions nudging me towards a more empirical approach in many design decisions, and was always very quick to help with technical issues. Finally, I thank him for his patience when many parts of the work described here took longer than expected. Fritz Hamm, my second advisor, is not only the person who got me interested in causal inference, but over the past twelve years, he has also been the person to waken my interest first in logic, then in mathematics, and has been a source of encouragement and inspiration for my more formal side ever since. Igor Yanovich has given me much advice on which parts of my work to prioritize, and accom- panied the process of working out the mathematical details with a critical eye, also providing vital moral support whenever a new algorithmic idea did not lead to the results I had hoped for. I also thank Armin Buch and Marisa Köllner for the enjoyable collaboration on some of the research leading up to this thesis, as in determining the concept list for NorthEuraLex, and allowing me to test parts of my implementation in different contexts. I am also very grateful to all the other EVOLAEMP members for helpful discussion and feedback on the many occasions where I presented preliminary results to the group. I particularly enjoyed teaching with Christian Bentz and Roland Mühlenbernd, and exchanging experiences and knowledge with Johannes Wahle and Taraka Rama on many occasions. Among the many other researchers I have had the pleasure to communicate with during the past four years, there are some which provided particularly important bits of advice and information, which is why I would like to mention them here. Johann-Mattis List, Søren Wichmann, Gereon Kaiping, Harald Hammarström, Michael Dunn, and Robert Forkel pro- vided valuable advice about lexical databases, issues of standardization, and best practices. Johanna Nichols and Balthasar Bickel