Measurements of Grammaticalization: Developing a Quantitative Index for the Study of Grammatical Change
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSITÉ DE NEUCHÂTEL FACULTÉ DES LETTRES ET SCIENCES HUMAINES INSTITUT DE LANGUE ET LITTÉRATURE ANGLAISES & UNIVERSITEIT ANTWERPEN FACULTEIT LETTEREN EN WIJSBEGEERTE DEPARTEMENT TAALKUNDE Measurements of Grammaticalization: Developing a quantitative index for the study of grammatical change Thèse présentée pour l’obtention du titre de docteur ès lettres en anglais auprès de l’Université de Neuchâtel par Proefschrift voorgelegd tot het behalen van de graad van doctor in de Taalkunde aan de Universiteit Antwerpen te verdedigen door David Correia Saavedra Le 7 juin 2019 Membres du jury : Martin Hilpert, co-directeur de thèse, professeur, Université de Neuchâtel Peter Petré, co-directeur de thèse, professeur, Universiteit Antwerpen, Belgique Elena Smirnova, professeure, Université de Neuchâtel Hendrik de Smet, professeur, KU Leuven, Belgique Marianne Hundt, professeure, Université de Zürich This dissertation was funded by the following SNF projects : “Why is there regularity in grammatical semantic change? Reassessing the explanatory power of asymmetric priming” (SNF Grant 100015_149176) “Measurements of Grammaticalization: Developing a quantitative index for the study of grammatical change” (SNF Grant P1NEP1_171937) Abstract There is a broad consensus that grammaticalization is a process that is gradual and largely unidirectional: lexical elements acquire grammatical functions, and grammatical elements can undergo further grammaticalization (Hopper and Traugott 2003). This consensus is based on substantial cross-linguistic evidence. While most existing studies present qualitative evidence, this dissertation discusses a quantitative approach that tries to measure degrees of grammaticalization using corpus-based variables, thereby complementing existing qualitative work. The proposed measurement is calculated on the basis of several parameters that are known to play a role in grammaticalization (Lehmann 2002, Hopper 1991), such as token frequency, phonological length, collocational diversity, colligate diversity, and dispersion. These variables are used in a binary logistic regression model which can assign a score to a given linguistic item that reflects its degree of grammaticalization. Grammaticalization can be conceived in synchrony and in diachrony. The synchronic view of grammaticalization is concerned with the fact that some items are more grammaticalized than others, which is commonly referred to as gradience. The diachronic view is concerned with the development of grammatical elements over time, whereby elements become increasingly more grammatical through small incremental steps, which is also known as gradualness. This dissertation proposes studies that deal with each of these views. In order to quantify the gradience of grammaticalization, data from the British National Corpus is used. 264 lexical and 264 grammatical elements are selected in order to train a binary logistic regression model. This model can rank these items and determine which ones are more lexical or more grammatical. The results indicate that the model makes successful predictions overall. In addition, generalizations regarding grammaticalization can be supported, such as the relevance of key variables (e.g. token frequency, diversity to the left of a given item) or the ranking of morphosyntactic categories as a whole (e.g. adverbs are on average in between the lexical and grammatical categories). The gradualness of grammaticalization is investigated using a selection of twenty elements that have grammatical and lexical counterparts in English (e.g. keep). The Corpus of Historical American English (1810s-2000s) is used to retrieve the relevant data. The aim is to check how the different variables and the grammaticalization scores develop over time. The main theoretical value of this approach is that it can offer an empirically operationalized way of measuring unidirectionality in grammaticalization, as opposed to a more qualitative observation based on individual case studies. Keywords: grammaticalization, gradience, gradualness, binary logistic regression, quantitative linguistics, corpus linguistics, grammatical change. Résumé Il existe un large consensus sur le fait que la grammaticalisation est un processus graduel et largement unidirectionnel : les éléments lexicaux acquièrent des fonctions grammaticales et les éléments grammaticaux peuvent ensuite se grammaticaliser d’avantage (Hopper et Traugott 2003). Ce consensus est fondé sur des observations consistantes entre plusieurs langues. Alors que la plupart des études existantes présentent des données qualitatives, cette thèse propose une approche quantitative qui tente de mesurer les degrés de grammaticalisation à l'aide de variables basées sur des corpus, complémentant ainsi le travail qualitatif existant. La mesure proposée est calculée sur la base de plusieurs paramètres connus pour jouer un rôle dans la grammaticalisation (Lehmann 2002, Hopper 1991), tels que la fréquence (token), la longueur phonologique, la diversité des collocats, la diversité des colligats et la dispersion. Ces variables sont utilisées dans un modèle de régression logistique binaire qui peut attribuer un score à un élément linguistique donné qui reflète son degré de grammaticalisation. La grammaticalisation peut être conçue en synchronie et en diachronie. La vision synchronique de la grammaticalisation concerne le fait que certains éléments sont plus grammaticalisés que d'autres, ce que l'on appelle communément la gradience. La vue diachronique concerne le développement d'éléments grammaticaux au fil du temps, les éléments devenant de plus en plus grammaticaux par petits pas incrémentiels, ce qu'on appelle aussi la gradualité. Cette thèse propose des études qui traitent de chacun de ces points de vue. Pour quantifier la gradience de la grammaticalisation, des données du British National Corpus sont utilisées. 264 éléments lexicaux et 264 éléments grammaticaux sont sélectionnés pour entraîner un modèle de régression logistique binaire. Ce modèle peut classer ces éléments et déterminer ceux qui sont plus lexicaux ou plus grammaticaux. Les résultats indiquent que le modèle fait des prédictions réussies dans l'ensemble. De plus, des généralisations concernant la grammaticalisation peuvent être soutenues, comme la pertinence des variables clés (p.ex. la fréquence token et la diversité à gauche d'un élément donné) ou le classement des catégories morphosyntaxiques dans leur ensemble (p.ex. les adverbes se situent en moyenne entre les catégories lexicales et grammaticales). La gradualité de la grammaticalisation est étudiée à l'aide d'une sélection de vingt éléments qui ont des équivalents grammaticaux et lexicaux en anglais (p.ex. keep). Le Corpus of Historical American English (1810s-2000s) est utilisé pour récupérer les données pertinentes. L'objectif est de vérifier l'évolution dans le temps des différentes variables et des scores de grammaticalisation. La principale valeur théorique de cette approche est qu'elle peut offrir une façon empiriquement opérationnelle de mesurer l'unidirectionnalité en grammaticalisation, par opposition à une observation plus qualitative basée sur des études de cas individuels. Mots-clés: grammaticalisation, gradience, gradualité, régression logistique binaire, linguistique quantitative, linguistique des corpus, changement grammatical. Samenvattig Er bestaat een brede consensus dat grammaticalisatie als proces geleidelijk en grotendeels in één richting verloopt: lexicale elementen verwerven grammaticale functies, en grammaticale elementen kunnen verdere grammaticalisatie ondergaan (Hopper en Traugott 2003). Deze consensus is gebaseerd op substantieel cross-linguïstisch bewijs. Waar echter de meeste bestaande studies kwalitatief bewijs leveren, werkt dit proefschrift een kwantitatieve benadering uit die de graad van grammaticalisatie tracht te meten aan de hand van corpusgebaseerde variabelen, complementair aan bestaand kwalitatief werk. De voorgestelde maat wordt berekend op basis van verscheidene parameters waarvan bekend is dat ze een rol spelen in grammaticalisatie (Lehmann 2002, Hopper 1991), zoals tokenfrequentie, fonologische lengte, collocationele diversiteit, colligationele diversiteit, en spreidingsgraad. Deze variabelen worden gebruikt in een binair logistisch regressiemodel dat een score kan toekennen aan een specifiek taalitem, die de grammaticalisatiegraad ervan weerspiegelt. Grammaticalisatie kan sychroon of diachroon worden opgevat. Het synchrone perspectief betreft het gegeven dat sommige items meer gegrammaticaliseerd zijn dan andere, een gegeven dat algemeen bekend staat als de grammaticalisatiegradiënt. Het diachrone perspectief heeft betrekking op de ontwikkeling van grammaticale elementen in de loop der tijd, waarbij elementen in steeds grammaticaler worden door kleine incrementele stapjes, een fenomeen dat bekend staat als de geleidelijkheid van grammaticalisatie. Dit proefschrift presenteert studies die elk van deze perspectieven omvatten. Om de grammaticalisatiegradiënt te kunnen kwantificeren, wordt gebruik gemaakt van data uit het British National Corpus. 264 lexicale en 264 grammaticale elementen werden geselecteerd om een binair logistisch model te trainen. Dit model kan deze items rangschikken en bepalen welke eerder lexicaal zijn en welke eerder grammaticaal. De resultaten geven aan dat het model over het geheel genomen succesvolle voorspellingen maakt. Bovendien bieden ze steun aan generalisaties met betrekking tot grammaticalisatie, zoals de relevantie van