Finite Mixtures for the Modelling of Heterogeneity in Ordinal Response

Finite Mixtures for the Modelling of Heterogeneity in Ordinal Response

Micha Andreas Hermann Schneider Finite Mixtures for the Modelling of Heterogeneity in Ordinal Response Dissertation an der Fakult¨at fur¨ Mathematik, Informatik und Statistik der Ludwig-Maximilians-Universit¨at Munchen¨ Eingereicht am 7.8.2019 1. Berichterstatter: Prof. Dr. Gerhard Tutz 2. Berichterstatter: Prof. Dr. Matthias Schmid 3. Berichterstatter: Prof. Dr. Christian Heumann Tag der Disputation: 29.11.2019 Zusammenfassung Die Modellierung von Heterogenit¨at ist ein entscheidender Aspekt in jeder statis- tischen Analyse. Um ein geeignetes Modell zu finden, ist es notwendig, m¨oglichst alle relevanten Strukturen und Einflussgr¨oßen einzubeziehen. Die meisten statisti- schen Modelle k¨onnen leicht beobachtete Strukturen einbinden, jedoch haben sie oft Schwierigkeiten latente Strukturen abzubilden. Misch-Modelle k¨onnen Heteroge- nit¨at berucksichtigen,¨ die aus zugrunde liegenden latenten Strukturen entstehen, wie etwa die unbeobachtete Zugeh¨origkeit zu verschiedenen Gruppen oder unterschied- liches Antwortverhalten. Mit dieser Doktorarbeit m¨ochte ich einen Beitrag fur¨ die Verwendung von Misch-Modellen zur Modellierung von Heterogenit¨at bei ordinalen Zielgr¨oßen leisten und Variablen Selektion in diesem Kontext durchfuhren.¨ Zuerst konzentriere ich mich auf Heterogenit¨at, die bei Umfragen auftritt, wenn beispielsweise die Befragten bei der Wahl einer bestimmten geordneten Kategorie unsicher sind. In diesem Fall bestehen die Misch-Modelle ublicherweise¨ aus einer Pr¨aferenz-Komponente und einer Unsicherheits-Komponente. Ein Gewicht bestimmt die Neigung jeder Person zu einer dieser beiden Komponenten zu geh¨oren. Das exis- tierende CUB Modell verwendet eine verschobene Binomialverteilung fur¨ die erste und eine Gleichverteilung fur¨ die zweite Komponente. Im vorgeschlagenem CUP Modell wird die Pr¨aferenz-Komponente mit einem beliebigen ordinalen Modell wie dem kumulativen Logit Modell ersetzt, um eine h¨ohere Flexibilit¨at in der Pr¨aferenz- Komponente zu erreichen. Im BetaBin Modell wird das Konzept der Unsicherheit als zuf¨allige Wahl einer Kategorie so erweitert, dass Unsicherheit auch die Tendenz zu der zentralen Kategorie und extremen Kategorien erfasst. Auf diese Weise wird die Gleichverteilung des CUP Modells durch einer flexiblere, beschr¨ankte Beta-Binomial Verteilung ersetzt. Als zweites zeige ich, wie diskrete Cure Modelle verwendet werden k¨onnen, um in der Survival-Analyse fur¨ diskrete Zeit mit Heterogenit¨at umzugehen, die aus der unbeobachteten Zugeh¨origkeit zu verschiedenen Gruppen entsteht. Cure“ bezeich- ” net dabei den Umstand, dass eine Gruppe von Beobachtungen geheilt ist“ oder als ” sogenannte Langzeit-Uberlebende¨ charakterisiert ist, w¨ahrend die andere Gruppe dem Risiko des Ereignisses wie zum Beispiel Eintritt von Arbeitslosigkeit“ ausge- ” setzt ist. Die Zugeh¨origkeit zu dieser Gruppe ist unbekannt. Cure Modelle sch¨atzen die Wahrscheinlichkeit zur Nicht-geheilten Population zu geh¨oren und die Form der Survival Funktion fur¨ die Beobachtungen unter Risiko. Drittens fuhre¨ ich Variablen Selektion fur¨ das CUB, CUP und das Cure Modell mit Hilfe von Penalisierung und teilweise schrittweise Selektionsverfahren durch. Die Herausforderung liegt insbesondere darin zu entscheiden, welche Variablen in welche Komponente des Misch-Modells aufgenommen werden sollen. Variablen k¨onnen hier zum einen fur¨ die Sch¨atzung der Gewichte der Komponenten und zum anderen fur¨ die Form einer oder zwei Misch-Komponenten verwendet werden. Es werden dafur¨ spezifische Bestrafungsterme vorgestellt, die fur¨ das jeweilige Modell geeignet sind. Alle Modelle werden mit dem EM-Algorithmus gesch¨atzt, der die unbekannte Zu- geh¨origkeit zu einer der Komponenten als fehlende Daten behandelt. Es werden auch einige computationale Aspekte besprochen wie etwa mit der Initialisierung und der Konvergenz umzugehen ist. Die penalisierte Likelihood wird mit dem sogenannten FISTA Algorithmus gesch¨atzt, da die Ableitungen der penalisierten Likelihood nicht existieren. Es werden sowohl Simulations-Studien als auch reelle Daten verwendet, um die Nutzlichkeit¨ der neuen Ans¨atze aufzuzeigen. Abstract Modelling heterogeneity is a crucial aspect of every statistical analysis. To find a reasonable model, it is necessary to include all relevant structures and explanatory variables. Most statistical models can easily include observed patterns but have often difficulties in dealing with latent structures. Mixture models can account for heterogeneity which arise from latent underlying structures, for example, the unobserved membership to different groups or different response styles. In this thesis, I contribute to the use of mixture models to model heterogeneity in ordinal response and perform variable selection in this context. First, I focus on heterogeneity, which occurs in surveys when, for instance, re- spondents are uncertain about choosing a certain ordered category. In this case, the mixture model traditionally consists of a preference component and an uncertainty component. A weight determines the propensity of each person belonging to one of these components. The traditional CUB model uses a shifted binomial distribution for the first and a uniform distribution for the later component. In the proposed CUP model, the preference component is replaced by any ordinal model, such as the cumulative logit model or the adjacent category model, to achieve more flexibility in the preference component. In the BetaBin model, the concept of uncertainty, understood as a random choice of a category, is extended in such a way that uncer- tainty can also capture the tendency to the middle and extreme categories. Thus, the uniform distribution of the CUP model is replaced by a more flexible restricted beta-binomial distribution. Second, I show how discrete cure models can be used for dealing with heterogeneity in the survival analysis for discrete time arising from the unobserved membership to different groups. “Cure” refers to the fact that one group of observations is “cured” or characterized as long-term survivors, while the other group is exposed to the risk of the event such as the “occurrence of unemployment”. The membership to this group is unknown. Cure models estimate the probability for belonging to the non- cured population and the shape of the survival function of the observations under risk. Third, I perform variable selection for the CUB, the CUP and the cure model using penalization techniques and to some extend stepwise selection procedures. In particular, the challenge is to decide which variables should be included in which component of the mixture model. On the one hand, variables can be used to estimate the weights of the components and on the other hand, for the shape of one or two mixture components. Therefore, specific penalty terms are presented which are appropriate for the particular model. All models are estimated with the EM-Algorithm which treats the unknown mem- bership to the components as missing data. I also address some computational issues, for instance, how to deal with initialization and convergence. The penalized likeli- hood is estimated with the so-called FISTA algorithm since the derivatives of the penalized likelihood do not exist. Both simulation studies and real data applications are used to demonstrate the usefulness of the new approaches. Acknowledgements Ich m¨ochte mich bedanken bei . • meinem Doktorvater Prof. Dr. Gerhard Tutz fur¨ seine hervorragende Be- treuung und den konstruktiven und produktiven Austausch zu wissen- schaftlichen Fragen, • Prof. Dr. Matthias Schmid und Prof. Dr. Christian Heumann fur¨ die Be- reitschaft meine Dissertation zu begutachten und hilfreiche Impulse, • Prof. Dr. Thomas Augustin fur¨ seine offene Tur¨ und Ubernahme¨ des Vor- sitz in meiner Prufungskommision¨ und Prof. Dr. Helmut Kuchenhoff¨ fur¨ die Mitwirkung in meiner Prufungskommission,¨ • meinen ehemaligen Kollegen am Lehrstuhl fur¨ angewandte Stochas- tik Gunther Schauberger, Moritz Berger und insbesondere Wolfgang P¨oßnecker fur¨ ihr offenes Ohr bei Fragen und produktiven Diskussionen, • allen weiteren Mitarbeitern am Institut fur¨ Statistik, insbesondere den Mitgliedern der “Mensa”-Gruppe und der Arbeitsgruppe Augustin, fur¨ viele Gespr¨ache und entspannte Mittagspausen, • Ingrid Mauerer und Paul Fink fur¨ den kollegialen Austausch, • allen, die mich w¨ahrend der Promotionszeit unterstutzt¨ haben, insbeson- dere meinen Eltern, die immer fur¨ mich da waren. Overview 1. Introduction2 2. The Nature of Ordinal Data6 2.1. Ordinal Data as Predictors.....................6 2.2. Regression Models for Ordinal Response..............7 2.2.1. The Cumulative Model...................7 2.2.2. The Sequential Model....................8 2.2.3. The Adjacent Categories Model...............9 2.2.4. The Generalized Linear Model...............9 3. Modelling Heterogeneity in Surveys 10 3.1. The CUB Model........................... 12 3.2. The CUP Model........................... 14 3.3. The BetaBin Model......................... 16 3.4. The CAUB Model.......................... 20 3.5. Further Extensions of the CUB Model............... 21 3.6. Some Non-Mixture Approaches to Model Heterogeneity in Surveys 23 4. Discrete Survival Analysis 25 4.1. The Discrete Cure Model...................... 27 4.2. Some Related Approaches...................... 28 5. Variable Selection 30 5.1. Variable Selection in CUB- and CUP Models........... 31 5.2. Variable Selection in Cure Models................. 32 5.3. Further Remarks........................... 33 6. Estimation

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    227 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us