Gaussian Process Models for Robust Regression, Classiﬁcation, and Reinforcement Learning

Gaussian Process Models for Robust Regression, Classification, and Reinforcement Learning Vorgelegt von Diplom Informatiker Malte Kuß aus Wolfsburg März 2006 Genehmigte Dissertation zur Erlangung des akademischen Grades Doctor rerum naturalium (Dr. rer. nat.) am Fachbereich Informatik der Technischen UniversitätDarmstadt (Hochschulkennziffer D17) Erstreferent: Prof. Dr. Thomas Hofmann Eingereicht am 13. Februar 2006 Korreferenten: PhD. Carl E. Rasmussen Tag der Disputatiton 21. März2006 Prof. Dr. Bernt Schiele Erklärung Hiermit erkläreich, daß ich die vorliegende Arbeit—mit Ausnahme der in ihr ausdrücklich genannten Hilfen—selbständig verfasst habe. Wissenschaftlicher Werdegang 10/96 – 02/02 Studium der Informatik an der Technischen UniversitätBerlin • Nebenfach Wirtschaftswissenschaften (VWL) • Studienschwerpunkte: Statistik, Maschinelles Lernen, Soft- waretechnik, Datenbanken, Mikroökonomie, Spieltheorie • Diplomarbeit am Lehrstuhl fürWirtschaftsmathematik und Statistik zum Thema ,,Non-linear Multivariate Analysis with Geodesic Kernels” (Prof. Kockelkorn) • Diplom mit Auszeichnung 07/02 – 03/06 Doktorand am Max-Planck-Institut für biologische Kybernetik, Tübingen • Arbeitsgruppe fürempirische Inferenz (Prof. Schölkopf) • Forschungsinteressen: Bayesianische Statistik, Entschei- dungstheorie, Monte Carlo Methoden • Promotion an der Technischen Universität Darmstadt (Prof. Hofmann) Referenz @PhdThesis{Kuss:06, author = {M. Kuss}, title = {Gaussian Process Models for Robust Regression, Classification, and Reinforcement Learning}, school = {Technische Universit{\"a}t Darmstadt}, year = {2006} } Zusammenfassung Die vorliegende Arbeit beschäftigtsich mit Erweiterungen und Anwendungen einer Klasse von statistischen Modellen, den so genannten Gauß-Prozess Modellen. Methoden des überwachten Lernens, wie sie z.B. in der Regressions- und Diskriminanzanalyse verwendet werden, zielen darauf ab, Abhängigkeiten zwischen Variablen zu identifizieren und das so gewonnene Verständnis über den datengenerierenden Prozess zur Vorhersage zu nutzen. Die in dieser Arbeit untersuchten Modelle beruhen auf der Annahme, dass diese Abhängigkeiten in einen systematischen Zusammenhang und eine zufällige Kom- ponente zerlegt werden können, wobei die systematische Zusammenhang mittels einer latenten Funktion beschrieben werden kann. Als Gauß-Prozess Modelle bezeichnet man statistische Modelle, in denen ein Gauß-Prozess verwendet wird, um die Bayesianische a priori Unsicherheit über diese latente Funktion zu beschreiben. Nach einer kurzen Einführung in die Bayesianische Statistik in Kapitel 2 wird in Kapi- tel 3 die Klasse der Gauß-Process Modelle detailliert beschrieben. Darüber hinaus wird darauf eingegangen, wie der Gauß-Prozess zur Beschreibung der a priori Unsicherheit verstanden werden kann. Der konzeptionellen Klarheit des Bayesianischen Ansatzes stehen oftmals praktis- che Schwierigkeiten gegenüber, da die auftretenden Integrale nicht analytisch lösbar sind. Approximationstechniken sind daher von zentraler Bedeutung fürdie Anwen- dung Bayesianischer Methoden in der praktischen Datenanalyse. In Kapitel 4 werden Laplaces Methode, Expectation Propagation und Markov chain Monte Carlo Verfahren beschrieben sowie deren Anwendung in Gauß-Prozess Modellen. Unter den Gauß-Prozess Modellen sticht das Regressionmodell mit normalverteilter Störgrößeheraus, da unter diesen Annahmen Bayesianische Inferenz analytisch hand- habbar ist und die a posteriori Unsicherheit über die latente Funktion ebenfalls durch einen Gauß-Process beschrieben werden kann. Allerdings macht die Annahme der Nor- malverteilung das Modell sensitiv gegenüber Ausreissern, d.h. Beobachtungen die stark von der systematischen Struktur abweichen. Kapitel 5 beschreibt verschiedene Gauß- Prozess Modelle für nichtlineare robuste Regressionsanalyse. In diesen robusten Re- gressionsmodellen wird die Verteilung der Störgrößedurch eine leptokurtotische (heavy- tailed) Verteilungen beschrieben. Kapitel 6 beschäftigt sich mit dem Gauß-Prozess Modell zur binärenKlassifikation- sanalyse. In der Literatur finden sich verschiedene Ansätze, wie man Bayesianische Inferenz in diesem Modell approximieren kann. Allerdings bestand bisher Unklarheit darüber wie akkurat diese Näherungsverfahren sind und welches in der Praxis zu bevorzu- gen ist. Dieses Fragen werden sowohl theoretisch durch eine Betrachtung der Struktur der a posteriori Verteilung als auch experimentell durch einen Vergleich mit aufwendigen Markov chain Monte Carlo Simulationen beantwortet. i Als Reinforcement Lernen bezeichnet man die das adaptive Lernen in sequentiellen Entscheidungsproblemen. Kapitel 7 beschreibt Anwendungen von Gauß-Prozess Regres- sionsmodellen für Reinforcement Lernen in Problem mit kontinuierlichen Zustandsräumen. Dabei werden verschiedene Möglichkeiten vorgestellt wie man Gauss-Prozesse nutzen kann, um die Effekte der Entscheidungen vorherzusagen und um die so genannte Value Funktion zu repräsentieren. ii Summary Gaussian process models constitute a class of probabilistic statistical models in which a Gaussian process (GP) is used to describe the Bayesian a priori uncertainty about a latent function. After a brief introduction of Bayesian analysis, Chapter 3 describes the general construction of GP models with the conjugate model for regression as a special case (O’Hagan, 1978). Furthermore, it will be discussed how GP can be interpreted as priors over functions and what beliefs are implicitly represented by this. The conceptual clearness of the Bayesian approach is often in contrast with the practical difficulties that result from its analytically intractable computations. Therefore approximation techniques are of central importance for applied Bayesian analysis. Chap- ter 4 describes Laplace’s method, the Expectation Propagation approximation, and Markov chain Monte Carlo sampling for approximate inference in GP models. The most common and successful application of GP models is in regression problems where the noise is assumed to be homoscedastic and distributed according to a normal distribution. In practical data analysis this assumption is often inappropriate and inference is sensitive to the occurrence of more extreme errors (so called outliers). Chapter 5 proposes several variants of GP models for robust regression and describes how Bayesian inference can be approximated in each. Experiments on several data sets are presented in which the proposed models are compared with respect to their predictive performance and practical applicability. Gaussian process priors can also be used to define flexible, probabilistic classification models. Again, exact Bayesian inference is analytically intractable and various approximation techniques have been proposed, but no clear picture has yet emerged, as to when and why which algorithm should be preferred. Chapter 6 presents a detailed ex- amination of the model, focusing on the question which approximation technique is most appropriate by investigating the structure of the posterior distribution. An experimental study is presented which corroborates the theoretical insights. Reinforcement learning deals with the problem of how an agent can optimise its be- haviour in a sequential decision process such that its utility over time is maximised. Chapter 7 addresses applications of GPs for model-based reinforcement learning in continuous domains. If the environment’s response to the agent’s actions can be predicted using GP regression models, probabilistic planning and an approximate policy iteration algorithm can be implemented. A core concept in reinforcement learning is the value function, which describes the long-term strategic value of a state. Using GP models we are able to solve an approximate continuous equivalent of the Bellman equations, and it will be shown how this can be used to estimate value functions. iii Contents Acknowledgements ix Symbols & Abbreviations xi 1. Introduction 1 2. Bayesian Analysis 5 2.1. Bayesian Inference . 6 2.2. Bayesian Decision Theory . 8 2.3. Model Comparison and Model Selection . 10 2.3.1. Bayesian Model Comparison . 10 2.3.2. Model Selection by Evidence Maximisation . 12 2.4. Bibliographical Remarks . 14 3. Gaussian Process Models 15 3.1. Structure of Gaussian Process Models . 15 3.2. Regression with Normal Noise . 18 3.2.1. Model Selection . 20 3.2.2. Preprocessing of Data and Nonzero Mean Functions . 23 3.3. Gaussian Processes & Covariance Functions . 24 3.3.1. Gaussian Processes . 25 3.3.2. Covariance Functions . 26 3.3.3. Geometrical Properties of Gaussian Processes . 28 3.3.4. Examples of Covariance Functions . 29 3.4. Alternative Interpretations of Gaussian Process Priors . 33 3.4.1. The Weight Space View & Kernel Machines . 33 3.4.2. Infinite Neural Networks . 34 3.5. Bibliographical Remarks . 37 4. Approximate Bayesian Inference 39 4.1. Laplace’s Method . 40 4.2. Expectation Propagation . 42 4.3. Markov Chain Monte Carlo . 45 4.3.1. Metropolis-Hastings Sampling . 45 4.3.2. Gibbs Sampling . 47 4.3.3. Importance Sampling . 48 4.3.4. Hybrid Monte Carlo . 48 v Contents 4.3.5. Annealed Importance Sampling . 51 4.3.6. An Example For Gaussian Process Regression . 53 4.4. Bibliographical Remarks . 56 5. Robust Gaussian Process Regression 57 5.1. Bayesian Perspective on Robustness . 57 5.2. Robust Gaussian Process Regression Models . 59 5.3. Mixture Noise Models . 60 5.3.1. Expectation Propagation Approximation . 62 5.3.2. Markov Chain Monte Carlo Sampling . 64 5.4. Regression with Student-t Noise

Load more