
Gaussian Process Models for Robust Regression, Classification, and Reinforcement Learning Vorgelegt von Diplom Informatiker Malte Kuß aus Wolfsburg M¨arz 2006 Genehmigte Dissertation zur Erlangung des akademischen Grades Doctor rerum naturalium (Dr. rer. nat.) am Fachbereich Informatik der Technischen Universit¨atDarmstadt (Hochschulkennziffer D17) Erstreferent: Prof. Dr. Thomas Hofmann Eingereicht am 13. Februar 2006 Korreferenten: PhD. Carl E. Rasmussen Tag der Disputatiton 21. M¨arz2006 Prof. Dr. Bernt Schiele Erkl¨arung Hiermit erkl¨areich, daß ich die vorliegende Arbeit—mit Ausnahme der in ihr ausdr¨ucklich genannten Hilfen—selbst¨andig verfasst habe. Wissenschaftlicher Werdegang 10/96 – 02/02 Studium der Informatik an der Technischen Universit¨atBerlin • Nebenfach Wirtschaftswissenschaften (VWL) • Studienschwerpunkte: Statistik, Maschinelles Lernen, Soft- waretechnik, Datenbanken, Mikro¨okonomie, Spieltheorie • Diplomarbeit am Lehrstuhl f¨urWirtschaftsmathematik und Statistik zum Thema ,,Non-linear Multivariate Analysis with Geodesic Kernels” (Prof. Kockelkorn) • Diplom mit Auszeichnung 07/02 – 03/06 Doktorand am Max-Planck-Institut f¨ur biologische Kybernetik, T¨ubingen • Arbeitsgruppe f¨urempirische Inferenz (Prof. Sch¨olkopf) • Forschungsinteressen: Bayesianische Statistik, Entschei- dungstheorie, Monte Carlo Methoden • Promotion an der Technischen Universit¨at Darmstadt (Prof. Hofmann) Referenz @PhdThesis{Kuss:06, author = {M. Kuss}, title = {Gaussian Process Models for Robust Regression, Classification, and Reinforcement Learning}, school = {Technische Universit{\"a}t Darmstadt}, year = {2006} } Zusammenfassung Die vorliegende Arbeit besch¨aftigtsich mit Erweiterungen und Anwendungen einer Klasse von statistischen Modellen, den so genannten Gauß-Prozess Modellen. Methoden des ¨uberwachten Lernens, wie sie z.B. in der Regressions- und Diskriminanzanalyse ver- wendet werden, zielen darauf ab, Abh¨angigkeiten zwischen Variablen zu identifizieren und das so gewonnene Verst¨andnis ¨uber den datengenerierenden Prozess zur Vorhersage zu nutzen. Die in dieser Arbeit untersuchten Modelle beruhen auf der Annahme, dass diese Abh¨angigkeiten in einen systematischen Zusammenhang und eine zuf¨allige Kom- ponente zerlegt werden k¨onnen, wobei die systematische Zusammenhang mittels einer latenten Funktion beschrieben werden kann. Als Gauß-Prozess Modelle bezeichnet man statistische Modelle, in denen ein Gauß-Prozess verwendet wird, um die Bayesianische a priori Unsicherheit ¨uber diese latente Funktion zu beschreiben. Nach einer kurzen Einf¨uhrung in die Bayesianische Statistik in Kapitel 2 wird in Kapi- tel 3 die Klasse der Gauß-Process Modelle detailliert beschrieben. Dar¨uber hinaus wird darauf eingegangen, wie der Gauß-Prozess zur Beschreibung der a priori Unsicherheit verstanden werden kann. Der konzeptionellen Klarheit des Bayesianischen Ansatzes stehen oftmals praktis- che Schwierigkeiten gegen¨uber, da die auftretenden Integrale nicht analytisch l¨osbar sind. Approximationstechniken sind daher von zentraler Bedeutung f¨urdie Anwen- dung Bayesianischer Methoden in der praktischen Datenanalyse. In Kapitel 4 werden Laplaces Methode, Expectation Propagation und Markov chain Monte Carlo Verfahren beschrieben sowie deren Anwendung in Gauß-Prozess Modellen. Unter den Gauß-Prozess Modellen sticht das Regressionmodell mit normalverteilter St¨orgr¨oßeheraus, da unter diesen Annahmen Bayesianische Inferenz analytisch hand- habbar ist und die a posteriori Unsicherheit ¨uber die latente Funktion ebenfalls durch einen Gauß-Process beschrieben werden kann. Allerdings macht die Annahme der Nor- malverteilung das Modell sensitiv gegen¨uber Ausreissern, d.h. Beobachtungen die stark von der systematischen Struktur abweichen. Kapitel 5 beschreibt verschiedene Gauß- Prozess Modelle f¨ur nichtlineare robuste Regressionsanalyse. In diesen robusten Re- gressionsmodellen wird die Verteilung der St¨orgr¨oßedurch eine leptokurtotische (heavy- tailed) Verteilungen beschrieben. Kapitel 6 besch¨aftigt sich mit dem Gauß-Prozess Modell zur bin¨arenKlassifikation- sanalyse. In der Literatur finden sich verschiedene Ans¨atze, wie man Bayesianische Inferenz in diesem Modell approximieren kann. Allerdings bestand bisher Unklarheit dar¨uber wie akkurat diese N¨aherungsverfahren sind und welches in der Praxis zu bevorzu- gen ist. Dieses Fragen werden sowohl theoretisch durch eine Betrachtung der Struktur der a posteriori Verteilung als auch experimentell durch einen Vergleich mit aufwendigen Markov chain Monte Carlo Simulationen beantwortet. i Als Reinforcement Lernen bezeichnet man die das adaptive Lernen in sequentiellen Entscheidungsproblemen. Kapitel 7 beschreibt Anwendungen von Gauß-Prozess Regres- sionsmodellen f¨ur Reinforcement Lernen in Problem mit kontinuierlichen Zustandsr¨aumen. Dabei werden verschiedene M¨oglichkeiten vorgestellt wie man Gauss-Prozesse nutzen kann, um die Effekte der Entscheidungen vorherzusagen und um die so genannte Value Funktion zu repr¨asentieren. ii Summary Gaussian process models constitute a class of probabilistic statistical models in which a Gaussian process (GP) is used to describe the Bayesian a priori uncertainty about a latent function. After a brief introduction of Bayesian analysis, Chapter 3 describes the general construction of GP models with the conjugate model for regression as a special case (O’Hagan, 1978). Furthermore, it will be discussed how GP can be interpreted as priors over functions and what beliefs are implicitly represented by this. The conceptual clearness of the Bayesian approach is often in contrast with the prac- tical difficulties that result from its analytically intractable computations. Therefore ap- proximation techniques are of central importance for applied Bayesian analysis. Chap- ter 4 describes Laplace’s method, the Expectation Propagation approximation, and Markov chain Monte Carlo sampling for approximate inference in GP models. The most common and successful application of GP models is in regression problems where the noise is assumed to be homoscedastic and distributed according to a normal distribution. In practical data analysis this assumption is often inappropriate and infer- ence is sensitive to the occurrence of more extreme errors (so called outliers). Chapter 5 proposes several variants of GP models for robust regression and describes how Bayesian inference can be approximated in each. Experiments on several data sets are presented in which the proposed models are compared with respect to their predictive performance and practical applicability. Gaussian process priors can also be used to define flexible, probabilistic classification models. Again, exact Bayesian inference is analytically intractable and various approx- imation techniques have been proposed, but no clear picture has yet emerged, as to when and why which algorithm should be preferred. Chapter 6 presents a detailed ex- amination of the model, focusing on the question which approximation technique is most appropriate by investigating the structure of the posterior distribution. An experimental study is presented which corroborates the theoretical insights. Reinforcement learning deals with the problem of how an agent can optimise its be- haviour in a sequential decision process such that its utility over time is maximised. Chapter 7 addresses applications of GPs for model-based reinforcement learning in con- tinuous domains. If the environment’s response to the agent’s actions can be predicted using GP regression models, probabilistic planning and an approximate policy iteration algorithm can be implemented. A core concept in reinforcement learning is the value function, which describes the long-term strategic value of a state. Using GP models we are able to solve an approximate continuous equivalent of the Bellman equations, and it will be shown how this can be used to estimate value functions. iii Contents Acknowledgements ix Symbols & Abbreviations xi 1. Introduction 1 2. Bayesian Analysis 5 2.1. Bayesian Inference . 6 2.2. Bayesian Decision Theory . 8 2.3. Model Comparison and Model Selection . 10 2.3.1. Bayesian Model Comparison . 10 2.3.2. Model Selection by Evidence Maximisation . 12 2.4. Bibliographical Remarks . 14 3. Gaussian Process Models 15 3.1. Structure of Gaussian Process Models . 15 3.2. Regression with Normal Noise . 18 3.2.1. Model Selection . 20 3.2.2. Preprocessing of Data and Nonzero Mean Functions . 23 3.3. Gaussian Processes & Covariance Functions . 24 3.3.1. Gaussian Processes . 25 3.3.2. Covariance Functions . 26 3.3.3. Geometrical Properties of Gaussian Processes . 28 3.3.4. Examples of Covariance Functions . 29 3.4. Alternative Interpretations of Gaussian Process Priors . 33 3.4.1. The Weight Space View & Kernel Machines . 33 3.4.2. Infinite Neural Networks . 34 3.5. Bibliographical Remarks . 37 4. Approximate Bayesian Inference 39 4.1. Laplace’s Method . 40 4.2. Expectation Propagation . 42 4.3. Markov Chain Monte Carlo . 45 4.3.1. Metropolis-Hastings Sampling . 45 4.3.2. Gibbs Sampling . 47 4.3.3. Importance Sampling . 48 4.3.4. Hybrid Monte Carlo . 48 v Contents 4.3.5. Annealed Importance Sampling . 51 4.3.6. An Example For Gaussian Process Regression . 53 4.4. Bibliographical Remarks . 56 5. Robust Gaussian Process Regression 57 5.1. Bayesian Perspective on Robustness . 57 5.2. Robust Gaussian Process Regression Models . 59 5.3. Mixture Noise Models . 60 5.3.1. Expectation Propagation Approximation . 62 5.3.2. Markov Chain Monte Carlo Sampling . 64 5.4. Regression with Student-t Noise
Details
-
File Typepdf
-
Upload Time-
-
Content LanguagesEnglish
-
Upload UserAnonymous/Not logged-in
-
File Pages205 Page
-
File Size-