Symbolic Regression for Knowledge Discovery – Bloat, Overfitting, And
Total Page:16
File Type:pdf, Size:1020Kb
JOHANNES KEPLER UNIVERSITAT¨ LINZ JKU Technisch-Naturwissenschaftliche Fakult¨at Symbolic Regression for Knowledge Discovery { Bloat, Overfitting, and Variable Interaction Networks DISSERTATION zur Erlangung des akademischen Grades Doktor im Doktoratsstudium der Technischen Wissenschaften Eingereicht von: Dipl.-Ing. Gabriel Kronberger Angefertigt am: Institut f¨urformale Modelle und Verifikation Beurteilung: Priv.-Doz. Dipl.-Ing. Dr. Michael Affenzeller (Betreuung) Assoc.-Prof. Dipl.-Ing. Dr. Ulrich Bodenhofer Linz, 12, 2010 For Gabi Acknowledgments This thesis would not have been possible without the support of a number of people. First and foremost I want to thank my adviser Dr. Michael A®enzeller, who has not only become my mentor but also a close friend in the years since I ¯rst started my forays into the area of evolutionary computation. Furthermore, I would like to express my gratitude to my second adviser Dr. Ulrich Bodenhofer for introducing me to the statistical elements of machine learning and en- couraging me to critically scrutinize modeling results. I am also thankful to Prof. Dr. Witold Jacak, dean of the School of Informatics, Communications and Media in Hagenberg of the Upper Austria University of Applied Sciences, for giving me the opportunity to work at the research center Hagenberg and allowing me to work on this thesis. I thank all members of the research group for heuristic and evolutionary algorithms (HEAL). Andreas Beham, for implementing standard variants of heuristic algorithms in HeuristicLab. Michael Kommenda, for discussing extensions and improvements of symbolic regression for practical applications, some of which are described in this thesis. Dr. Stefan Wagner, for tirelessly improving HeuristicLab, which has been used as the software environment for all experiments presented in this thesis. Dr. Stephan Winkler, for introducing me to genetic programming and system identi¯cation and for proofread- ing a ¯rst draft of this thesis to improve its linguistic quality. Ciprian Zavoianu, for the interesting discussions about aspects of genetic programming. I also wish to extend my thanks to my colleagues who invested a part of their valuable time to improve application-speci¯c sections of this thesis. Christoph Feilmayr, for advice regarding data-based modeling of the blast furnace process and for proofreading and improving a draft of Chapter 8. Leonhard Schickmair, for his input on variable relevance metrics and for proofreading and improving a draft of Chapter 8. Dr. Stefan Fink, for preparing a dataset for economic modeling and for the discussion of economic models produced by genetic programming. Finally, I thank my parents and my family who supported me and my interests in computer science. I thank all my friends for encouraging me to ¯nish this thesis. This work is dedicated to Gabi for her love and support. This thesis mainly reflects research work done within the Josef Ressel-center for heuris- tic optimization \Heureka!" at the Upper Austria University of Applied Sciences, Cam- pus Hagenberg. The center \Heureka!" is supported within the program \Josef Ressel- Centers" by the Austrian Research Promotion Agency (FFG) on behalf of the Austrian Federal Ministry of Economy, Family and Youth (BMWFJ). i Zusammenfassung Mit der wachsenden Datenmenge, die in unterschiedlichsten Anwendungsbereichen ge- sammelt und aufgezeichnet wird, wÄachst auch das Bedurfnis,Ä diese Daten sinnvoll zu nutzen. In der Wissenschaft haben Daten schon seit jeher einen hohen Stellenwert. In den jungerenÄ Jahren gewinnt aber auch das wirtschaftliche Potential von Daten zu- nehmend an Bedeutung. In Kombination mit Verfahren zur Datenanalyse kann dieses Potential ausgeschÄopft werden, sei es im kommerziellen Bereich zur Optimierung von Angeboten, oder im industriellen Bereich zur Optimierung von Ressourceneinsatz oder ProduktqualitÄat basierend auf Prozessdaten. In dieser Arbeit wird ein neuer Ansatz furÄ die Analyse von Daten vorgestellt, der auf symbolischer Regression mit genetischer Programmierung basiert und das Ziel verfolgt, einen GesamtuberblickÄ uberÄ das Zusammenspiel von einzelnen Faktoren eines Systems zu ermÄoglichen. Dabei sollen mÄoglichst alle potentiell interessanten ZusammenhÄange, welche in einem Datensatz erkennbar sind, in Form von kompakten und verstÄandlichen Modellen identi¯ziert werden. Im ersten Teil der vorliegenden Arbeit wird dieser Ansatz der umfassenden symbo- lischen Regression im Detail beschrieben. Wesentliche Themen, die dabei eine Rolle spielen, sind die Vermeidung von Bloat und Uberanpassung,Ä die Vereinfachung von Mo- dellen und die Identi¯kation von relevanten EinflussgrÄo¼en. In diesem Zusammenhang werden unterschiedliche Verfahren zur Vermeidung von Bloat vorgestellt und verglichen. Insbesondere wird der Einfluss von Nachkommenselektion auf Bloat analysiert. DaruberÄ hinaus wird eine neue MÄoglichkeit zur Erkennung von UberanpassungÄ vorgestellt. Im Zu- ge dessen werden darauf basierende Erweiterungen zur Reduktion von UberanpassungÄ vorgestellt und verglichen. Eine wichtige Rolle spielt dabei das Pruning von Modellen, einerseits um UberanpassungÄ zu verhindern und andererseits um komplexe Modelle zu vereinfachen. Ein weiterer wesentlicher Aspekt ist die Analyse und Darstellung der umfangreichen Menge von unterschiedlichen Modellen, die aus dem vorgestellten Ansatz resultiert. In diesem Zusammenhang werden MÄoglichkeiten zur Quanti¯zierung von relevanten Ein- flussgrÄo¼en vorgestellt, die in weiterer Folge verwendet werden kÄonnen, um Interaktionen von Variablen des analysierten Systems zu identi¯zieren. Durch die Visualisierung die- ser Interaktionen entsteht ein GesamtuberblickÄ uberÄ das betrachtete System. Dies wÄare alleine durch die Analyse einzelner Modelle, die sich auf spezielle Aspekte konzentrie- ren, nicht mÄoglich. ZusÄatzlich wird im ersten Teil auch die Prognose von multivariaten Zeitserien mit genetischer Programmierung beschrieben. Im zweiten Teil dieser Arbeit wird gezeigt, wie der vorgestellte Ansatz furÄ die Analyse von realen Systemen eingesetzt werden kann und dadurch neue Einblicke ermÄoglicht werden kÄonnen. Die Daten stammen von einem Hochofen furÄ die Produktion von Stahl und von einem industriellen chemischen Prozess. ZusÄatzlich wird gezeigt wie derselbe Ansatz zur Identi¯kation von makroÄokonomischen ZusammenhÄangen eingesetzt werden kann. Abstract With the growing amount of data that are collected and recorded in various application areas the need to utilize these data is also growing. In science, data have always played an important role; in recent years, however, the economic potential of data has also become increasingly important. In combination with methods for data analysis, data can be utilized to their full potential, whether in the commercial sector to optimize o®ers, or in the industrial sector to optimize resources and product quality based on process data. This work describes a new approach for the analysis of data which is based on sym- bolic regression with genetic programming and aims to generate an overall view of the interactions of various variables of a system. By this means, all potentially interesting relationships, which can be detected in a dataset, should be identi¯ed and represented as compact and understandable models. In the ¯rst part of this work, this approach of comprehensive symbolic regression is described in detail. Important issues that play a role in the process are the prevention of bloat and over-¯tting, the simpli¯cation of models, and the identi¯cation of relevant input variables. In this context, di®erent methods for bloat control and prevention are presented and compared. In particular, the influence of o®spring selection on bloat is analyzed. In addition, a new way to detect over-¯tting is presented. On the basis of this, extensions for the reduction of over-¯tting are presented and compared. Pruning of models is featured prominently, on the one hand to prevent over-¯tting and on the other hand to simplify complex models. An important aspect is the analysis of the vast amount of di®erent models that results from the proposed approach. In this context, di®erent methods to quantify relevant factors are proposed. These methods can be used to identify interactions of variables of the analyzed system. Visualizing such interactions provides a general overview of the system in question which would not be possible by analysis of individual models which are concentrated on selected aspects of the problem. Additionally, the prognosis of multivariate time series with genetic programming is described in the ¯rst part. The second part of this work shows how the described approach can be applied to the analysis of real-world systems, and how the result of this data analysis process can result in the gain of new knowledge about the investigated system. The analyzed data stem from a blast furnace for the production of steel and an industrial chemical process. In addition the same approach is also applied on a data collection storing economic data in order to identify macro-economic interactions. Eidesstattliche ErklÄarung Ich erklÄarean Eides statt, dass ich die vorliegende Dissertation selbststÄandigund ohne fremde Hilfe verfasst, andere als die angegebenen Quellen und Hilfsmittel nicht benutzt bzw. die wÄortlich oder sinngemÄa¼entnommenen Stellen als solche kenntlich gemacht habe. Linz, December 15, 2010 Dipl.-Ing. Gabriel Kronberger vii Contents 1. Introduction 7 1.1. Thesis Statement . 10 1.2. Research Project Background . 11 2.