Agnostic Bayes
Total Page:16
File Type:pdf, Size:1020Kb
Agnostic Bayes Thèse Alexandre Lacoste Doctorat en informatique Philosophiæ doctor (Ph.D.) Québec, Canada © Alexandre Lacoste, 2015 Résumé L’apprentissage automatique correspond à la science de l’apprentissage à partir d’exemples. Des algorithmes basés sur cette approche sont aujourd’hui omniprésents. Bien qu’il y ait eu un progrès significatif, ce domaine présente des défis importants. Par exemple, simplement sélectionner la fonction qui correspond le mieux aux données observées n’offre aucune ga- rantie statistiques sur les exemples qui n’ont pas encore été observées. Quelques théories sur l’apprentissage automatique offrent des façons d’aborder ce problème. Parmi ceux-ci, nous présentons la modélisation bayésienne de l’apprentissage automatique et l’approche PAC- bayésienne pour l’apprentissage automatique dans une vue unifiée pour mettre en évidence d’importantes similarités. Le résultat de cette analyse suggère que de considérer les réponses de l’ensemble des modèles plutôt qu’un seul correspond à un des éléments-clés pour obtenir une bonne performance de généralisation. Malheureusement, cette approche vient avec un coût de calcul élevé, et trouver de bonnes approximations est un sujet de recherche actif. Dans cette thèse, nous présentons une approche novatrice qui peut être appliquée avec un faible coût de calcul sur un large éventail de configurations d’apprentissage automatique. Pour atteindre cet objectif, nous appliquons la théorie de Bayes d’une manière différente de ce qui est conventionnellement fait pour l’apprentissage automatique. Spécifiquement, au lieu de chercher le vrai modèle à l’origine des données observées, nous cherchons le meilleur modèle selon une métrique donnée. Même si cette différence semble subtile, dans cette approche, nous ne faisons pas la supposition que le vrai modèle appartient à l’ensemble de modèles explorés. Par conséquent, nous disons que nous sommes agnostiques. Plusieurs expérimentations montrent un gain de généralisation significatif en utilisant cette approche d’ensemble de modèles durant la phase de validation croisée. De plus, cet algo- rithme est simple à programmer et n’ajoute pas un coût de calcul significatif à la recherche d’hyperparamètres conventionnels. Finalement, cet outil probabiliste peut également être uti- lisé comme un test statistique pour évaluer la qualité des algorithmes sur plusieurs ensembles de données d’apprentissage. iii Abstract Machine learning is the science of learning from examples. Algorithms based on this approach are now ubiquitous. While there has been significant progress, this field presents important challenges. Namely, simply selecting the function that best fits the observed data was shown to have no statistical guarantee on the examples that have not yet been observed. There are a few learning theories that suggest how to address this problem. Among these, we present the Bayesian modeling of machine learning and the PAC-Bayesian approach to machine learning in a unified view to highlight important similarities. The outcome of this analysis suggests that model averaging is one of the key elements to obtain a good generalization performance. Specifically, one should perform predictions based on the outcome of every model instead of simply the one that best fits the observed data. Unfortunately, this approach comes with a high computational cost problem, and finding good approximations is the subject of active research. In this thesis, we present an innovative approach that can be applied with a low computational cost on a wide range of machine learning setups. In order to achieve this, we apply the Bayes’ theory in a different way than what is conventionally done for machine learning. Specifically, instead of searching for the true model at the origin of the observed data, we search for the best model according to a given metric. While the difference seems subtle, in this approach, we do not assume that the true model belongs to the set of explored model. Hence, we say that we are agnostic. An extensive experimental setup shows a significant generalization performance gain when using this model averaging approach during the cross-validation phase. Moreover, this simple algorithm does not add a significant computational cost to the conventional search of hyper- parameters. Finally, this probabilistic tool can also be used as a statistical significance test to evaluate the quality of learning algorithms on multiple datasets. v Contents Résumé iii Abstract v Contents vii List of Tables xi List of Figures xiii Acknowledgement xv Foreword xvii Included Publications ................................. xvii Other Publications . xviii 1 Introduction to Machine Learning1 1.1 Supervised Learning............................... 3 1.2 Overfitting .................................... 5 1.3 Validation..................................... 5 1.4 Cross-Validation ................................. 7 1.5 Other Formulations of Machine Learning.................... 7 1.6 Thesis Outline .................................. 9 2 Priors and Model Averaging 11 2.1 Bayesian Model Averaging............................ 11 2.2 The PAC-Bayesian Theory ........................... 22 3 First Paper Presentation 27 3.1 Details....................................... 27 3.2 Context...................................... 27 3.3 Contributions................................... 28 3.4 Comments..................................... 28 4 Bayesian Comparison of Machine Learning Algorithms on Single and Multiple Data sets 31 4.1 abstract...................................... 31 4.2 Introduction.................................... 31 4.3 Theoretical Setup................................. 34 vii 4.4 Bounding the Risk................................ 34 4.5 Probabilistic Discrimination of Learning Algorithms on a Single Task . 35 4.6 The Poisson Binomial Test ........................... 37 4.7 Simulations With Synthetic Contexts ..................... 40 4.8 Comparing Popular Algorithms......................... 44 4.9 Future Work ................................... 45 4.10 APPENDIX—SUPPLEMENTARY MATERIAL............... 47 5 Second Paper Presentation 51 5.1 Details....................................... 51 5.2 Early Version................................... 51 5.3 Context...................................... 51 5.4 Contributions................................... 52 5.5 Comments..................................... 53 6 Agnostic Bayesian Learning of Ensembles 55 6.1 abstract...................................... 55 6.2 Introduction.................................... 55 6.3 Theoretical Setup................................. 57 6.4 Priors Over the Joint Risk............................ 60 6.5 Model Averaging for Trained Predictors .................... 63 6.6 Related Work................................... 64 6.7 Experiments.................................... 65 6.8 Conclusion .................................... 69 7 Third Paper Presentation 71 7.1 Details....................................... 71 7.2 Early Version................................... 71 7.3 Context...................................... 71 7.4 Contributions................................... 72 7.5 Comments..................................... 72 8 Sequential Model-Based Ensemble Optimization 75 8.1 Abstract...................................... 75 8.2 Introduction.................................... 75 8.3 Hyperparameter Selection with SMBO..................... 77 8.4 Agnostic Bayes.................................. 79 8.5 Agnostic Bayes Ensemble with SMBO..................... 81 8.6 Related Work................................... 83 8.7 Experiments.................................... 83 8.8 Conclusion .................................... 87 9 Conclusion 91 9.1 Future Work ................................... 92 A Model Averaging With Holdout Estimation of the Posterior Distribution 93 A.1 Abstract...................................... 93 A.2 Introduction.................................... 93 A.3 Uncertainty in the Holdout Estimation of the Expected Loss . 94 viii B Sequential Model-Based Ensemble Optimization, Early Work 97 B.1 Abstract...................................... 97 B.2 Introduction.................................... 97 B.3 Hyperparameter selection with SMBO..................... 98 B.4 Agnostic Bayes.................................. 99 B.5 Agnostic Bayes ensemble with SMBO ..................... 100 B.6 Experiments.................................... 101 B.7 Conclusion .................................... 103 Bibliography 105 ix List of Tables 4.1 Comparison of the test risk for 3 of the 4 algorithms on 5 of the 22 data sets. 44 4.2 Pairwise Poisson binomial test ........................... 44 4.3 Pairwise sign test. .................................. 44 4.4 Pairwise WSR test.................................. 45 4.5 List of Dirichlet parameters used in the multimodal synthetic context. 47 4.6 Individual risk .................................... 48 ? 6.1 Illustration of the posteriors in an agnostic Bayes ensemble (Eb ) and in Bayesian model averaging (E→). top: Uncorrelated predictors. bottom: Addition of a correlated predictor................................ 63 6.2 Comparison of the four proposed agnostic model averaging methods, in the single training/validation split experiment (refer to Section 6.7.2 for notation). 67 6.3 Comparison with the baseline models in the single training/validation split experiment (refer to Section 6.7.2 for notation). ................. 68 6.4 Comparison with the baseline models in the cross-validation experiment