Statistical Distances and Probability Metrics for Multivariate Data, Ensembles and Probability Distributions
Total Page:16
File Type:pdf, Size:1020Kb
Ph.D. THESIS Statistical Distances and Probability Metrics for Multivariate Data, Ensembles and Probability Distributions GABRIEL MARTOS VENTURINI ADVISOR:ALBERTO MUNOZ˜ GARC´IA Department of Statistics UNIVERSIDAD CARLOS III DE MADRID Leganes´ (Madrid, Spain) June, 2015 Universidad Carlos III de Madrid PH.D. THESIS Statistical Distances and Probability Metrics for Multivariate Data, Ensembles and Probability Distributions Author: Gabriel Martos Venturini Advisor: Alberto Munoz˜ Garc´ıa DEPARTMENT OF STATISTICS Leganes´ (Madrid, Spain), June, 2015 c 2015 Gabriel Martos Venturini All Rights Reserved Acknowledgements I would like to thank to my family and friends. Without the encouragement and support of all of them it would be impossible to reach the goal. I also thank to Alberto Munoz,˜ my PhD adviser, for giving me the opportunity to learn and discover many things to his side. Throughout these years we shared many things and he has been a great teacher and friend. To Javier Gonzalez´ for his support and advice and to Laura Sangalli, my adviser in Milan,´ for the time and effort dedicated to my work. En primer lugar quiero agradecer profundamente a mi familia y mis amigos por acompanarme˜ en este proyecto. Sin el apoyo de estas personas de seguro hubiera sido imposible llegar hasta el final. En segundo lugar, quiero agradecer a Alberto Munoz,˜ mi director de tesis, por darme la oportunidad de aprender y descubrir muchas cosas a su lado. A lo largo de estos anos˜ de tra- bajo conjunto hemos compartido muchas cosas y ha sido un gran maestro y amigo. A Javier Gonzalez´ por el apoyo, los consejos y la disposicion.´ A Laura Sangalli, mi tutora en Milan,´ por recibirme y dedicarme tiempo y esfuerzo. i ii Abstract The use of distance measures in Statistics is of fundamental importance in solving practical problems, such us hypothesis testing, independence contrast, goodness of fit tests, classifica- tion tasks, outlier detection and density estimation methods, to name just a few. The Mahalanobis distance was originally developed to compute the distance from a point to the center of a distribution taking into account the distribution of the data, in this case the normal distribution. This is the only distance measure in the statistical literature that takes into account the probabilistic information of the data. In this thesis we address the study of different distance measures that share a fundamental characteristic: all the proposed distances incorporate probabilistic information. The thesis is organized as follows: In Chapter 1 we motivate the problems addressed in this thesis. In Chapter 2 we present the usual definitions and properties of the different dis- tance measures for multivariate data and for probability distributions treated in the statistical literature. In Chapter 3 we propose a distance that generalizes the Mahalanobis distance to the case where the distribution of the data is not Gaussian. To this aim, we introduce a Mercer Kernel based on the distribution of the data at hand. The Mercer Kernel induces distances from a point to the center of a distribution. In this chapter we also present a plug-in estimator of the distance that allows us to solve classification and outlier detection problems in an efficient way. In Chapter 4 of this thesis, we present two new distance measures for multivariate data that incorporate the probabilistic information contained in the sample. In this chapter we also introduce two estimation methods for the proposed distances and we study empirically their convergence. In the experimental section of Chapter 4 we solve classification problems and obtain better results than several standard classification methods in the literature of discrimi- iii nant analysis. In Chapter 5 we propose a new family of probability metrics and we study its theoreti- cal properties. We introduce an estimation method to compute the proposed distances that is based on the estimation of the level sets, avoiding in this way the difficult task of density estimation. In this chapter we show that the proposed distance is able to solve hypothesis tests and classification problems in general contexts, obtaining better results than other standard methods in statistics. In Chapter 6 we introduce a new distance for sets of points. To this end, we define a dissim- ilarity measure for points by using a Mercer Kernel, that is extended later to a Mercer Kernel for sets of points. In this way, we are able to induce a dissimilarity index for sets of points that it is used as an input for an adaptive k-mean clustering algorithm. The proposed clustering algorithm considers an alignment of the sets of points by taking into account a wide range of possible wrapping functions. This chapter presents an application to clustering neuronal spike trains, a relevant problem in neural coding. Finally, in Chapter 7, we present the general conclusions of this thesis and the future re- search lines. iv Resumen En Estad´ıstica el uso de medidas de distancia resulta de vital importancia a la hora de resolver problemas de ´ındole practica.´ Algunos metodos´ que hacen uso de distancias en estad´ıstica son: Contrastes de hipotesis,´ de independencia, de bondad de ajuste, metodos´ de clasificacion,´ deteccion´ de at´ıpicos y estimacion´ de densidad, entre otros. La distancia de Mahalanobis, que fue disenada˜ originalmente para hallar la distancia de un punto al centro de una distribucion´ usando informacion´ de la distribucion´ ambiente, en este caso la normal. Constituye el unico´ ejemplo existente en estad´ıstica de distancia que con- sidera informacion´ probabil´ıstica. En esta tesis abordamos el estudio de diferentes medidas de distancia que comparten una caracter´ıstica en comun:´ todas ellas incorporan informacion´ probabil´ıstica. El trabajo se encuentra organizado de la siguiente manera: En el Cap´ıtulo 1 motivamos los problemas abordados en esta tesis. En el Cap´ıtulo 2 de este trabajo presentamos las defini- ciones y propiedades de las diferentes medidas de distancias para datos multivariantes y para medidas de probabilidad existentes en la literatura. En el Cap´ıtulo 3 se propone una distancia que generaliza la distancia de Mahalanobis al caso en que la distribucion´ de los datos no es Gaussiana. Para ello se propone un Nucleo´ (kernel) de Mercer basado en la densidad (muestral) de los datos que nos confiere la posi- bilidad de inducir distancias de un punto a una distribucion.´ En este cap´ıtulo presentamos ademas´ un estimador plug-in de la distancia que nos permite resolver, de manera practica´ y eficiente, problemas de deteccion´ de at´ıpicos y problemas de clasificacion´ mejorando los resul- tados obtenidos al utilizar otros metodos´ de la literatura. Continuando con el estudio de medidas de distancia, en el Cap´ıtulo 4 de esta tesis se pro- ponen dos nuevas medidas de distancia para datos multivariantes incorporando informacion´ v probabil´ıstica contenida en la muestra. En este cap´ıtulo proponemos tambien´ dos metodos´ de estimacion´ eficientes para las distancias propuestas y estudiamos de manera emp´ırica su con- vergencia. En la seccion´ experimental del Cap´ıtulo 4 se resulven problemas de clasificacion´ con las medidas de distancia propuestas, mejorando los resultados obtenidos con procedimientos habitualmente utilizados en la literatura de analisis´ discriminante. En el Cap´ıtulo 5 proponemos una familia de distancias entre medidas de probabilidad. Se estudian tambien´ las propiedades teoricas´ de la familia de metricas´ propuesta y se establece un metodo´ de estimacion´ de las distancias basado en la estimacion´ de los conjuntos de nivel (definidos en este cap´ıtulo), evitando as´ı la estimacion´ directa de la densidad. En este cap´ıtulo se resuelven diferentes problemas de ´ındole practica´ con las metricas´ propuestas: Contraste de hipotesis´ y problemas de clasificacion´ en diferentes contextos. Los resultados emp´ıricos de este cap´ıtulo demuestran que la distancia propuesta es superior a otros metodos´ habituales de la literatura. Para finalizar con el estudio de distancias, en el Cap´ıtulo 6 se propone una medida de dis- tancia entre conjuntos de puntos. Para ello, se define una medida de similaridad entre puntos a traves´ de un kernel de Mercer. A continuacion´ se extiende el kernel para puntos a un kernel de Mercer para conjuntos de puntos. De esta forma, el Nucleo´ de Mercer para conjuntos de puntos es utilizado para inducir una metrica´ (un ´ındice de disimilaridad) entre conjuntos de puntos. En este cap´ıtulo se propone un metodo´ de clasificacion´ por k-medias que utliza la metrica´ propuesta y que contempla, ademas,´ la posibilidad de alinear los conjuntos de puntos en cada etapa de la construccion´ de los clusters. En este cap´ıtulo presentamos una aplicacion´ relativa al estudio de la decodificacion´ neuronal, donde utilizamos el metodo´ propuesto para encontrar clusters de neuronas con patrones de funcionamiento similares. Finalmente en el Cap´ıtulo 7 se presentan las conclusiones generales de este trabajo y las futuras l´ıneas de investigacion.´ vi Contents List of Figures xi List of Tables xv 1 Introduction 1 1.1 Overview of the Thesis and Contributions ....................... 5 2 Background: Distances and Geometry in Statistic 11 2.1 Distances and Similarities between Points ....................... 12 2.1.1 Bregman divergences .............................. 14 2.2 Probability Metrics .................................... 16 2.2.1 Statistical divergences .............................. 17 2.2.2 Dissimilarity measures in the