Análisis Multivariante De Datos Deportivos
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSIDAD DE MURCIA FACULTAD DE MATEMÁTICAS TRABAJO FIN DE GRADO ANÁLISIS MULTIVARIANTE DE DATOS DEPORTIVOS FERNANDO MANZANARES IBÁÑEZ DIRIGIDOPOR JORGE NAVARRO CAMACHO FEBRERO 2018 Declaración de originalidad Yo, Fernando Manzanares Ibáñez, autor del Trabajo Fin de Grado Análisis Multivariante de Datos Deportivos, bajo la dirección de Jorge Navarro Camacho, declaro que este trabajo es original en el sentido que he puesto el mayor empeño en citar debidamente todas las fuentes utilizadas. En Murcia, a 7 de Febrero de 2018. Fernando Manzanares Ibáñez. Nota: En la Secretaría de la Facultad de Matemáticas se ha presentado una copia firmada de esta declaración. “Hasta que los fenómenos de cualquier rama del conocimiento no hayan sido sometidos a medida y número, no se puede decir que se trate de una ciencia”. KARL PEARSON. Resumen La influencia que ha tenido la tecnología en el deporte es incuestionable. No se limita únicamente a las retransmisiones deportivas, que indudablemente han contribuido a convertirlo en un fenó- meno global, sino que abarcan aspectos más técnicos. Términos como “ojo de halcón” en el tenis, o “foto finish” en cualquier carrera, se han convertido ya en cotidianos, y otros como el VAR (Vi- deo Assistant Referee) lo serán próximamente. Desde hace unos años la tecnología también ha facilitado la recolección y el análisis de datos de cualquier tipo de deporte, interviniendo aquí las matemáticas. En este TFG nos hemos centrado en el que muchos consideran el rey de los deportes, el fút- bol. Para algunos esta afirmación puede parecer descabellada, pero si tenemos en cuenta algunos datos, veremos que no es así. Por ejemplo, un estudio llevado a cabo por el Instituto Português de Administração de Marketing (IPAM) en 2014, año en el que se disputo la final de la Champions League entre el Real Madrid CF y el Club Atlético de Madrid en Lisboa, estimó que este partido provocó un impacto económico en la ciudad de unos 46 millones de euros. Si tenemos en cuen- ta su repercusión mundial y el dinero que se llevaron ambos equipos, la cifra asciende a los 410 millones de euros. Además, este partido tuvo más audiencia que la Super Bowl de ese mismo año (380 frente a 114,4 millones de espectadores)1. Otro dato, según la revista Forbes, de las diez fran- quicias deportivas más valiosas de 2017, tres son equipos de fútbol. Siendo éstos, el Manchester United FC (Inglaterra) en el tercer puesto, el FC Barcelona (España) en el cuarto y el Real Madrid CF (España) en el quinto 2. Si dejamos de lado el aspecto económico, otro dato que respalda nues- tra afirmación es el siguiente. En 2007 la FIFA (Fédération Internationale de Football Association) estimó que cerca de 265 millones de personas en todo el mundo practicaban este deporte3. A pesar de los datos anteriores, la tecnología ha tardado bastante en llegar al mundo del fút- bol, pero poco a poco se está asentando, contradiciendo así al gran Johan Cruyff, que en su día dijo: “¿Incorporar la tecnología al fútbol? Al fútbol hay que dejarlo tranquilo. Es un deporte de dudas que está hecho por y para futbolistas, al fin y al cabo, seres humanos. De lo que hay que ocuparse es de enseñarles a jugar a los chicos un fútbol positivo”. Uno de los aspectos donde más influencia ha tenido la incorporación de la tecnología ha sido en la recopilación y almacenamiento de estadísticas. En los últimos años, en especial en Inglaterra, es habitual que todos los datos de los jugadores se almacenen para ser estudiados posteriormen- te. En nuestro país esta técnica se está introduciendo paulatinamente. Desde hace un par de años la Liga de Fútbol Profesional española almacena la mayoría de los datos de un jugador, como los pases acertados, los tiros a portería o los goles marcados, en su página web, haciéndolos accesi- bles para todo el mundo. Por esto último precisamente, y por ser considerada nuestra liga como la mejor del mundo, nos resultó interesante llevar a cabo un estudio de estos datos. Para ello hemos usado algunas de las técnicas vistas en las asignaturas de probabilidad y estadística del grado. Di- chos procedimientos también se pueden utilizar para analizar datos de otras temporadas, de ligas de otros países o de otros deportes similares como baloncesto, balonmano, waterpolo o fútbol sala. La principal técnica que hemos usado para llevar a cabo los análisis presentes en este TFG es la del cálculo de las componentes principales (Principal Component Analysis), que hemos estudiado 1Artículo completo en: http://www.europapress.es/economia/noticia-final-champions-ya-mas-grande- superbowl-20160527123838.html 2Lista completa en: https://www.forbes.com/sites/kurtbadenhausen/2017/07/12/full-list-the-worlds-50- mostvaluable-sports-teams-2017/#4ec48b044a05 3Artículo completo en: https://es.fifa.com/mm/document/fifafacts/bcoffsurv/smaga_9472.pdf en la asignatura optativa Estadística Multivariante. Este cálculo permite reducir la dimensión en la que trabajamos. Para ello se combinan las variables estudiadas entre sí para obtener otras que proporcionen la información más importante. El proceso para hallar las componentes se le debe a Harold Hotelling (Fulda, Estados Unidos, 1895-1973), quien probó que para calcular las mejores combinaciones había que diagonalizar una matriz simétrica y definida positiva. También nos centraremos en las consecuencias que tiene el cálculo de las componentes. Ana- lizaremos la cantidad de información mantenida por éstas y la cantidad de información que man- tienen las variables originales en cada componente. Además, estudiaremos los círculos de corre- laciones, procedimiento que no hemos visto en el grado. Esta técnica nos proporcionará una idea aproximada de la correlación existente entre las variables originales y la información que hay en las componentes de ellas. Otra de las técnicas que hemos usado, y que también hemos estudiado en la asignatura Esta- dística Multivariante, consiste en observar las distancias de Mahalanobis a la media. Dicha distan- cia se la debemos al matemático indio Prasanta Chandra Mahalanobis (Calcuta, India, 1893-1972). Este proceso nos ayudará a detectar a los individuos más “singulares”. También analizaremos la correlación y la covarianza existente entre las variables, ya que ten- drán gran importancia a la hora de calcular las componentes. Además, estudiaremos la existencia de valores atípicos en cada variable usando los gráficos caja-bigote. El programa informático que hemos usado en los análisis es RStudio. Lo hemos escogido por varias razones. La primera es porque se trata de un software libre. La segunda es porque utiliza el mismo lenguaje que R, que es el programa estadístico que hemos usado en el grado y es el más usado en todo el mundo. También es más sencillo de manejar. Además nos permite programarlo, hecho que ha facilitado nuestra tarea en numerosas ocasiones. La presente memoria se ha estructurado en tres capítulos. En el primero sentaremos las bases teóricas de los análisis que se realizarán en el segundo. Comenzaremos recordando una serie de definiciones y propiedades básicas de las matrices. La mayoría de los resultados vistos en esta sec- ción se usarán más adelante para la demostración del resultado más importante de este capítulo, el teorema que permite el cálculo general de las componentes principales. A continuación recor- daremos los conceptos de varianza y covarianza así como algunas de sus propiedades. Seguida- mente rememoraremos las definiciones de coeficiente de correlación y coeficiente de correlación múltiple, que usaremos para medir la cantidad de información contenida en las componentes principales seleccionadas sobre cada variable. Dentro de esta misma sección estudiaremos la ma- triz de correlaciones y su relación con la matriz de covarianzas. A continuación introduciremos las definiciones de elipsoide de concentración y distancia de Mahalanobis, y estudiaremos la relación entre estos conceptos. En la siguiente sección abordaremos el principal objetivo de este capítulo, el cálculo de las componentes principales y sus propiedades. En primer lugar las definiremos, pa- ra seguidamente, enunciar y demostrar el teorema que permite calcularlas a partir de la matriz de covarianzas. Posteriormente determinaremos sus propiedades más importantes. A continua- ción veremos cómo calcular las componentes a partir de la matriz de correlaciones para, al igual que se ha hecho en el caso en el que usábamos la matriz de covarianzas, determinar algunas de sus propiedades. Para finalizar el capítulo veremos cómo se interpretan las componentes, e in- troduciremos algunos criterios para determinar cuántas componentes debemos seleccionar para nuestros análisis. En el segundo capitulo realizaremos varios análisis con las estadísticas oficiales de la Liga de Fútbol Profesional española de la temporada 2016/2017. El primer análisis lo haremos con los da- tos de todos los jugadores. Comenzaremos por un estudio previo de las estadísticas, centrado en la búsqueda de correlaciones interesantes entre las variables estudiadas y en detectar valores atí- picos en éstas. Además, localizaremos a los individuos más cercanos y más alejados de la media mediante la distancia de Mahalanobis. Posteriormente calcularemos las componentes principa- les. Usando los criterios descritos en el capítulo anterior, determinaremos cuántas debemos selec- cionar para nuestro análisis. Una vez calculadas las componentes veremos cómo se interpretan y pasaremos a estudiar las saturaciones y la cantidad de información que mantenemos (y que per- demos) al realizar el análisis. Introduciremos también el concepto de círculo de correlaciones y lo aplicaremos a nuestro caso. Para finalizar analizaremos las gráficas de las componentes. Después de este análisis llevaremos a cabo otro usando las estadísticas de los jugadores que son defensas. En este análisis estudiaremos lo mismo que en el anterior, aunque de forma menos exhaustiva. Realizaremos también dos análisis más de los jugadores que son centrocampistas y delanteros, limitándonos solo al cálculo de las componentes. Para finalizar haremos dos análisis más, usando los ratios por partido y los porcentajes de éxito de cada jugador, de nuevo calculando solo las componentes principales.