<<

Universidad de Granada

MASTER´ EN ESTAD´ISTICA APLICADA

TRABAJO FIN DE MASTER´

SECUENCIAS Y SUBSECUENCIAS DE PASES ENTRE FUTBOLISTAS ¿ES XAVI UN JUGADOR UNICO?´

Trabajo realizado por Ra´ulS´anchez Navarro

Dirigido por: Dr. Javier L´opez Pe˜nay Dr. Andr´esGonz´alezCarmona

´Indice

1. M´etodos utilizados 7 1.1. An´alisisdescriptivo ...... 7 1.2. Normalizaci´on...... 7 1.3. An´alisisCluster ...... 8 1.3.1. Affinity Propagation ...... 8 1.3.2. Mean Shift ...... 11 1.3.3. K-medias ...... 12 1.3.4. An´alisisjer´arquico ...... 13 1.3.5. Amalgamiento simple ...... 14 1.3.6. M´etodo de Ward ...... 15 1.4. An´alisisde Componentes Principales ...... 15

2. An´alisispor equipos 17 2.1. An´alisisdescriptivo ...... 17 2.2. T´ecnicasaglomerativas ...... 24 2.2.1. Propagaci´onpor afinidad ...... 24 2.2.2. K-medias ...... 27 2.2.3. M´etodo jer´arquicode Ward ...... 30 2.2.4. An´alisisde componentes principales ...... 32

3. An´alisispor jugadores 35 3.1. An´alisisdescriptivo ...... 36 3.2. T´ecnicasaglomerativas ...... 38 3.2.1. Propagaci´onpor afinidad ...... 38 3.2.2. Mean Shift ...... 42 3.2.3. An´alisisde componentes principales ...... 43 3.2.4. Xavi ...... 46 3.2.5. Distancias eucl´ıdeas...... 52

4. Conclusiones 54

2 ´Indice de figuras

1. BP-ABCA-ESP-2014 ...... 19 2. BP-ABCA-ENG-2014 ...... 19 3. BP-ABCA-CHP-2014 ...... 20 4. BP-ABCA-ESP ...... 20 5. BP-ABCA-ENG ...... 21 6. BP-ABCA-nENG-2014 ...... 22 7. BP-ABCA-nSPA-2014 ...... 22 8. BP-ABCA-nCHP-2014 ...... 23 9. kmN-SPA-2-4-5 ...... 28 10. kmN-ENG-2-4-4 ...... 29 11. kmN-CHP-2-4-5 ...... 30 12. Ward - ESP ...... 31 13. Ward - ENG ...... 31 14. Ward - CHP ...... 32 15. PCA - ESP ...... 33 16. PCA - ENG ...... 34 17. PCA - CHP ...... 34 18. PCA ...... 44 19. PCA jugadores ...... 45 20. Xavi vs resto ...... 51

3 ´Indice de cuadros

1. Resumen ...... 17 2. Medias normalizadas por equipos ...... 18 3. Coeficiente Silhouette ...... 24 4. Propagaci´onpor afinidad 0.8 - ESP ...... 25 5. Propagaci´onpor afinidad 0.8 - ENG ...... 25 6. Propagaci´onpor afinidad 0.9 - CHP ...... 26 7. Sucesiones de jugadores ...... 35 8. Todos los jugadores ...... 36 9. Coeficiente Silhouette - Jugadores ...... 38 10. Grupos por jugadores - Silhouette ...... 38 11. Posiciones: laterales, centrocampistas ...... 39 12. Posiciones: Centrales y defensas ...... 40 13. Posiciones: Extremos ...... 40 14. Posiciones: Laterales ...... 41 15. Posiciones: Delanteros ...... 41 16. Grupos de jugadores (Mean shift) ...... 42 17. Componentes PCA ...... 43 18. Xavi y total ...... 46 19. Jugadores FC Barcelona ...... 47 20. Jugadores Real ...... 48 21. Medias normalizadas ...... 49 22. Valores m´aximos ...... 50 23. Distancias m´ınimas ...... 52 24. M´ınimadistancia euc´ıdea(MDE) ...... 52 25. Distancias hasta Xavi ...... 53

4 Introducci´on

Uno de los grandes retos a los que se enfrentan los ojeadores de los clubes de f´utbol es la tarea de reemplazar un jugador por otro. El primero, bien pudo llegar a una edad en la que decidi´odar paso a jugadores m´asj´ovenes dejando puesto en el equipo, otro club le ofrec´ıauna ficha m´asalta o bien tuvo que retirarse de la competici´ondebido a una lesi´on.En cualquiera de los casos, es tarea del equipo responsable de gestionar la plantilla la labor de encontrar un reemplazo de garant´ıaspara este jugador que debe abandonar el equipo, independientemente de la raz´on.

El segundo jugador, llegar´aal club de destino probablemente con la eti- queta de ser el reemplazo del primero, precedido de un coste alto econ´omi- camente hablando y una ficha elevada, por lo que la presi´onsobre el nuevo fichaje del equipo ser´aalta. La cuesti´onque nos planteamos es: ¿Pueden los ojeadores estar seguros al cien por cien de que el jugador que recomendaron contratar es el reemplazo ideal?

La labor del ojeador consiste en encontrar jugadores de un perfil deter- minado dependiendo de las necesidades del equipo. Para ello se invierten grandes cantidades de dinero en seguir jugadores y rastrear el mercado en busca de posibles fichajes y nuevas contrataciones para el equipo. Mediante este trabajo van, entre otras cosas, a ayudar a la Secretar´ıaT´ecnicaa decidir si se debe o no firmar un acuerdo con el futbolista.

Cuando hablamos del f´utbol base, las categor´ıasinferiores del f´utbol es- pa˜nolcontemplan edades desde los 4 hasta los 18 a˜nos.Los ojeadores se dedican a observar a los j´ovenes futbolistas y establecer si tienen suficiente nivel como para jugar en el equipo. ¿De qu´eforma determina un ojeador si el futbolista tiene o no el nivel requerido por el club? Tal y como se puede ver en [10] se realiza una descripci´onprevia de las cualidades del jugador, entre las que se incluye una serie de valoraciones, del tipo general, t´ecnica, t´actica,f´ısica,psicol´ogicay personal, as´ıcomo otro tipo de evaluaciones.

Mediante este trabajo vamos a tratar de demostrar que se puede incluir una nueva forma dentro de la b´usquedade jugadores con un perfil y forma de juego similar, ayudando de este forma a la labor de encontrar el futbo- lista perfecto para reemplazar a otro. Sabiendo los pases que realizan los jugadores de un equipo, extraeremos sus secuencias de pases para estudiar lo involucrado que est´ael jugador con el juego del equipo, as´ıcomo la posici´on favorita del jugador en el campo. Debemos tener en cuenta que es importan-

5 te saber que el juego del equipo puede establecer que un jugador tenga una secuencia de pases determinada y que esta venga influenciada por sus com- pa˜neros,pero es la labor conjunta entre este tipo de an´alisisy la del ojeador la que debe determinar si un jugador est´acapacitado para jugar en el equipo.

Gracias a la tecnolog´ıaactual, la recogida de datos referentes a todo lo que ocurre en el terreno de juego es costosa pero asumible por los clubes, siendo una importante herramienta que permite estudiar num´ericamente cualquier situaci´onque se de a lo largo del partido. El uso de la tecnolog´ıaen el deporte es un hecho actual y si los clubes la utilizan en su favor, pueden verse bene- ficiados en multiples aspectos, desde estudiar al rival, encontrar deficiencias en su equipo, buscar nuevos jugadores, etc.

La estad´ısticay la recopilaci´onde informaci´onest´ana la orden del d´ıa y por eso, con este proyecto se defiende que es posible establecer un perfil matem´atico-futbol´ısticoque permita a los equipos poseer dentro de sus filas a personas capacitadas para realizar an´alisisde alto nivel estad´ısticoy adem´as, entiendan lo que ocurre dentro del equipo para poder ayudarlo de la mejor manera posible.

Por otro lado, en este trabajo nos centraremos en encontrar un reemplazo para Xavi, uno de los jugadores m´aslaureados del f´utbol espa˜noly ganador de al menos una vez, de todos los torneos profesionales que ha disputado tanto con la Selecci´onEspa˜nolade F´utbol (menos la Copa Confederaciones) como con el equipo que capitaneaba, el FC Barcelona, el cual a dejado este verano. Mediante t´ecnicasestad´ısticascomprobaremos si somos capaces de encontrar un reemplazo id´oneopara el futbolista. Para ello comprobaremos las secuencias de pases entre equipos y jugadores, las cuales nos dar´aninfor- maci´onreferente al estilo de juego que desarrolla cada jugador en el terreno de juego. Esta informaci´onnos permitir´aconocer la similaridad entre fut- bolistas y con ello, comprobar los m´ascercanos a la forma de juego del ya exblaugrana.

6 1. M´etodos utilizados

En este cap´ıtulose explicar´anlos procesos que llevaremos a cabo para realizar nuestra tarea.

1.1. An´alisis descriptivo Para llevar a cabo este an´alisis,utilizaremos las medidas de tendencia central como la media aritm´eticay la mediana, gr´aficamente, utilizaremos el gr´aficode caja.

Diagrama de caja:

El diagrama de caja es un gr´aficoen el cual se pueden visualizar un conjunto de datos. Este gr´aficoes muy sencillo de analizar. Est´afor- mado por un rect´anguloque contiene la informaci´onde los individuos que componen entre el 25 y el 75 por ciento de la informaci´on,siendo el 25 % (o el primer cuantil)la l´ıneainferior del rect´anguloy el 75 % (tercer cuartil) el superior. Tambi´ensuele mostrarse la mediana (cuartil dos o 50 % de la observaci´on)dentro del rect´angulo.En las colas superior e inferior del gr´aficoobservamos en sus partes extremas el punto m´ınimo y m´aximodel conjunto de datos analizado.

1.2. Normalizaci´on Para el mejor tratamiento de los datos y evitar problemas derivados de las distancias entre proporciones, en algunas ocasiones ser´aaconsejable nor- malizar los datos.

La normalizaci´onpermite transformar un conjunto de valores, en otro con media 0 y desviaci´ont´ıpica1. De esta forma, podemos comparar proporcio- nes que de otra forma no ser´ıaposible.

El proceso de normalizaci´ones muy sencillo: X − µ Z = i σ

Donde:

Z: Es el valor est´andar

7 Xi : representa cada uno de los valores del conjunto de datos µ : Es la media del conjunto de valores

σ : Es la desviaci´on t´ıpicadel conjunto de valores

1.3. An´alisis Cluster El an´alisisCluster es una t´ecnicaque permite resolver problemas de cla- sificaci´on.Dependiendo la rama de estudio se le asigna un nombre distinto como puede ser Taxonom´ıaNum´erica en Biolog´ıa, Q-an´alisis en Psicolog´ıao Reconocimiento de patrones en Inteligencia Artificial. La ventaja de utilizar este tipo de an´alisisradica en que no hace falta estar al tanto de la informa- ci´onrecibida, pero es ah´ıdonde una opini´onexperta en el campo de estudio hace que se tenga ventaja sobre el estudio a la hora de establecer una me- jor clasificaci´on.¿Cu´antas posibilidades existen? ¿Cu´antas categor´ıasse han encontrado? El an´alisisCluster enumerar´aestas posibilidades y podremos elegir entre ellas.

La clasificaci´onde las m observaciones de k grupos es un n´umerode Stirling de segunda especie (Abramowitz y Stegun, 1968)

k ! (k) 1 X k−i k m Sm = (−1) i (1) k! i=0 i Como el n´umerode grupos suele ser desconocido, el n´umerode posibili- dades es la suma de n´umerosde Stirling, luego por ejemplo, para m obser- vaciones:

k X (j) Sm j=0 Para seleccionar un n´umerodeterminado de clusters, utilizamos la pro- pagaci´onpor afinidad y adem´asde otros an´alisiscomo k-medias, mean shift, an´alisisjer´arquicos, as´ıcomo an´alisisde componentes principales para com- probar los pesos de las variables.

1.3.1. Affinity Propagation Esta t´ecnicanos ayudar´aa seleccionar un n´umerodeterminado de clus- ters para nuestros datos. La propagaci´onpor afinidad toma como conjunto de datos principal similitudes entre los datos, donde las similaridades s(i, k) indican cu´anadecuados son los datos k para cada punto de i. Cuando el

8 objetivo es minimizar los errores al cuadrado, cada similaridad se establece como el inverso del error cuadrado (distancia eucl´ıdea).

Siendo un n´umeroreal s(k, k) donde para cada punto k sus puntos ser´an escogidos como puntos principales. Estos puntos se denominar´an puntos ejem- plares. El n´umerode puntos ejemplares ser´ael n´umerode clusters, influencia- do por los valores de entrada ejemplares. En principio, se sugiere que todos los datos pueden ser elegidos como tales, pero este punto puede ser trans- formado para producir el n´umerode clusters. El valor compartido puede ser la mediana (si proviene de un n´umero moderado de clusters) de las simi- laridades o sus m´ınimos(si es el resultado de un n´umeropeque˜node clusters).

La propagaci´onpor afinidad funciona de la siguiente manera, como ejem- plificamos para un conjunto de datos bidimensional, donde las distancias eucl´ıdeasnegativas se usan como medidas de similaridad. Cada punto se co- lorea dependiendo de la evidencia de ser el centro del cluster. Las distancias entre un punto i y un punto k son medidas mediante la fuerza por la que pue- den transmitirse entre s´ı.La responsabilidad, r(i, k) se env´ıaentre los puntos indicando lo fuerte que es un punto en relaci´oncon otro punto ejemplar. La disponibilidad, a(i, k) se env´ıadesde los candidatos a los puntos para indicar el grado en el que estos pueden ser el centro del cluster. Despu´es,se muestra el efecto del valor de la preferencia de entrada (com´unpara todos los puntos de datos) en el n´umerode ejemplares identificados (n´umerode grupos).

Continuando, tenemos dos tipos de mensajes que se intercambian entre los datos, y cada uno de ellos tiene en cuenta un tipo distinto de competen- cias. Estos mensajes pueden combinar cada paso para decidir que puntos son ejemplares y as´ı,seleccionar a cual pertenecen. En otras palabras, r(i, k) y a(i, k) pueden verse como cocientes de la probabilidad logaritmica. Siendo a(i, k) = 0, las responsabilidades se efect´uande la siguiente manera:

r(i, k) ← s(i, k) − m´ax a(i, k0) + s(i, k0) (2) k06=k En la primera iteraci´on,siendo las disponibilidades cero, r(i, k) se escoge co- mo la similarididad entre el punto i y el punto k como punto ejemplar, menos la mayor de las disimilaridades entre el punto i y cada uno de los otros can- didatos a ejemplar. Despu´es, cuando los puntos se asignan a los ejemplares, sus disponibilidades ser´anmenores que 0 tal y como veremos a continuaci´on. Para k = i, la responsabilidad r(k, k) se selecciona como la preferencia donde el punto k puede escogerse como ejemplar. Esta autoresponsabilidad refleja evidencias acumuladas de que cada punto k es un ejemplar, basado en la

9 preferencia de entrada de c´omose ha asignado otro ejemplar.

Donde sea que la responsabilidad anterior permita a todos los candidatos a ejemplar competir por ser el punto central, un buen ejemplar debe seguir la siguiente forma:

a(i, k) ← m´ın{0, r(k, k) + X m´ax{0, r(i0 , k)}} (3) i0 6=i,k

La disponibilidad a(i, k) se establece como la autoresponsabilidad r(k, k) m´as la suma de las responsabilidades positivas de k recibidas de cada punto. Solo las porciones positivas de las responsabilidades entrantes son a˜nadidas porque es lo ´uniconecesario para que un ejemplar pueda explicar bien sus puntos, independientemente de que no explique bien otros puntos. Si la autorespon- sabilidad r(k, k) es negativa, la disponibilidad del punto k como ejemplar puede incrementarse si otros puntos tienen responsabilidades positivas para cada punto k siendo su ejemplar. Para limitar una fuerte influencia por parte de responsabilidades entrantes positivas, el total de la suma del umbral no puede ser 0. La autodisponibilidad a(k, k) se actualiza de la siguiente manera:

a(k, k) ← X m´ax{0, r(i0 , k)} (4) i0 6=k

Este mensaje refleja la evidencia acumulada de que el punto k es el ejemplar, basado en las responsabilidades positivas enviadas al candidato ejemplar k desde otros puntos.

En cualquier momento durante la propagaci´onpor afinidad, disponibilida- des y responsabilidades pueden combinarse para identificar ejemplares. Para cada punto i, cada valor de k maximiza a(i, k)+r(i, k) identificando el punto i como ejemplar si k = i. El procedimiento de intercambio de mensajes debe terminar cuando se alcance un n´umerodeterminado de iteraciones, cuando no se produzcan cambios significativos o bien cuando las decisiones local permanezcan constantes durante varias iteraciones consecutivas. Cuando se actualizan los mensajes, es importante comprobar la amortiguaci´onpara evi- tar que surjan oscilaciones. Cada mensaje se establece λ veces m´as1 − λ su valor prescrito, donde el factor de amortiguamiento λ se sit´uaentre 0 y 1.

La habilidad principal de la propagaci´onpor afinidad es operar sobre la base del criterio de optimizaci´ones ajustable para an´alisisde datos explora- torios usando medidas de similaridad inusuales. La ventaja de utilizar este

10 m´etodo frente a otros como el de k-medias, radica en que puede aplicarse a problemas donde los datos no pertenecen a un espacio continuo. De he- cho, se puede aplicar en problemas donde las similaridades no son sim´etricas [i.e., s(i, k) 6= s(k, i)] y los problemas donde las similaridades no satisfacen la desigualdad triangular [i.e., s(i, k) < s(i, j) + s(j, k)].

1.3.2. Mean Shift El m´etodo Mean Shift es una t´ecnicade clustering no param´etricaque no requiere conocer un n´umerodeterminado, ni de la forma de los clusters.

Sea n un conjunto de datos xi, i = 1, . . . , n en un espacio d-dimensional Rd, el n´ucleomultivariado estimado de la funci´onde densidad con n´ucleo K(c) y un radio h es:

n   1 X x − xi f(x) = d K (5) nh i=1 h

Para la simetr´ıadel radio del n´ucleo, basta con definir el perfil del n´ucleo k(x) que satisfaga:

2 K(x) = ck,dk(||x|| ) (6)

donde ck,d es la normalizaci´onde la constante que asegura que K(x) integra en 1. Las modas de la funci´onde densidad est´ansituadas sobre los ceros del gradiente de la funci´on ∇f(x) = 0.

El gradiente del estimador de densidad es:

n 2! 2ck,d X x − xi ∇f(x) = (x − x)g d+2 i nh i=1 h   2  Pn x−xi " n 2!# i=1 xig 2ck,d X x − xi  h  = g  − x d+2   2  nh i=1 h Pn x−xi i=1 g h donde g(s) = −k0(s). El primer t´erminoes proporcional a la densidad es- 2 timada de x calculada con el n´ucleo G(x) = cg,dg(||x|| ), donde el segundo

11 t´ermino:  2 Pn x−xi i=1 xig h m (x) = − x (7) h  2 Pn x−xi i=1 g h es el intercambio de medias o mean shift. Los vectores del intercambio de medias siempre apuntan hacia adelante en direcci´onhacia el m´aximoincre- mento en la densidad.

Este algoritmo empieza sobre el conjunto de datos, encontrando puntos es- tacionarios de la funci´onde densidad, escogiendo los puntos que contienen solo el m´aximolocal. El conjunto de datos que converge de la misma forma se denomina cuenca de la atracci´on de ese modo. Luego los puntos que est´an dentro de la misma cuenca se asocian al mismo cluster.

1.3.3. K-medias Este primer m´etodo permitir´aidentificar grupos (clusters) de un conjunto de datos en un espacio multidimensional. Suponiendo el conjunto de datos x1, ..., xn de N observaciones en un espacio aleatorio eucl´ıdeo D-dimensional. Pretendemos dividir los datos en un conjunto de K clusters. Cada cluster se compone de un conjunto de datos en los cuales las distancias entre ellos son peque˜nasen comparaci´oncon las distancias entre los puntos fuera del clus- ter. Formalicemos esto. Introducimos un conjunto de vectores D-dimensional µk, donde k = 1, ..., K, donde µk es el prototipo asociado al k-´esimo cluster. Como veremos m´asadelante, µk representa el centro del cluster. El objetivo principal es encontrar una medida para los datos de los clusters, as´ıcomo para el conjunto de vectores µk, donde la suma de los cuadrados de las dis- tancias de cada punto al vector µk, sea m´ınima.

Sea xn cada observaci´on,introducimos un conjunto de indicadores binarios rnk ∈ 0, 1, donde k = 1, ..., K describe cada K cluster donde se encuentra cada xn observaci´on,por lo que cada xn se asigna al cluster k donde rnk = 1 y rnj = 0 para j 6= k. Esto se conoce como el esquema de codificaci´onde 1 hasta K. La funci´onobjetivo, llamada tambi´en medida de distorsi´on, viene dada por:

N N X X 2 J = rnk||xn − µk|| (8) n=1 k=1 representando la suma de las distancias al cuadrado de cada punto asig- nadas al vector µk. Debemos encontrar los valores de rnk y µk que minimicen

12 J. Podremos hacer esto a trav´esde un procedimiento iterativo en el que cada iteraci´oninvolucre dos pasos consecutivos que correspondan a optimizacio- nes sucesivas con respecto a rnk y µk. Para la primera fase optimizamos J respecto de rnk, manteniendo µk dijo. En la segunda lo hacemos a la inversa. Se repite este procedimiento de dos pasos hasta que converja.

Consideraremos la primera determinaci´on de rnk. Debido a que J es una funci´onlineal de rnk, se optimizar´afacilmente. Si se involucran diferentes n independientes y podemos optimizar cada n por separado escogiendo rnk 2 para ser 1 cualquiera k valor dado por el m´ınimode ||xn − µk|| . En otras pa- labras, simplemente asignamos a cada n-´esimapunto el cluster m´ascercano. Formalmente, esto se expresa de la siguiente forma:

( 1 si k = argmin ||x − µ ||2 r = j n j (9) nk 0 en otro caso

Consideremos ahora la optimizaci´onde un µk dado. El objetivo de la funci´on J es la funci´oncuadr´aticade µk, la cual puede ser minimizada por la derivada respecto a µk de 0 donde:

N X 2 rnk(xn − µk) = 0 (10) n=1

que puede ser resuelta f´acilmente por µk dado P n rnkxn µk = P (11) n rnk El denominador de la expresi´ones igual al n´umerode puntos asignado al cluster k, y por lo tanto este resultado tiene una peque˜nainterpretaci´on, siendo µk igual a la media de todos los puntos xn asignados al cluster µk. Por esta raz´ones conocido como el algoritmo de K-medias.

1.3.4. An´alisis jer´arquico Los m´etodos jer´arquicos permiten agrupar clusters con el objetivo de crear uno nuevo a partir de clusters ya existentes. De esta forma se efect´uael pro- ceso de aglomeraci´ono divisi´on,seg´unse minimice distancias o se maximicen medidas de similitud.

Los m´etodos jer´arquicosaglomerativos no proporcionan una soluci´onoptima al problema, de ah´ıque el buen criterio del investigador, el conocimiento del problema y la experiencia, ayuden a seleccionar el procedimiento adecuado.

13 1.3.5. Amalgamiento simple Tambi´endenominado single linkage, este m´etodo considera que la dis- tancia o similitud entre dos cl´usteres viene dada por la distancia m´ınima,o m´aximasimilitud, entre sus componentes.

Por lo tanto, tras efectuar la etapa K-´esima y formar los n-K clusters, tene- mos que la distancia entre Ci y Cj con ni,j elementos, es de:

d(Ci,Cj) = m´ın {d(x, y)} (12) x∈Ci y∈Cj Mientras que la similitud, si estuvi´eramosempleando una medida de tal tipo, entre dos clusters ser´ıa:

s(Ci,Cj) = m´ax {s(x, y)} (13) x∈Ci y∈Cj Con ello, la estrategia seguida en el nivel K+1 ser´ıa:

1. En el caso de emplear distancias, se unir´anlos clusters Ci y Cj si:

d(Ci,Cj) = m´ın {d(Ck,Cl)} k,l=1,...,n−K k6=l     = m´ın m´ın d(x, y) k,l=1,...,n−K x∈Ck  k6=l y∈Cl 

2. El siguiente paso es unir los clusters Ci y Cj si existe alguna similitud siguiendo la norma de maximizar similitudes o minimizar distancias:

d(Ci,Cj) = m´ax {d(Ck,Cl)} k,l=1,...,n−K k6=l     = m´ax m´ax d(x, y) k,l=1,...,n−K x∈Ck  k6=l  y∈Cl 

14 1.3.6. M´etodo de Ward Este m´etodo se unen los clusters que tienen menor incremento en el valor de la suma de los cuadrados de las diferencias, dentro de cada cluster, de cada individuo al centroide del cluster.

Dicho de otro modo, de cu´anto aumenta la distancia de la suma de los cua- drados cuando dos clusters se unen:

X −→ −→ 2 X −→ −→ 2 X −→ −→ 2 ∆(A, B) = || x i − mA∪B|| − || x i − mA|| − || x i − mB|| i∈A∪B i∈A i∈B nAnB −→ −→ 2 = ||mA − mB|| nA + nB −→ donde mj es el centro del cluster j, y nj es el n´umerode puntos en ´el.∆ es el llamado coste de uni´onal combinar los clusters A y B.

En el an´alisiscluster jer´arquico,la suma de los cuadrados empieza en 0 de- bido a que cada punto es su propio cluster y a partir de ah´ı,se van uniendo. Este m´etodo mantiene el crecimiento de los nuevos clusters lo m´aspeque˜nos posibles, prefiere unir los puntos m´aspeque˜nos.Es un m´etodo ego´ısta,y li- mitado por decisiones anteriores en cuanto a las agrupaciones que forman. Esto significa que la suma de los cuadrados para un n´umero k de clusters normalmente es m´asgrande que el n´umerom´ınimode k, siendo aconseja- ble emplear despu´esel m´etodo de k-medias empezando desde el n´umerode clusters encontrado usando el m´etodo de Ward para reducir la suma de los cuadrados desde un buen punto de partida.

1.4. An´alisis de Componentes Principales El objetivo de este an´alisises la reducci´onde la dimensi´onde un problema con p variables a otro con un n´umeroinferior. El ACP pretende explicar la estructura de la covarianza de un vector aleatorio X mediante la b´usquedade un nuevo sistema de ejes de coordenadas que indiquen las nuevas direcciones de mayor variabilidad en una situaci´onte´oricadada.

Dadas las variables x1, x2 . . . , xn, las componentes principales se obtienen combinando linealmente las variables originales de forma que:

maximicen la varianza

sean ortogonales entre s´ı

15 Llamando zf a las nuevas variables f = 1, . . . , p,z ¯f a sus respectivos vectores de datos yu ¯f a sus respectivos vectores de coeficientes, tenemos que: z¯f = Xu¯f (14) donde     u1f z1f  .   .  u¯f =  .  , z¯f =  .   .   .  upf zpf es decir, cada nuevo componente vendr´adado por la expresi´on:

zf = xilu1f + xi2u2f + ··· + xipupf (15)

La varianza del conjunto de datos representados por la matriz X y pro- yectado sobre la direcci´on¯u viene dada por

σ2(Xu¯) =u ¯0Cu¯ (16)

As´ıpues, se plantea el problema de determinar el ejeu ¯ que pasa por el origen y para el cual es m´aximala varianza del conjunto de datos proyectado. Matem´aticamente, debemos hallar los p componentes u1, u2, . . . , up de un Pp 2  vector ´unicounitario j=1 uj = 1 de tal forma que maximice la expresi´on:

u¯0Cu¯ (17) con la restricci´on u¯0u¯ = 1 (18)

16 2. An´alisis por equipos

Mediante el an´alisispor equipos podremos ver las secuencias de pases m´as utilizadas por los mismos. En total, se han analizado 85 equipos, los cuales provienen de las ´ultimascinco temporadas de la English , las tres ´ultimasde y la de Champions League 14/15.

2.1. An´alisis descriptivo En primer lugar, veamos un peque˜noresumen de las secuencias.

ABAB ABAC ABCA ABCB ABCD mean 5.034 23.179 13.707 23.099 90.107 std 4.251 15.400 8.886 15.630 53.242 min 0.000 0.000 0.000 0.000 3.000 25 % 2.000 12.000 7.000 12.000 50.000 50 % 4.000 20.000 12.000 20.000 79.000 75 % 7.000 31.000 18.000 31.000 118.250 max 40.000 121.000 65.000 121.000 394.000

Cuadro 1: Resumen

De un total de 6028 partidos, la media de las secuencias por equipos se sit´uaentre 5 y 90, siendo la primera secuencia dos pases entre dos jugadores, una pared y pase a otro compa˜nero,triangulaci´on/circulaci´on,pase y pared y por ´ultimo,pases entre distintos compa˜neros.La m´asutilizada es esta ´ulti- ma, seguida por ABAC y ABCB, ya que son dos secuencias muy parecidas.

Despu´esde esta breve introducci´on,vamos a comprobar los resultados del an´alisispropuesto en [8], el cual demostrar´aque las frecuencias de pases del FC Barcelona son totalmente distintas a la del resto de equipos, tanto de la liga espa˜nolacomo de las grandes ligas europeas. Primero, observaremos los gr´aficosde caja normalizados y sin normalizar para ver donde se sit´uan los equipos de las tres competiciones. Proponemos mostrar un gr´aficoque contenga todos los partidos analizados y otro de la ´ultimatemporada, ya que hay equipos que desaparecen de la competici´ondebido al descenso de categor´ıaque se produce a final de temporada. Si organizamos las secuencias por nombre de equipo y obtenemos la media, obtenemos el siguiente resultado, donde podemos observar que el Barcelona

17 est´asituado en un rango de las colas fuera de lo normal. Sabiendo que los datos est´annormalizados para que la media sea µ = 0 y σ = 1, este equipo se sit´uapor encima de 2:

ABAB ABAC ABCA ABCB ABCD Almer´ıa -0.396 -0.548 -0.684 -0.609 -0.651 Athletic Club 0.263 0.193 0.128 0.155 0.064 Atl´eticode Madrid 0.066 -0.065 0.181 -0.030 -0.236 Barcelona 2.643 2.754 2.225 2.658 2.481 Celta de Vigo 0.099 0.210 0.174 0.211 0.239 C´ordoba -0.192 -0.186 -0.150 -0.231 -0.241 Deportivo de La Coru˜na -0.234 -0.237 -0.065 -0.212 -0.112 Eibar -0.313 -0.585 -0.728 -0.526 -0.739 Elche -0.369 -0.301 -0.294 -0.297 -0.190 Espanyol -0.377 -0.464 -0.483 -0.472 -0.637 Getafe -0.318 -0.467 -0.483 -0.427 -0.514 Granada CF -0.397 -0.376 -0.448 -0.427 -0.403 Levante -0.530 -0.738 -0.779 -0.717 -0.788 Mallorca -0.348 -0.531 -0.553 -0.481 -0.608 M´alaga -0.052 -0.125 -0.030 -0.104 -0.093 Osasuna -0.456 -0.474 -0.403 -0.505 -0.353 -0.021 0.152 0.378 0.086 0.211 -0.243 -0.270 -0.178 -0.218 -0.287 Real Madrid 0.562 0.804 0.692 0.877 1.050 Real Sociedad -0.071 -0.086 0.033 -0.060 0.077 Real Valladolid -0.370 -0.147 -0.031 -0.147 0.086 Real Zaragoza -0.410 -0.480 -0.265 -0.469 -0.434 Sevilla 0.044 0.143 0.012 0.100 0.030 Valencia CF 0.073 0.134 0.102 0.180 0.206 Villarreal -0.258 -0.240 -0.077 -0.210 -0.040

Cuadro 2: Medias normalizadas por equipos

Debido a que contamos con 30 gr´aficosuno por cada secuencia (recorde- mos que las secuencias para los equipos son ABAB, ABAC, ABCA, ABCB y ABCD) observaremos los gr´aficospara ABCA de la ´ultimatemporada de cada competici´on.Escoger esta secuencia se debe a que este tipo de secuencia de pases es una triangulaci´onentre 3 jugadores.

18 La Liga - Temporada 2014

60

50

40

30

20

10

0

Eibar Elche

Getafe Sevilla Málaga Almería Levante Córdoba Espanyol Villarreal Barcelona

Granada CF Real Madrid Valencia CF Athletic Club Celta de Vigo Real Sociedad

Rayo Vallecano

Atlético de Madrid

Deportivo de La Coruña Figura 1: BP-ABCA-ESP-2014

El gr´aficopara la liga espa˜nolamuestra claramente que tanto la media como la mediana en cuanto a triangulaciones del FC Barcelona est´aun nivel por encima del resto de equipos, le siguen Real Madrid, Atl´eticode Madrid, Rayo Vallecano y Celta de Vigo, equipos que tratan de conservar m´asel bal´onque el resto de equipos.

Premier League - Temporada 2014

70

60

50

40

30

20

10

0

Arsenal Burnley Chelsea Everton Hull City Liverpool

Aston Villa Stoke City Sunderland

Southampton Leicester City Swansea City Crystal Palace

Manchester City

Newcastle United West Ham United

Manchester United Tottenham Hotspur

Queens Park Rangers West Bromwich Albion Figura 2: BP-ABCA-ENG-2014

La liga inglesa no muestra una superioridad tan grande por ning´unequi- po como la mostrada por el Barcelona en la liga Espa˜nola.Los equipos que luchan por levantar la copa de campeones de liga tienen sus medias y media- nas en un nivel parecido, Arsenal, Chelsea, Manchester City y Manchester United.

19 Champions League - Temporada 2014

60

50

40

30

20

10

0

Ajax

Roma

Arsenal Benfica Chelsea Monaco FC Basel FC Porto Juventus Liverpool Barcelona Malmö FF

NK Maribor Olympiakos Galatasaray Real Madrid Athletic Club BATE Borisov CSKA Moscow APOEL Nicosia FC Schalke 04

RSC Anderlecht Sporting Lisbon Manchester City

Atlético de Madrid Shakhtar Donetsk

Borussia Dortmund Zenit St Petersburg Paris Saint Germain FC Bayern München Ludogorets Razgrad

Bayer 04 Leverkusen Figura 3: BP-ABCA-CHP-2014

Los 32 equipos que disputaron la Liga de Campeones esta temporada muestran una frecuencia similar en cuanto a equipos que llegaron m´aslejos durante la competici´on.Es de recibo recordar que el m´aximode partidos que se pueden disputar en esta competici´onen caso de llegar a la final, es de 13, por lo que tampoco podemos obtener conclusiones precipitadas con este gr´afico.Los equipos que llegaron a la final fueron FC Barcelona y Juventus de Tur´ıny tras 13 partidos, el cuartil 3 del equipo Italiano est´acercano al cuartil 1 del Barcelona.

A continuaci´on,vemos los gr´aficospara todas las temporadas de las ligas espa˜nolae inglesa:

La Liga

60

50

40

30

20

10

0

Eibar Elche

Getafe Sevilla Málaga Almería Levante Mallorca Córdoba Osasuna Espanyol Villarreal

Barcelona Real Betis

Granada CF Real Madrid Valencia CF Athletic Club Celta de Vigo Real Sociedad Real Valladolid Real Zaragoza Rayo Vallecano

Atlético de Madrid

Deportivo de La Coruña

Figura 4: BP-ABCA-ESP

20 Premier League

70

60

50

40

30

20

10

0

Fulham Arsenal Burnley Everton Chelsea Reading Hull City Liverpool

Aston Villa Stoke City Cardiff City Sunderland

Norwich City Southampton Leicester City Swansea City Crystal Palace Wigan Athletic

Manchester City

Newcastle United West Ham United

Manchester United Tottenham Hotspur

Queens Park Rangers West Bromwich Albion

Figura 5: BP-ABCA-ENG

Como podemos observar, las medianas dentro de las cajas de la liga ingle- sa muestran diferencias entre los equipos de la parte alta de la clasificaci´on, los que pelean por alcanzar un puesto en Europa, los de la mitad de la tabla y los candidatos al descenso. Observamos a equipos como el Swansea que ha- cen un f´utbol en el que los jugadores se pasan entre s´ıpero no tienen un alto porcentaje de goles. La liga espa˜nolamuestra la supremac´ıadel Barcelona en cuanto a n´umerode pases en la secuencia que muestra la triangulaci´on, sin embargo el resto de equipos no tienen medianas muy separadas entre s´ı.

Los datos normalizados muestran los gr´aficosde la ´ultimatemporada de la siguiente manera:

21 Premier League

5

4

3

2

1

0

1

2

Arsenal Burnley Chelsea Everton Hull City Liverpool

Aston Villa Stoke City Sunderland

Southampton Leicester City Swansea City Crystal Palace

Manchester City

Newcastle United West Ham United

Manchester United Tottenham Hotspur

Queens Park Rangers West Bromwich Albion

Figura 6: BP-ABCA-nENG-2014

La Liga

5

4

3

2

1

0

1

2

Eibar Elche

Getafe Sevilla Málaga Almería Levante Córdoba Espanyol Villarreal Barcelona

Granada CF Real Madrid Valencia CF Athletic Club Celta de Vigo Real Sociedad

Rayo Vallecano

Atlético de Madrid

Deportivo de La Coruña

Figura 7: BP-ABCA-nSPA-2014

22 Champions League

4

3

2

1

0

1

2

Ajax

Roma

Arsenal Benfica Chelsea Monaco FC Basel FC Porto Juventus Liverpool Barcelona Malmö FF

NK Maribor Olympiakos Galatasaray Real Madrid Athletic Club BATE Borisov CSKA Moscow APOEL Nicosia FC Schalke 04

RSC Anderlecht Sporting Lisbon Manchester City

Atlético de Madrid Shakhtar Donetsk

Borussia Dortmund Zenit St Petersburg Paris Saint Germain FC Bayern München Ludogorets Razgrad

Bayer 04 Leverkusen

Figura 8: BP-ABCA-nCHP-2014

Donde podemos observar lo mismo que anteriormente.

23 2.2. T´ecnicasaglomerativas Tras observar que existen ciertas diferencias en cuanto a las frecuencias de las secuencias de pases, nos ayudaremos de las t´ecnicasde agrupaci´on para poder observar estas secuencias de otra forma y comprobar si es posible clasificar el nivel de los equipos seg´unel n´umero de pases.

2.2.1. Propagaci´onpor afinidad En primer lugar he utilizado el m´etodo de propagaci´onpor afinidad para comprobar cuantos grupos pueden formarse utilizando un factor de amortiguaci´onentre 0.5 y 1 para comprobar qu´eclasificaci´on es la m´asade- cuada para nuestro an´alisis.El resultado lo dar´ael coeficiente de Silhouette resultante, el cual se sit´uaentre 0 y 1 en funci´onde la calidad resultante entre la agrupaci´onde los datos. Se han seleccionado las tres temporadas para cada competici´on(Champions solo tiene una).

Coeficiente Silhouette N´umerode clusters Damping SPA ENG CHP 0.69 0.652 0.657 0.588 5 4 5 0.79 0.652 0.657 0.588 5 4 5 0.89 0.921 0.657 0.535 2 4 6 0.99 0.921 0.657 0.535 2 4 6

Cuadro 3: Coeficiente Silhouette

La tabla anterior muestra el resultado del test. Obtenemos unos resulta- dos semejantes para todas las ligas, con entre 4 y 5 grupos donde se clasifican los equipos dependiendo de sus secuencias de pases salvo en la Liga de Cam- peones donde, al aumentar el amortiguamiento, disminuye el coeficiente y se obtiene un grupo m´as.Cabe destacar, que se obtiene el mejor porcentaje cuando en la Liga espa˜nolase producen dos grupos, estos grupos dan como resultado el FC Barcelona como ´unicogrupo y el resto de equipos en otro. Ve´amoslos distintos grupos:

24 Liga y grupos ESP -FC Barcelona -Real Madrid -Athletic Club, Celta de Vigo, Rayo Vallecano, Sevilla, Va- lencia CF -Atl´eticode Madrid, C´ordoba,Deportivo de La Coru˜na,El- che, M´alaga,Real Betis, Real Sociedad, Real Valladolid, Vi- llarreal -Almer´ıa,Eibar, Espanyol, Getafe, Granada CF, Levante, Ma- llorca, Osasuna, Real Zaragoza

Cuadro 4: Propagaci´onpor afinidad 0.8 - ESP

La liga espa˜nola tiene dos valores que forman un cluster, son los dos que est´anencabezando la clasificaci´onen los ´ultimosa˜nos.Despu´esnos encontra- mos con equipos que pelean por un puesto en la tabla de clasificaci´onque les permita obtener un billete para jugar una de las dos competiciones europeas. Interesante la presencia del Celta de Vigo y Rayo Vallecano, equipos con un buen juego combinativo pero que no est´anen la parte alta de la tabla. El siguiente grupo, donde adem´asencontramos al Atl´eticode Madrid, poseen un estilo de juego m´asrocoso y basado en menos pases. Y para finalizar en- contramos los equipos que luchan por la salvaci´on.

Liga y grupos ENG -Arsenal, Liverpool, Manchester City, Manchester United, Swansea City -Chelsea, Everton, Southampton, Tottenham Hotspur, Wigan Athletic -Aston Villa, Cardiff City, Fulham, Hull City, Newcastle Uni- ted, Norwich City, Stoke City, Sunderland, West Bromwich Albion -Burnley, Crystal Palace, Leicester City, Queens Park Ran- gers, Reading, West Ham United

Cuadro 5: Propagaci´onpor afinidad 0.8 - ENG

La liga inglesa muestra los equipos que est´anluchando por el campeona- to, el Chelsea, reciente campe´onjunto a equipos que tratan de luchar por alcanzar los puestos europeos, y por otro lado, los grupos de los equipos que

25 luchan por mantener la categor´ıam´aslo que lo hacen por evitar el descenso. Por otro lado, se cuelan entre el primer y segundo grupo Swansea y Wi- gan Athletic, equipos que han sido entrenados recientemente por Roberto Mart´ınez.

Liga y grupos CHP -Barcelona -FC Bayern M¨unchen -Ajax, Arsenal, Paris Saint Germain, Real Madrid -Borussia Dortmund, Chelsea, FC Schalke 04, Galatasaray, Juventus, Liverpool, Manchester City, Roma -APOEL Nicosia, Athletic Club, BATE Borisov, Bayer 04 Le- verkusen, Benfica, Malm¨oFF, Monaco, NK Maribor, RSC Anderlecht -Atl´eticode Madrid, CSKA Moscow, FC Basel, FC Porto, Lu- dogorets Razgrad, Olympiakos, Shakhtar Donetsk, Sporting Lisbon, Zenit St Petersburg

Cuadro 6: Propagaci´onpor afinidad 0.9 - CHP

Para los equipos de Liga de Campeones, lo m´asdestacable es que Barce- lona y Bayern forman un grupo ellos solos. Es aqu´ıdonde se puede apreciar el estilo de juego que Guardiola ha trasladado desde Barcelona a Alemania. Por otro lado, los dem´asequipos est´anrepartidos de forma mas heterog´eneamenos por los equipos m´asd´ebiles,que forman un mismo gru- po. Destacando c´omoel Ajax, equipo venido a menos en la ´ultima d´ecada, sigue manteniendo su sello de identidad col´andoseentre los equipos fuertes de Europa.

26 2.2.2. K-medias Acto seguido, veremos lo que ocurre si representamos los grupos median- te un test de k-medias seleccionando arbitrariamente 5 grupos para la liga espa˜nolay la liga de campeones, 4 para la inglesa, adem´asde las tres ´ultimas temporadas, por lo que tenemos m´asde 20 equipos en las ligas por pa´ıs. Se han representado para ambos grupos las secuencias ABCA en el eje X y ABCD en el Y.

El an´alisiscluster muestra al Barcelona y Real Madrid como grupos m´as alejados del resto de equipos, sus frecuencias de secuencias de pases son m´as altas y por lo tanto, la distancia entre ellos y el resto de equipos les hace pertenecer a grupos distintos. El resto de equipos se dividen en tres grupos. Estos, tal y como vimos mediante la t´ecnicaanterior, se dividen en tres grupos donde podemos apreciar que cuanto menos frecuentes sean sus frecuencias de pases, pertenecen a un grupo o a otro. Los equipos de mitad y mitad baja de la tabla de clasificaci´onde la liga espa˜nolason los que pertenecen a los dos grupos que utilizan menos este tipo de secuencias de pases. En el grupo m´as cercano al Real Madrid, a diferencia del test de afinidad, nos encontramos con que el grupo tiene 7 equipos en lugar de 5. Este grupo contiene a Atl´etico de Madrid, Valencia, Sevilla, Real Sociedad, Athletic Club, Celta de Vigo y Rayo Vallecano. El Atl´eticode Madrid tiene m´asfrecuencias ABCA y es lo que le hace pertenecer a este grupo.

27 La Liga

Cluster Analysis: K-means 2.5 Barcelona

2.0

1.5

Real Madrid 1.0 ABCD 0.5

ValenciaCeltaRayo de CF Vigo Vallecano RealSevillaRealAthletic Valladolid Sociedad Club 0.0 Villarreal DeportivoMálaga de La Coruña Elche RealCórdoba BetisAtlético de Madrid Osasuna GranadaReal CFZaragoza 0.5 Getafe AlmeríaMallorcaEspanyol LevanteEibar

1.0 1.0 0.5 0.0 0.5 1.0 1.5 2.0 2.5 ABCA Figura 9: kmN-SPA-2-4-5

Para la Premier League, las secuencias de pases muestran a los equipos que luchan por el campeonato en el grupo m´ascon frecuencias m´asaltas. Adem´as,en ese grupo se cuela el Swansea, el cual hace un buen juego com- binativo y esto le hace colocarse en ese grupo. No obstante podemos ver que el Chelsea, actual campe´on,se sit´uaen un cluster con equipos que luchan por alcanzar competiciones europeas. Esta situaci´ones la inversa a la del Swansea. Seguido a este grupo se sit´uanlos equipos que van tras la caza de los de arriba, luchando por conseguir una plaza que les permita jugar en una competici´oneuropea. Los equipos que luchan por no verse relegados y por mantener la categor´ıaforman los dos grupos finales.

Para finalizar, los cinco grupos de los equipos que juegan la Liga de Cam- peones. Es muy curioso c´omose aprecia la escuela catalana y su transcen- dencia tras el paso de Guardiola por Alemania. Entrenadores formados en Barcelona y que en los ´ultimosa˜nosest´anconsiguiendo que sus equipos se caractericen por tener un juego completamente distinto al del resto de equi- pos. Tras ellos dos grupos que est´anmuy unidos entre s´ı:lo forman equipos como el Real Madrid, Juventus, Chelsea, Manchester City, Arsenal, Porto, Galatasaray y Dortmund, equipos que han ganado el campeonato liguero en los ´ultimosa˜noso que lucharon por el campeonato y que, adem´as,se sit´uan en la parte alta en cuanto a frecuencias se refiere de su liga. Los dos grupos

28 restantes nos muestran los equipos que no lo est´anhaciendo demasiado bien en esta competici´on,siempre teniendo en cuenta de que hemos realizado el estudio con una sola temporada.

Premier league

Cluster Analysis: K-means 1.5

Manchester City 1.0 Arsenal SwanseaManchester City United Liverpool

0.5 Chelsea Wigan Athletic SouthamptonEvertonTottenham Hotspur

0.0 Fulham ABCD Newcastle United Hull City WestAston Bromwich Villa Albion SunderlandCardiff City 0.5 StokeNorwich City City Queens Park Rangers Burnley WestLeicester Ham United City

1.0 Reading Crystal Palace

1.5 1.5 1.0 0.5 0.0 0.5 1.0 1.5 ABCA Figura 10: kmN-ENG-2-4-4

29 Champions League

Cluster Analysis: K-means 2.0 Barcelona

1.5 FC Bayern München

1.0 Real Madrid Chelsea Ajax Paris Saint Germain Juventus 0.5 ManchesterArsenal City FCRoma Porto LiverpoolFCBorussia Schalke Dortmund 04 ABCD Galatasaray 0.0

Zenit St Petersburg Sporting Lisbon FC Basel OlympiakosLudogoretsShakhtar RazgradDonetsk 0.5 NKRSC MariborCSKA Anderlecht Moscow BenficaAthletic Club APOEL NicosiaMalmö FF Atlético de Madrid MonacoBayer 04 Leverkusen 1.0 BATE Borisov

1.5 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0 ABCA Figura 11: kmN-CHP-2-4-5

2.2.3. M´etodo jer´arquicode Ward El an´alisis jer´arquicode Ward permitir´aver el dendrograma aso- ciativo por el cual se unen los clusters para los cuales se tiene un menor incremento en el valor total de la suma de los cuadrados de las diferencias, desde el individuo al centro del cluster. Para ello, se ha utilizado un m´etodo de vinculaci´on(linkage) simple, ya que es el que ha formado grupos m´aspa- recidos a los m´etodos que hemos visto anteriormente tras varias pruebas.

Los grupos en este caso se mantienen m´aso menos similares a las clasifi- caciones anteriores. Para la liga espa˜nola,Real Madrid y Bar¸case mantienen como grupos en solitario, mientras que Valencia, Celta de Vigo y Rayo Va- llecano forman el que m´asse les acercar´ıa.No obstante, vemos como se cuela el Real Valladolid junto a la Real Sociedad en el grupo que se une despu´esa Sevilla, Bilbao y Athletic Club.

30 La Liga

Levante Eibar Mallorca Espanyol Almería Real Zaragoza Granada CF Osasuna Getafe Real Betis Córdoba Elche Atlético de Madrid Málaga Deportivo de La Coruña Villarreal Sevilla Athletic Club Real Valladolid Real Sociedad Valencia CF Celta de Vigo Rayo Vallecano Real Madrid Barcelona 0 20 40 60 80

Figura 12: Ward - ESP

El dendrograma de la Premier League es mucho m´asheterog´eneo que el espa˜nol,los equipos m´asfuertes siguen estando en clusters, formando la par- te alta del dibujo, mientras que los equipos restantes, incluyendo los que han descendido como el Fulham o el Reading, forman otros.

Premier league

Tottenham Hotspur Everton Southampton Wigan Athletic Chelsea Swansea City Manchester United Arsenal Liverpool Manchester City Hull City Aston Villa Stoke City Norwich City Sunderland Cardiff City West Bromwich Albion Newcastle United West Ham United Leicester City Burnley Queens Park Rangers Reading Crystal Palace Fulham 0 2 4 6 8 10 12 14

Figura 13: Ward - ENG

31 Por ´ultimo,el dendrograma para la Liga de Campeones nos muestra lo que vimos anteriormente: Bayern y Barcelona forman un cluster que se escapa de los dem´as.Dentro del resto de equipos, el Real Madrid es el que se situar´ıa a menos distancia de ellos, liderando el grupo de los equipos fuertes o con m´asexperiencia en competici´oninternacional, mientras que por otro lado tenemos a los equipos cuyas secuencias de pases tienen frecuencias menores que los otros.

Champions League

FC Bayern München Barcelona Liverpool Borussia Dortmund FC Schalke 04 Galatasaray Roma Manchester City Arsenal Juventus FC Porto Paris Saint Germain Ajax Chelsea Real Madrid Benfica Athletic Club NK Maribor RSC Anderlecht CSKA Moscow Malmö FF APOEL Nicosia Monaco Bayer 04 Leverkusen Atlético de Madrid Olympiakos FC Basel Shakhtar Donetsk Ludogorets Razgrad Zenit St Petersburg Sporting Lisbon BATE Borisov 0 10 20 30 40

Figura 14: Ward - CHP

2.2.4. An´alisis de componentes principales El an´alisisde componentes principales (PCA) permitir´areducir la dimensionalidad del conjunto de datos buscando la mejor proyecci´onpara dicho conjunto de datos en t´erminosde m´ınimoscuadrados, por lo que acto seguido representaremos las cinco secuencias de pases en un espacio bidimen- sional.

El an´alisispara la liga espa˜nolaes bastante claro. El FC Barcelona se encuentra solo, no hay otro equipo que se le asemeje. La primera componente principal, situada en el eje X, es la componente con mayor peso y la que establece la mayor distancia entre los dos grupos.

32 La Liga

Cluster Analysis: K-means - PCA components 0.4 Eibar

0.3 Barcelona

Almería 0.2 LevanteMallorca Espanyol Getafe Athletic Club

0.1 Atlético de Madrid Sevilla Granada CF Córdoba 0.0 RealMálaga Betis

Real ZaragozaValencia CF Osasuna Celta de Vigo 0.1 Elche DeportivoReal Sociedad de La Coruña

Villarreal 0.2 Rayo Vallecano Real Madrid

0.3 Real Valladolid

0.4 2 1 0 1 2 3 4 5 6 Figura 15: PCA - ESP

La liga inglesa muestra una distribuci´onbastante heterog´enea, donde la primera componente principal separa ambos grupos nuevamente. Apreciamos los equipos que luchan entre s´ıen la mitad alta de la clasificaci´ony por otro lado, el resto de equipos, los que trabajan para mantener la categor´ıa. Para la liga de campeones, la componente situada en el eje X vuelve a separar los equipos entre los que provienen de competiciones m´ascompetiti- vas y los que no. Barcelona, Bayern y Ajax de Amsterdam, son los equipos de los cuales proviene el estilo de juego que utiliza m´aspases, luego no es de extra˜narque se sit´uenen posiciones alejadas del resto de equipos.

33 Premier League

Cluster Analysis: K-means - PCA components 0.2 Newcastle United Swansea City Fulham

Southampton SunderlandQueens Park Rangers Stoke City 0.1 West Bromwich Albion Liverpool Cardiff City WiganEverton Athletic Norwich City Reading Manchester United 0.0 Tottenham Hotspur Manchester City Crystal Palace Chelsea West Ham United

0.1 Aston Villa Burnley Hull City Arsenal 0.2

Leicester City

0.3 3 2 1 0 1 2 3 Figura 16: PCA - ENG

Champions League

Cluster Analysis: K-means - PCA components 1.0 Ajax

0.8

0.6

Atlético de Madrid 0.4 BATE Borisov MonacoBayer 04 Leverkusen Barcelona FC Bayern München Zenit St PetersburgLiverpool 0.2 CSKA Moscow APOELBenfica NicosiaShakhtar Donetsk NK MariborOlympiakosLudogorets RazgradArsenal 0.0 MalmöSporting FF Lisbon Roma Paris Saint Germain RSC Anderlecht Borussia Dortmund Athletic Club Galatasaray 0.2 FC Basel

FC Schalke 04Real Madrid 0.4 Manchester City Juventus

0.6 Chelsea FC Porto 0.8 3 2 1 0 1 2 3 4 5 Figura 17: PCA - CHP

Tras este an´alisisverificamos lo que supon´ıamos:que el FC Barcelona tiene una secuencia de pases distinta a la del resto de equipos.

34 3. An´alisis por jugadores

El objetivo principal de este an´alisises demostrar que existen similitudes en la forma de juego entre jugadores estudiando las secuencias de pases en las que intervienen. Si anteriormente analizamos las secuencias de pases que utilizan los equipos durante los 90 minutos, ahora nos fijaremos en cu´alesde esas secuencias interviene cada futbolista. A partir de ah´ı,veremos si existe alguna posibilidad de definir el lugar en el campo que ocupan los futbolistas seg´unlas secuencias de pases en las que participe. Adem´as,la b´usquedade similitud entre futbolistas nos permitir´aencontrar jugadores de perfil pareci- do, siendo el objetivo de este proyecto la b´usquedade un jugador que pueda reemplazar a Xavier Hern´andezCreus, una vez que este ha firmado por otro equipo y el FC Barcelona pudiera estar interesado en otro futbolista de ca- racter´ısticassimilares para ocupar en el terreno de juego un rol similar al de Xavi.

Recordemos que las secuencias de cuatro pases consecutivos por equipo eran: ABAB, ABAC, ABCA, ABCB y ABCD. En cada secuencia pueden intervenir de dos a cuatro futbolistas, A, B, C o D; si nos fijamos en el jugador A, este puede estar en distintas posiciones de las secuencias dependiendo de si toca la pelota en primer lugar, segundo, tercero o cuarto. Por lo tanto, las secuencias en las que puede intervenir son las siguientes:

ABAB, ABAC, ABCA, ABCB, ABCD, BABA, BABC, BACA, BACB, BACD, BCAB, BCAC, BCAD, BCBA, BCDA

Cuadro 7: Sucesiones de jugadores

A partir de aqu´ıanalizaremos los resultados obtenidos para cada jugador.

35 3.1. An´alisis descriptivo Se han obtenido 89142 observaciones de pases acumulados por cada juga- dor en cada uno de sus partidos. Para establecer requisitos m´ınimosy eliminar posibles outlayers gracias a por ejemplo, jugadores j´ovenes que juegan pocos minutos en partidos ya decididos, se impone un filtro de al menos 19 partidos jugados por jugador o lo que es lo mismo, un jugador debe haber disputado al menos media temporada completa en t´erminosde partidos jugados.

Del total de secuencias, se obtiene que existen 2564 jugadores intervi- niendo en ellas. Tras eliminar los que han jugado menos de 19 partidos, trabajamos con 1296 jugadores distintos de las ligas espa˜nolae inglesa (de- bido a que en la liga de campeones los finalistas disputan como m´aximoun total de 13 encuentros).

media sd min 25 % 50 % 75 % m´ax ABAB 0.330 0.312 0.000 0.103 0.244 0.468 3.563 ABAC 1.520 1.304 0.000 0.500 1.230 2.172 8.710 ABCA 0.898 0.733 0.000 0.344 0.742 1.217 5.991 ABCB 1.528 1.078 0.000 0.768 1.304 1.987 7.688 ABCD 6.031 3.616 0.682 3.459 5.346 7.762 25.530 BABA 0.325 0.294 0.000 0.125 0.255 0.438 2.723 BABC 1.534 1.072 0.042 0.731 1.323 2.064 7.327 BACA 1.510 1.285 0.000 0.531 1.201 2.088 8.935 BACB 0.910 0.589 0.000 0.462 0.800 1.221 3.785 BACD 6.013 4.171 0.500 2.937 5.000 7.966 27.215 BCAB 0.909 0.582 0.000 0.488 0.814 1.211 3.929 BCAC 1.524 1.081 0.034 0.732 1.332 2.011 6.831 BCAD 6.001 4.112 0.276 2.807 5.166 7.987 28.888 BCBA 1.530 1.030 0.115 0.829 1.297 1.974 8.295 BCDA 6.009 3.475 0.704 3.414 5.383 7.774 23.641

Cuadro 8: Todos los jugadores

Las medias m´asaltas las encontramos en las secuencias de pases en las que intervienen 4 jugadores distintos. Estas medias se sit´uanalrededor de 6 con una desviaci´ont´ıpicade entre 3 y 4, siendo un dato significativo que las observaciones m´aximaspara estas secuencias se sit´uanmuy por encima, como son 28 para BCAD o 27 para BACD. Por lo general, las medianas se

36 sit´uancerca de la media.

37 3.2. T´ecnicasaglomerativas Comenzaremos nuestra clasificaci´onutilizando el m´etodo de afinidad por propagaci´on,el cual nos proporcionar´aun n´umerode clusters determinado:

3.2.1. Propagaci´onpor afinidad

Damping 0.5 0.6 0.7 0.8 0.9 Coeficiente Silhouette 0.331 0.327 0.330 0.327 0.332 N´umerode clusters 38 40 38 38 37

Cuadro 9: Coeficiente Silhouette - Jugadores

El coeficiente de Silhouette da valores muy parecidos, por lo tanto se- leccionamos un damping de 0.9 para el an´alisis,trabajando con 37 grupos. Veamos a continuaci´oncuantos jugadores hay en cada grupo:

1, 2, 4, 4, 5, 6, 8, 10, 12, 12, 15, 17, 17, 18, 19, 19, 20, 20, 30, 36, 36, 39, 40, 41, 44, 46, 48, 52, 57, 61, 62, 62, 72, 73, 85, 90, 113

Para nuestra sorpresa, aparece un jugador en solitario, seguido de sendos grupos de 2, 4 y 4 jugadores. ¿Qu´ejugadores forman cada grupo? ¿Qu´eju- gador forma un ´unicogrupo?

Grupos por jugadores - Xavi - Dani Alves, Jordi Alba - David Silva, Lionel Messi, Samir Nasri, Santiago Cazorla - Andr´esIniesta, Cesc F´abregas,Thiago Alc´antara, Yaya Tour´e - Daley Blind, Gerard Piqu´e,Javier Mascherano, Sergio Busquets, Toni Kroos . .

Cuadro 10: Grupos por jugadores - Silhouette

La tabla con 37 grupos de jugadores distintos muestra a Xavi como ´unico jugador del primer grupo, lo que quiere decir por ahora que es un jugador que tiene frecuencias diferentes en sus secuencias de pases. No obstante, la

38 clasificaci´onde los grupos permite apreciar diferentes conjuntos de jugadores dependiendo de su posici´onen el campo. Es posible observar jugadores del mismo perfil, como son extremos, defensas, y sobre todo laterales. Si anali- zamos los grupos m´aspeque˜nosdel an´alisis,el segundo grupo est´aformado por los laterales titulares del FC Barcelona, indiferentemente de la banda. El grupo formado por Iniesta, F´abregas,Thiago y Yaya Tour´emuestra a jugadores que han jugado (o juegan) en el Barcelona. El siguiente grupo con- tiene jugadores que se mueven por la parte media baja del centro del campo, adem´asde Piqu´ey Mascherano, centrales del Bar¸ca,invit´andonosa pensar en su aporte en el juego de inicio / creaci´ondel equipo.

Continuando con grupos peque˜nos,en los casos de 6 y 8 jugadores, tene- mos:

Posiciones: laterales, centrocampistas

- Adriano, Andr´eSantos, Angel Rangel, Bacary Sagna, Ga`el Clichy, Mart´ınMontoya, Marcelo - Emre Can, Isco, James Rodr´ıguez,Juan Mata, Maicon, Me- sut Ozil,¨ Michael Ballack, Ryan Mason

Cuadro 11: Posiciones: laterales, centrocampistas

Nos encontramos primero con laterales del m´asalto nivel de cuatro equi- pos distintos: Arsenal, Barcelona, Swansea y Real Madrid, jugadores que adem´asjuegan para equipos donde sus clusters estaban cercanos entre s´ı(Ar- senal y Real Madrid en Champions, Arsenal y Swansea en Premier League), seguidos de centrocampistas de corte ofensivo, pero con predisposici´onen la ayuda de tareas de elaboraci´on.

Los dos grupos siguientes est´anformados por jugadores situados como centrales o medio centro defensivos, el jugador que est´apor delante de los primeros.

39 Centrales y defensas

- Ashley Williams, Carles Puyol, Chico, Marc Bartra, Marcos Rojo, Michael Carrick, Mikel Arteta, Nemanja Matic, Paul Scholes, Sergio Ramos - Dejan Lovren, Garry Monk, John Terry, Jonny Evans, Ki Sung-yueng, Matija Nastasic, Michael Essien, Morgan Schnei- derlin, Nabil Bentaleb, Per Mertesacker, Roberto Trashorras, Vincent Kompany

Cuadro 12: Posiciones: Centrales y defensas

Mikel Arteta y Paul Scholes han sido jugadores ofensivos durante toda su carrera, actualmente, Scholes est´aretirado y Arteta participa en la ela- boraci´on del Arsenal. Estar colocados en este grupo se explica debido a que con el paso de los a˜nos,los jugadores pasan a ocupar diferentes posiciones en el campo debido a que el cuerpo no es el mismo, perdiendo fuerza y velo- cidad. Por otro lado, vemos a los centrales de equipos en la parte alta de las clasificaciones, como son Chelsea, Manchester United y City, Real Madrid, o incluso Swansea.

Una vez hemos visto los grupos con pocos jugadores, veamos otro tipo de cluster. En este caso veremos el cluster que identifica a los jugadores que ocupan la posici´on de extremos. Este grupo muestra jugadores que juegan en la parte alta del terreno de juego, cercanos a la porter´ıarival. Adem´as,todos ellos se caracterizan por ser jugadores que tienden al regate y a la finalizaci´on de las jugadas.

Extremos

- Adam Lallana, Alexis S´anchez, Ashley Young, Cristiano Ronaldo, Erik Lamela, Gareth Bale, Jean Beausejour, Jes´us Navas, Luis Su´arez, Lukas Podolski, Mathieu Debuchy, Na- ni, Nathan Dyer, Nicolas Anelka, Pablo Hern´andez,Patrick Ebert, Raheem Sterling, Steven Pienaar, Wayne Routledge, Angel´ Di Mar´ıa

Cuadro 13: Posiciones: Extremos

40 Veamos dos grupos de laterales:

Laterales

- , Andoni Iraola, Andre Wisdom, Andr´eSantos, Calum Chambers, Carl Jenkinson, Filipe Luis, Hugo Mallo, H´ectorBeller´ın,Jonny, Jos´eBosingwa, Jos´eEn- rique, Juan Bernat, Leighton Baines, Luke Shaw, Nathaniel Clyne, Pedro, Alvaro´ Arbeloa - Antonio Valencia, Ashley Cole, Ben Davies, Benoit Assou- Ekotto, Branislav Ivanovic, C´earAzpilicueta, Daniel Carva- jal, Dwight Tiendalli, Glen Johnson, Jon Flanagan, Kieran Gibbs, Kyle Walker, Nacho Monreal, , Neymar, Pablo Zabaleta, Patrice Evra, Rafael, Vedran Corluka

Cuadro 14: Posiciones: Laterales

Lo m´ascurioso dentro de estos clusters es la presencia de Neymar y Pe- dro, jugadores que juegan como extremos en el FC Barcelona. Por lo dem´as, el resto de jugadores suelen ser habituales como defensas laterales.

Dos grupos de porteros aparecen entre los clusters, el primero de ellos contiene jugadores de equipos que tienen frecuencias m´asaltas en sus se- cuencias de pases. Los ´ultimosgrupos lo forman los delanteros. Esto se debe a que es la posici´onm´ascercana a la porter´ıay son los jugadores que menos secuencias de pases tienen.

Delanteros

- Anders Lindegaard, , Beto, Brad Friedel, Clau- dio Bravo, Cristian Alvarez,´ Dani Hern´andez, David Stock- dale, David de Gea, Diego L´opez, Edwin Van der Sar, Fra- ser Forster, Gerhard Tremmel, Gorka Iraizoz, , Iker Casillas, Jaime, Javi Varas, Joe Hart, Jos´eReina, Kelvin Davis, Lukasz Fabianski, Mark Schwarzer, Paulo Gazzaniga, Petr Cech, Pinto, Rub´en,Sergio Avarez,´ Simon Mignolet, Tim Howard, To˜no,Vito Mannone, V´ıctorVald´es,Willy Caballe- ro, Wojciech Szczesny, Yoel

Cuadro 15: Posiciones: Delanteros

41 3.2.2. Mean Shift Si utilizamos el m´etodo Mean Shift, el cual considera las caracter´ısticas espaciales como la probabilidad emp´ıricade la funci´onde densidad, aparecen ´unicamente cuatro grupos, compuestos por 1, 15, 55 y 1225 jugadores:

Grupos de jugadores (Mean shift)

- Xavi - Ashley Williams, Carles Puyol, Chico, Daley Blind, Gerard Piqu´e,Javier Mascherano, Marc Bartra, Michael Carrick, Mi- kel Arteta, Nemanja Matic, Sergio Busquets, Sergio Ramos, Toni Kroos, Xabi Alonso, Yaya Tour´e - Aaron Ramsey, Adriano, Alexandre Song, Andr´esIniesta, Angel Rangel, Bacary Sagna, Ben Davies, Cesc F´abregas,Da- ni Alves, Daniel Carvajal, David Silva, Dejan Lovren, Em- re Can, Fernandinho, Fernando, Gareth Barry, Garry Monk, Ga`elClichy, Isco, Jack Wilshere, James Rodr´ıguez,Jeremy Mathieu, . . . . .

Cuadro 16: Grupos de jugadores (Mean shift)

Por lo que como m´etodo de clasificaci´on,la afinidad por propagaci´on ofrece una visi´onmejor de las clasificaciones entre jugadores.

42 3.2.3. An´alisis de componentes principales Primero, haremos un an´alisisde componentes principales con los datos normalizados para ver cuales de las variables tienen un mayor peso y por lo tanto, esas ser´anlas que representemos para comprobar d´ondese sit´uael futbolista. Debemos prestar atenci´onal hecho de que existen permutaciones en las secuencias del tipo ABCD, BACD, BCAD y BCDA ya que en estas secuencias 4 jugadores distintos est´antocando la pelota y podr´ıahaber cierta correlaci´onentre ellos que afectara al an´alisis.Sin embargo, tras comprobarlo mediante t´ecnicas de correlaci´oncomo whitening transformation, no afectan al an´alisis.

PCA PC0 PC1 0.84 0.071 ABAB 0.236 -0.339 ABAC 0.267 0.103 ABCA 0.262 0.105 ABCB 0.252 0.335 ABCD 0.262 0.162 BABA 0.233 -0.376 BABC 0.257 -0.328 BACA 0.266 0.123 BACB 0.271 0.008 BACD 0.263 0.313 BCAB 0.261 -0.184 BCAC 0.245 -0.420 BCAD 0.268 0.271 BCBA 0.261 0.251 BCDA 0.266 -0.128

Cuadro 17: Componentes PCA

La primera componente explica el 84 % de la variabilidad, y parece que recoge un poquito de cada secuencia de pases, luego podemos decir que la primera componente principal est´aformada por el conjunto de las sumas de las secuencias de los pases. Mientras que la segunda explica un 7 %, luego no resulta tan relevante como la primera componente principal.

43 ACP PCA plot 6 Defender Forward Goalkeeper Midfielder 4

2

0 Xavi PC 1 (Positional involvement)

2

4 2 1 0 1 2 3 4 5 6 PC 0 (Overall game involvement)

Figura 18: PCA

Puede observarse que en la primera componente principal, que es la que tiene m´aspeso, Xavi es el jugador m´asalejado de todos (gr´aficonormalizado).

El siguiente gr´afico(normalizado) muestra ciertos jugadores que forman los primeros clusters. Cabe pensar que la componente principal 0 explica lo involucrado que est´ael jugador a la hora de la creaci´ondel juego del equipo, es decir, a mayor distancia, m´aspeso tiene el jugador dentro de las secuencias de pases del equipo. La componente 1 muestra la posici´on de los jugadores en el terreno de juego, adem´as,los colores por posici´onnos ayudan a pensar es- to. Una menor distancia muestra jugadores que juegan en la parte central del campo, defensas centrales y medios centros, que colaboran en tareas de crea- ci´ony destrucci´ondel juego rival. En el centro del eje encontramos porteros, delanteros centro y centrocampistas. Conforme la componente va a ascen- diendo, tenemos delanteros que colaboran con el resto del equipo as´ıcomo centrocampistas ofensivos, casos como el de Cesc F´abregas, capaz de recu-

44 perar balones, ayudar en el juego de creaci´ony adem´as,marcar goles. En esa misma zona tenemos a defensas laterales, y conforme ascendemos, vemos extremos y laterales muy ofensivos, como Jordi Alba o Dani Alves.

ACP PCA plot 6 Defender Dani Alves Forward

Goalkeeper Neymar Midfielder Lionel Messi Jordi Alba 4 Cristiano Ronaldo

Bacary Sagna Marcelo Martín Montoya Gaël ClichyAngel Rangel JamesDavid Rodríguez Silva

2 Samir Nasri Andrés Iniesta Mesut Özil Adriano Juan Mata Maicon Isco Santiago Cazorla Emre Can Cesc Fàbregas

0 Michael Ballack DaleyThiago Blind Alcántara Ryan Mason Xavi

PC 1 (Positional involvement) Yaya Touré Marcos Rojo Nemanja Matic Mikel Arteta Sergio Busquets Paul ChicoScholes 2 Toni Kroos Ashley WilliamsGerard Piqué SergioMarc RamosBartra Javier Mascherano

4 2 1 0 1 2 3 4 5 6 PC 0 (Overall game involvement)

Figura 19: PCA jugadores

45 3.2.4. Xavi Habiendo observado previamente que Xavi es un jugador diferente al res- to, comparemos ahora las medias de cada secuencia de pases de todos los jugadores frente a las suyas

Secuencia Media Xavi DT Xavi Media total DT total ABAB 1.570 1.643 0.330 0.312 ABAC 8.673 6.121 1.520 1.304 ABCA 5.991 4.542 0.898 0.733 ABCB 7.121 4.973 1.528 1.078 ABCD 21.439 11.479 6.031 3.616 BABA 1.710 1.694 0.325 0.294 BABC 7.327 4.935 1.534 1.072 BACA 8.579 6.268 1.510 1.285 BACB 3.785 2.624 0.910 0.589 BACD 27.215 14.880 6.013 4.171 BCAB 3.271 2.561 0.909 0.582 BCAC 6.776 4.485 1.524 1.081 BCAD 28.888 16.305 6.001 4.112 BCBA 7.084 5.140 1.530 1.030 BCDA 23.028 13.187 6.009 3.475

Cuadro 18: Xavi y total

Como podemos observar las medias coinciden con las medias de la pri- mera tabla. No obstante, algunas de las medias m´aximasque tenemos en la tabla 8 son las medias pertenecientes a Xavi.

Comparemos ahora las medias normalizadas de algunos de los jugadores del Barcelona:

46 Xavi Sergio Lionel Luis Dani Jordi Busquets Messi Su´arez Alves Alba ABAB 3.972 3.776 5.429 -0.354 10.353 7.277 ABAC 5.486 2.813 2.630 -0.305 4.724 4.841 ABCA 6.947 3.489 1.732 -0.123 1.940 2.243 ABCB 5.190 5.715 2.044 -0.204 2.591 3.065 ABCD 4.263 4.910 1.652 0.022 4.483 5.395 BABA 4.711 2.994 8.154 0.572 7.446 4.590 BABC 5.406 4.543 4.066 0.313 5.400 5.078 BACA 5.506 2.510 2.535 -0.130 4.744 4.623 BACB 4.879 3.152 1.978 0.082 3.530 3.424 BACD 5.085 5.001 1.639 -0.020 2.449 3.233 BCAB 4.062 4.317 3.249 0.686 3.779 3.720 BCAC 4.859 3.382 4.880 0.681 4.896 4.911 BCAD 5.568 4.568 2.093 0.161 2.695 3.224 BCBA 5.396 6.572 3.134 0.816 3.069 3.558 BCDA 4.900 3.473 4.113 1.167 5.076 4.940

Cuadro 19: Jugadores FC Barcelona

Comparando las medias de cada secuencia para cada jugador, los jugado- res blaugranas tienen unos niveles muy altos. Si recordamos que el Barcelona estaba en un lugar alejado de todos los dem´asen el an´alisispor equipos, estos valores no son una sorpresa. Luis Su´arezes el jugador que tiene valores normales debido a que es el delantero centro del equipo.

Por otro lado, para las medias del Real Madrid obtenemos:

47 Sergio Cristiano Gareth Luka Marcelo Ramos Ronaldo Bale Modric ABAB 1.417 0.744 0.018 2.340 2.289 ABAC 2.889 -0.285 -0.053 2.925 1.723 ABCA 2.557 -0.199 -0.105 3.182 0.836 ABCB 3.414 -0.183 0.175 1.939 1.046 ABCD 2.810 0.392 0.343 1.833 2.737 BABA 1.049 1.761 0.703 2.419 0.746 BABC 0.499 2.039 0.920 2.205 2.674 BACA 2.834 -0.056 0.202 3.398 1.939 BACB 1.832 0.601 0.535 2.065 1.680 BACD 3.670 0.005 0.069 2.292 1.545 BCAB 0.803 0.838 1.110 2.303 1.608 BCAC 0.285 3.209 1.280 1.826 2.826 BCAD 3.119 0.267 0.212 2.716 1.738 BCBA 2.323 0.272 0.546 2.111 1.406 BCDA 2.052 2.079 1.430 2.414 3.017

Cuadro 20: Jugadores Real Madrid

Estos jugadores tienen medias altas, pero no tan altas como las del Bar- celona.

Mediante las medias globales normalizadas comprobaremos que estos re- sultados no son un error. Donde se aprecia como estas medias m´aximascoin- ciden casi todas con los jugadores del Barcelona. Adem´as,el valor medio m´as alto de entre todas las secuencias, lo tiene Dani Alves con un valor de 10.353.

Ahora comprobaremos quienes son los jugadores que tienen las frecuen- cias m´asaltas para cada secuencia en la tabla siguiente.

48 m´ın 25 % 50 % 75 % m´ax ABAB -1.055 -0.727 -0.274 0.444 10.353 ABAC -1.166 -0.783 -0.223 0.500 5.514 ABCA -1.225 -0.756 -0.213 0.436 6.947 ABCB -1.418 -0.705 -0.208 0.426 5.715 ABCD -1.480 -0.712 -0.189 0.479 5.395 BABA -1.106 -0.680 -0.237 0.383 8.154 BABC -1.393 -0.750 -0.197 0.495 5.406 BACA -1.176 -0.762 -0.240 0.450 5.783 BACB -1.545 -0.762 -0.187 0.527 4.879 BACD -1.322 -0.738 -0.243 0.468 5.085 BCAB -1.564 -0.725 -0.164 0.518 5.193 BCAC -1.378 -0.732 -0.178 0.451 4.911 BCAD -1.393 -0.777 -0.203 0.483 5.568 BCBA -1.375 -0.681 -0.226 0.431 6.572 BCDA -1.527 -0.747 -0.180 0.508 5.076

Cuadro 21: Medias normalizadas

Comprobamos como los valores superan el µ ± 3σ, siendo sucesos que se escapan de la normalidad, resaltando de nuevo que este equipo es completa- mente distinto al resto porque sus jugadores juegan completamente distinto a los dem´as.El z-score m´asalto es el de Dani Alves, con un valor de 10.353. 1 En t´erminosprobabil´ısticos,la probabilidad de encontrar algo as´ıes 1−erf( √x ) 2 considerando que cuando µ ± 7σ equivale a hacer una observaci´ondurante 1.07 billones de a˜nos,o lo que es lo mismo, un cuarto de la historia de La Tierra. No obstante, Xavi es el jugador que m´asinterviene con 5 secuencias m´aximas.Resulta curioso como Yaya Tour´e,jugador que lleva fuera del equi- po blaugrana 5 temporadas, es capaz de colarse entre el resto de jugadores.

49 Jugador media z-score ABAB Dani Alves 3.563 10.353 ABAC Thiago Alc´antara 8.710 5.514 ABCA Xavi 5.991 6.947 ABCB Sergio Busquets 7.688 5.715 ABCD Jordi Alba 25.530 5.395 BABA Lionel Messi 2.723 8.154 BABC Xavi 7.327 5.406 BACA Thiago Alc´antara 8.935 5.783 BACB Xavi 3.785 4.879 BACD Xavi 27.215 5.085 BCAB Yaya Tour´e 3.929 5.193 BCAC Jordi Alba 6.831 4.911 BCAD Xavi 28.888 5.568 BCBA Sergio Busquets 8.295 6.572 BCDA Dani Alves 23.641 5.076

Cuadro 22: Valores m´aximos

En los siguientes histogramas mostramos d´ondeest´anlas medias de todos los jugadores resaltando d´ondeest´anlas de Xavi.

50 Histograma de medias

BCBA BCAC BACB 0.8 0.8 1.0 Avg: 1.54 Avg: 1.54 Avg: 0.92 0.7 0.7 Xavi: 7.08 Xavi: 6.78 Xavi: 3.79 0.8 0.6 0.6

0.5 0.5 0.6

0.4 0.4

0.4 0.3 0.3

0.2 0.2 0.2 0.1 0.1

0.0 0.0 0.0 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 0 1 2 3 4 BCAB ABAB BACA 1.2 3.0 0.6 Avg: 0.92 Avg: 0.33 Avg: 1.52

1.0 Xavi: 3.27 2.5 Xavi: 1.57 0.5 Xavi: 8.58

0.8 2.0 0.4

0.6 1.5 0.3

0.4 1.0 0.2

0.2 0.5 0.1

0.0 0.0 0.0 0 1 2 3 4 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0 2 4 6 8 BABC ABAC ABCD 0.7 0.7 0.18 Avg: 1.54 Avg: 1.53 Avg: 6.06 0.16 0.6 Xavi: 7.33 0.6 Xavi: 8.67 Xavi: 21.44 0.14 0.5 0.5 0.12

0.4 0.4 0.10

0.3 0.3 0.08

0.06 0.2 0.2 0.04 0.1 0.1 0.02

0.0 0.0 0.00 0 1 2 3 4 5 6 7 0 2 4 6 8 0 5 10 15 20 25 BACD BABA ABCA 0.18 2.5 1.2 Avg: 6.05 Avg: 0.33 Avg: 0.91 0.16 Xavi: 27.21 Xavi: 1.71 1.0 Xavi: 5.99 2.0 0.14

0.12 0.8 1.5 0.10 0.6 0.08 1.0 0.06 0.4

0.04 0.5 0.2 0.02

0.00 0.0 0.0 0 5 10 15 20 25 0.0 0.5 1.0 1.5 2.0 2.5 0 1 2 3 4 5 6 BCDA BCAD ABCB 0.20 0.18 0.7 Avg: 6.05 Avg: 6.04 Avg: 1.53 0.16 Xavi: 23.03 Xavi: 28.89 0.6 Xavi: 7.12 0.14 0.15 0.5 0.12

0.10 0.4 0.10 0.08 0.3

0.06 0.2 0.05 0.04 0.1 0.02

0.00 0.00 0.0 0 5 10 15 20 0 5 10 15 20 25 0 1 2 3 4 5 6 7

Figura 20: Xavi vs resto

51 3.2.5. Distancias eucl´ıdeas

Descriptiva de distancias m´ınimas n media dt m´ın 25 % 50 % 75 % m´ax 1296 0.826 0.5 0.178 0.524 0.724 0.999 5.134

Cuadro 23: Distancias m´ınimas

Si queremos comprobar qu´ejugador es el m´ascercano a Xavi, debemos comprobar las distancias eucl´ıdeasentre ´ely el resto de jugadores. Empeza- remos calculando las medias y desviaciones de las distancias m´ınimasentre jugadores, resultando estas:

Jugador MDE Sergio Busquets 5.134 Lionel Messi 5.087 Xavi 4.495 Dani Alves 4.480 Jordi Alba 4.480 Andr´esIniesta 4.265 Thiago Alc´antara 3.919 Yaya Tour´e 3.919 Neymar 3.262 Angel Rangel 3.082 Marcos Rojo 2.746 Jamie O’Hara 2.590 David Silva 2.587 Cesc F`abregas 2.574 Mart´ınMontoya 2.544 Leon Britton 2.500 Mesut Ozil¨ 2.366 Ander Herrera 2.366 Toni Kroos 2.346 Daley Blind 2.314

Cuadro 24: M´ınimadistancia euc´ıdea(MDE)

La distancia m´ınimamedia entre jugadores es de 0.826 con una desviaci´on de 0.5. Si observamos las distancias m´ınimaspara cada jugador, debemos fi-

52 jarnos en los jugadores que poseen una distancia mayor que el resto.

En este caso, el jugador que est´am´asalejado que cualquier otro es Ser- gio Busquets, seguido de Lionel Messi y Xavi. Vemos como los jugadores o exjugadores del Bar¸cadominan la tabla, siendo Angel Rangel el primer ju- gador no blaugrana en aparecer. Estudiando la puntuaci´onde similaridad mediante: 1 s(i, j) = (19) 1 + d(i, j) podemos comprobar la distancia entre Xavi y el primer jugador m´ascercano a ´el.Este jugador es Tour´eYay´acon una similaridad del 18.2 %. Lo siguen en la tabla Thiago Alc´antara y Sergio Busquets. Todos blaugranas o exblaugranas hasta Toni Kroos. Distances to Xavi Nombre Distancia Similaridad ( % ) Yaya Tour´e 4.495 18.2 Thiago Alc´antara 5.835 14.6 Sergio Busquets 6.494 13.3 Andr´esIniesta 7.038 12.4 Cesc F`abregas 7.377 11.2 Jordi Alba 7.396 11.9 Toni Kroos 7.853 11.3 Mikel Arteta 8.257 10.8 Michael Carrick 8.505 10.5 Santiago Cazorla 8.515 10.5 Daley Blind 9.154 9.8 Paul Scholes 9.240 9.8 Gerard Piqu´e 9.524 9.5 David Silva 9.640 9.4 Marcos Rojo 9.671 9.4 Angel Rangel 9.675 9.4 Samir Nasri 9.683 9.4 Leon Britton 9.797 9.3 Aaron Ramsey 9.821 9.2

Cuadro 25: Distancias hasta Xavi

53 4. Conclusiones

Ha sido posible comprobar mediante t´ecnicasestad´ısticas que el FC Bar- celona tiene un sistema de juego distinto al del resto de equipos de la liga espa˜nola,demostrando as´ıque los autores del art´ıculo[8] estaban en lo cierto. Adem´as,la informaci´onde la Liga de Campeones nos ense˜naque el modelo Bar¸caest´aen Alemania de la mano de su actual entrenador, Pep Guardiola. Al no disponer de los datos de la no hemos podido comprobar m´asinformaci´onreferente a ambos equipos.

La mayor parte del an´alisisse ha realizado mediante t´ecnicasde an´ali- sis multivariante, las cuales nos han dado la posibilidad de clasificar tanto equipos como jugadores seg´unsus secuencias de pases. Adem´as,un peque˜no an´alisisdescriptivo tambi´ennos ha ayudado.

Las secuencias de pases nos han permitido crear una huella dactilar de cada jugador, definiendo su estilo de juego mediante sus secuencias de pases. Estas secuencias nos han ayudado agrupar los jugadores en diferentes grupos entre los cuales hemos obtenido un jugador ´unico.Este an´alisisnos ha per- mitido comprobar que Xavi posee un estilo de juego ´unicoy que no existe reemplazo para ´el. Si bien hay jugadores que tienen una forma de juego similar, no existe ning´unjugador que juegue como ´el.Los jugadores m´ascercanos no jugadores del Bar¸ca,son Yaya Tour´e,Thiago Alc´antara y Cesc F´abregas,exjugadores blaugranas. Busquets, Iniesta y Jordi Alba ya juegan para el Barcelona, por lo que los siguientes jugadores en el an´alisisson Toni Kroos, jugador del eterno rival (Real Madrid CF), Mikel Arteta, Michael Carrick y Santiago Carzola, jugadores que pasan los 30 a˜nosy el siguiente, es Daley Blind. El holand´es de 25 a˜nos,zurdo y capaz de jugar tanto en el lateral izquierdo como en el centro del campo podr´ıaser una buena contrataci´onpara el FC Barcelona.

Para terminar, conclu´ımosdiciendo que las secuencias de pases de Xavi est´anpor encima de cualquier jugador dentro del an´alisis. El´ solo forma un ´unicocluster alejado del resto de jugadores y por lo tanto, podemos decir que Xavi es un jugador, ´unico en su especie.

54 Referencias

[1] Christian Bauckhage. NumPy / SciPy Recipes for Data Science : Squa- red Euclidean Distance Matrices. pages 2–5.

[2] Christopher M. Bishop. Pattern Recognition and Machine Learning. Springer, 2006.

[3] F.S De la Fuente. An´alisisDe Conglomerados. Fac. Ciencias Econ´omicas y Empresariales.

[4] Konstantinos G Derpanis. Mean Shift Clustering. Computer, 1(x):1–3, 2005.

[5] Bob Fisher. Mean Shift on Lie Groups.

[6] B. J. Frey and D. Dueck. Clustering by Passing Messages Between Data Points. Science, 315(5814):972–976, 2007.

[7] Jos´e Angel´ Gallardo San Salvador. M´etodos Jer´arquicosde An´alisis Multivariante.

[8] Laszlo Gyarmati, Haewoon Kwak, and Pablo Rodriguez. Searching for a Unique Style in Soccer. Social and Information Networks, pages 5–8, 2014.

[9] Trevor Hastie, Robert Tibshirani, and Jerome Friedman. The Elements of Statistical Learning. Elements, 1:337–387, 2009.

[10] Rosana Llames Lavandera. Deportistas En F´utbol. 8:249–257, 1999.

[11] Javier L´opez Pe˜naand Ra´ulS´anchez Navarro. Who can replace Xavi? A passing motif analysis of football players. Preprint, 2015.

[12] R Milo, S Itzkovitz, N Kashtan, and D Chklovskii. Network Motifs : Simple Building Blocks of Complex Networks. 298(October):11–14, 2002.

[13] Fionn Murtagh and Pierre Legendre. Ward’s Hierarchical Clustering Method: Clustering Criterion and Agglomerative Algorithm. arXiv pre- print arXiv:1111.6285, (June):20, 2011.

[14] Luis Angel´ Ruiz Fernandez. An´alisisde componentes principales. Apli- caciones en teledetecci´on.

55 [15] D Sculley. Web-scale k-means clustering. Proceedings of the 19th inter- national conference on World wide web WWW 10, page 1177, 2010.

[16] Cosma Shalizi. Distances between Clustering , Hierarchical Clustering. Data Mining, (September):36–350, 2009.

[17] R Tibshirani, G Walther, and T Hastie. Estimating the number of clusters in a data set via the gap statistic, 2001.

56