Data Mining Im Fußball Masterarbeit

Fachbereich 4: Informatik Data Mining im Fußball Masterarbeit zur Erlangung des Grades einer Master of Science (M.Sc.) im Studiengang Informatik vorgelegt von Christoph Maiwald Erstgutachter: Prof. Dr. Ulrich Furbach Universitat¨ Koblenz-Landau Zweitgutachter: Dipl.-Inform. Markus Maron Universitat¨ Koblenz-Landau Koblenz, im September 2013 Erklarung¨ Ich versichere, dass ich die vorliegende Arbeit selbstandig¨ verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel benutzt habe. Ja Nein Mit der Einstellung der Arbeit in die Bibliothek bin ich einverstanden. Der Veroffentlichung¨ dieser Arbeit im Internet stimme ich zu. ............................................................................................. (Ort, Datum) (Unterschrift) ii Zusammenfassung Data Mining ist die Anwendung verschiedener Verfahren, um nutzliches¨ Wissen auto- matisch aus einer großen Menge von Daten zu extrahieren. Im Fußball werden seit der Saison 2011/2012 umfangreiche Daten der Spiele der 1. und 2. Bundesliga aufgenommen und gespeichert. Hierbei werden bis zu 2000 Ereignisse pro Spiel aufgenommen. Es stellt sich die Frage, ob Fußballvereine mithilfe von Data Mining nutzliches¨ Wis- sen aus diesen umfangreichen Daten extrahieren konnen.¨ In der vorliegenden Arbeit wird Data Mining auf die Daten der 1. Fußballbundesli- ga angewendet, um den Wert bzw. die Wichtigkeit einzelner Fußballspieler fur¨ ihren Verein zu quantifizieren. Hierzu wird der derzeitige Stand der Forschung sowie die zur Verfugung¨ stehenden Daten beschrieben. Im Weiteren werden die Klassifikation, die Regressionsanalyse sowie das Clustering auf die vorhandenen Daten angewendet. Hierbei wird auf Qualitatsmerkmale¨ von Spielern, wie die Nominierung eines Spie- lers fur¨ die Nationalmannschaft oder die Note, welche Spieler fur¨ ihre Leistungen in Spielen erhalten eingegangen. Außerdem werden die Spielweisen der zur Verfugung¨ stehenden Spieler betrachtet und die Moglichkeit¨ der Vorhersage einer Saison mithilfe von Data Mining uberpr¨ uft.¨ Der Wert einzelner Spieler wird mithilfe der Regressions- analyse sowie einer Kombination aus Cluster- und Regressionsanalyse ermittelt. Obwohl nicht in allen Anwendungen ausreichende Ergebnisse erzielt werden konnen¨ zeigt sich, dass Data Mining sinnvolle Anwendungsmoglichkeiten¨ im Fußball bietet. Der Wert einzelner Spieler kann mithilfe der zwei Ansatze¨ gemessen werden und bietet eine einfache Visualisierung der Wichtigkeit eines Spielers fur¨ seinen Verein. Schlagwörter: Datenanalyse, Sport, Klassifikation, Clustering, Regression iii Abstract The term Data Mining is used to describe applications that can be applied to extract useful information from large datasets. Since the 2011/2012 season of the german soccer league, extensive data from the first and second Bundesliga have been recorded and stored. Up to 2000 events are recorded for each game. The question arises, whether it is possible to use Data Mining to extract patterns from this extensive data which could be useful to soccer clubs. In this thesis, Data Mining is applied to the data of the first Bundesliga to mea- sure the value of individual soccer players for their club. For this purpose, the state of the art and the available data are described. Furthermore, classification, regression analysis and clustering are applied to the available data. This thesis focuses on qua- litative characteristics of soccer players like the nomination for the national squad or the marks players get for their playing performance. Additionally this thesis considers the playing style of the available players and examines if it is possible to make predic- tions for upcoming seasons. The value of individual players is determined by using regression analysis and a combination of cluster analysis and regression analysis. Even though not all applications can achieve sufficient results, this thesis shows that Data Mining has the potential to be applied to soccer data. The value of a player can be measured with the help of the two approaches, allowing simple visualization of the importance of a player for his club. Keywords: Data analysis, Sports, Classification, Clustering, Regression iv Inhaltsverzeichnis Abbildungsverzeichnis vii Tabellenverzeichnis viii Abk ürzungsverzeichnis ix 1 Einleitung 1 2 Grundlagen des Data Mining 3 2.1 Der KDD-Prozess . .3 2.2 Data Mining Verfahren . .5 2.2.1 Klassifikation und Regression . .5 2.2.1.1 Klassifikation . .5 2.2.1.2 Regression . .8 2.2.1.3 Qualitat¨ der Vorhersage messen . .8 2.2.2 Clusteranalyse . .9 2.2.3 Weitere Data Mining Verfahren . 10 2.3 Verwendete Software . 10 3 Stand der Forschung 12 3.1 Anwendungen der Datenanalyse im Fußball . 13 3.2 Differenzierung der Spielweisen von Fußballmannschaften . 15 3.3 Clusteranalyse zur Kategorisierung von Spielern . 17 3.4 Der beste Zeitpunkt fur¨ eine Einwechslung . 19 3.5 Vorhersage von Spielausgangen¨ . 21 3.6 Kombination aus Cluster- und Regressionsanalyse . 24 4 Datengrundlage 28 5 Anwendungen des Data Mining im Fußball 36 5.1 Wer wird der nachste¨ Nationalspieler? . 36 5.1.1 Datengrundlage . 37 5.1.2 Klassifikation von Nationalspielern . 41 5.1.3 Einsatz und Evaluierung . 47 5.2 Die Notenvergabe im Fußball . 50 5.2.1 Datengrundlage . 52 5.2.2 Aufstellung des Regressionsmodells . 53 5.2.3 Implikationen fur¨ den realen Einsatz . 59 5.3 Einteilung von Teams und Spielern in homogene Gruppen . 61 5.3.1 Clusteranalyse von Mannschaften . 62 5.3.1.1 Datengrundlage . 62 5.3.1.2 Durchfuhrung¨ der Clusteranalyse . 63 5.3.2 Clusteranalyse von Spielern . 69 5.3.2.1 Datengrundlage . 69 5.3.2.2 Durchfuhrung¨ der Clusteranalyse . 71 5.3.3 Implikationen fur¨ den realen Einsatz . 77 5.4 Vorhersage der nachsten¨ Saison . 78 5.4.1 Datengrundlage . 79 5.4.2 Durchfuhrung¨ der Prognose . 81 5.4.2.1 Punkte . 81 5.4.2.2 Rang . 87 v 5.4.3 Einschatzung¨ der Ergebnisse . 90 6 Die Wichtigkeit eines Spielers messen 92 6.1 Verwendung der Regressionsanalyse . 92 6.2 Kombination aus Clustering und Regression . 94 6.3 Wie wichtig ist ein Spieler? . 96 7 Die Zukunft des Data Mining im Fußball 105 Anhang 107 Literaturverzeichnis 118 vi Abbildungsverzeichnis 1 Der KDD-Prozess [41, S. 3] . .4 2 Beispiel eines Entscheidungsbaums . .6 3 Schema eines neuronalen Netzes in Anlehnung an [51, S.17] . .8 4 Beispiel Clusteranalyse . 10 5 Opta Attribute [48, S. 6] . 16 6 Wechselstrategie von Myers in Anlehnung an [45, S. 11] . 20 7 Einfluss der Attribute auf den Spielausgang [32, S. 178] . 22 8 Beispiel 6 Basketballspiele [38, S. 3] . 23 9 Spielstatistik fussballdaten.de . 31 10 ETL-Prozess . 32 11 Nationalspieler fussballdaten.de . 35 12 Datenmodell . 35 13 Pseudocode Ballkontakte . 38 14 Pseudocode Zweikampf . 38 15 SQL Nationalspieler . 38 16 Datengrundlage SpielerProSaison . 39 17 Verteilung der Noten . 52 18 Datengrundlage Noten . 53 19 Pseudocode Aggregation von Vereinen . 63 20 Pseudocode Spielerattribute . 70 21 Pseudocode Aggregation von Vereinen mit Gewicht . 80 22 Kopie der Tabelle Fakten mit Transfers . 81 23 SQL SpielerProSaison . 108 24 SQL Spielernoten . 110 25 SQL Verein pro Runde . 110 26 SQL Spieler pro Runde . 112 27 SQL Verein pro Runde gewichtet . 114 28 SQL Clusteredspieler pro Verein . 116 vii Tabellenverzeichnis 1 Durchschnittliche Klassifikatonsraten in Anlehnung an [38, S. 13] . 24 2 Ergebnisse der Kombination in Anlehnung an [7, S. 138] . 27 3 Beispiel IMPIRE AG Daten . 30 4 Statistik Fakten . 34 5 Statistik SpielerProSaison . 40 6 Statistik Nationalspieler . 40 7 Wahrheitsmatrix . 43 8 Datensatz 1: Ergebnisse Tests . 44 9 Datensatz 1: Ergebnisse . 45 10 Datensatz 2: Ergebnisse Tests . 46 11 Datensatz 2: Ergebnisse . 47 12 Klassifizierte Spieler in der Abwehr . 48 13 Klassifizierte Spieler im Mittelfeld . 49 14 Klassifizierte Spieler im Angriff . 49 15 Ergebnisse Note . 54 16 Attribute fur¨ die Abwehr gegenubergestellt¨ . 55 17 Attribute fur¨ das Mittelfeld gegenubergestellt¨ . 56 18 Attribute fur¨ den Angriff gegenubergestellt¨ . 57 19 Spieler mit den besten Noten der Saison 2011 . 60 20 Matrix Cluster Mannschaften . 64 21 Cluster Mannschaften . 65 22 Matrix Cluster Abwehr . 66 23 Tabelle Cluster Abwehr . 67 24 Matrix Cluster Mittelfeld . 67 25 Tabelle Cluster Mittelfeld . 68 26 Matrix Cluster Angriff . 68 27 Tabelle Cluster Angriff . 69 28 Cluster Abwehrspieler . 72 29 Zuordnung der Cluster der Abwehrspieler . 73 30 Cluster Mittelfeldspieler . 74 31 Zuordnung der Cluster der Mittelfeldspieler . 74 32 Cluster Angreifer . 76 33 Zuordnung der Cluster der Angreifer . 76 34 RSME der Regressionsanalyse fur¨ die Prognose . 82 35 Ergebnisse der Prognose der Punkte ohne Spieler . 83 36 Lineare Regression: Prognose der Punkte fur¨ die Saison 2011 . ..

Load more