A Comparative Evaluation of Machine Learning Algorithms: Binary Classification on Medical Data
Total Page:16
File Type:pdf, Size:1020Kb
University of Piraeus Department of Digital Systems Piraeus, Greece A Comparative Evaluation of Machine Learning Algorithms: Binary Classification on Medical Data A master’s thesis for the postgraduate programme “Digital Systems and Services: Big Data and Analytics” Panagiotis Goumenakis ME1709 Supervisor Prof. Dr. Andriana Prentza Piraeus, September 2019 Abstract Nowadays Machine Learning (ML) has been well applied and recognised as an effective tool to handle a wide range of real situations, including medical implementations. As the amount of data in the field of healthcare grows year by year, there is a remarkable development in disease forecasting with the help of ML applications. From the prediction of epidemic outburst and several diseases to contributing with better means of labelling and storing healthcare data, implementation of ML in the field of healthcare indicates accurate results. This thesis focuses mainly on two major aspects of ML areas. Firstly, on analysing a medical dataset providing visualisations together with invaluable information on dataset’s variables. Secondly, it emphasizes on implementing the appropriate algorithms to execute binary classification in order to determine whether a person is labelled as infected or not infected based on feature values of the sample set. Choosing the most suitable approach is crucial as it could potentially improve the clinical decisions as well as patients’ survival time when applied to real world problems. The research is based on the mesothelioma disease dataset, allocated on the UCI repository, containing 324 examples with 35 attributes. Regarding the unsupervised learning part, in order to deduct results and conclusions, various ML classification algorithms are used to perform the analysis such as Decision Tree, Support Vector Machines (SVM), Naive Bayes Classifier, Logistic Regression, k Nearest Neighbours (kNN), and Artificial Neural Networks (ANN). Concerning the techniques for evaluation, the reader can expect several methods as for example statistical measures like accuracy, sensitivity, specificity, f1-score, confusion matrix, AUC (Area Under Curve), and ROC (Receiver Operating Characteristic) curve. Keywords - Machine Learning, Binary Classification, SVM, Naive Bayes, Decision Tree, Logistic Regression, ANN, Mesothelioma Dataset, UCI Περίληψη Στις μέρες μας ο τομέας της μηχανικής μάθησης έχει εφαρμοστεί και αναγνωριστεί ως ένα αποτελεσματικό εργαλείο που μπορεί να διαχειριστεί ένα ευρύ φάσμα πραγματικών καταστάσεων συμπεριλαμβανομένων και αυτών των ιατρικών εφαρμογών. Καθώς ο όγκος των δεδομένων στον τομέα της υγείας αυξάνεται χρόνο με το χρόνο, η εξέλιξη της πρόγνωσης μιας νόσου με τη χρήση εφαρμογών της μηχανικής μάθησης είναι αξιοσημείωτη. Οι εφαρμογές ακόμα της μηχανικής μάθησης στον τομέα της υγείας παρουσιάζουν ακριβή αποτελέσματα τόσο στην πρόβλεψη μίας επιδημίας ή διαφόρων ασθενειών όσο και στη συνεισφορά της βελτίωσης των τρόπων με τους οποίους σημειώνονται και αποθηκεύονται τα ιατρικά δεδομένα. Αυτή η διπλωματική εργασία δίνει έμφαση αρχικά στην ανάλυση ιατρικών δεδομένων παρουσιάζοντας οπτικοποιήσεις αλλά και μετρικές σχετικά με τις πληροφορίες που παρουσιάζουν τα δεδομένα. Έπειτα, επικεντρώνεται στην υλοποίηση των κατάλληλων αλγορίθμων ικανών να ταξινομήσουν τα δεδομένα με σκοπό να καθορίσουν εάν ένας άνθρωπος έχει προσβληθεί από τη νόσο ή όχι. Η επιλογή της καταλληλότερης μεθόδου κρίνεται ως καθοριστικής σημασίας καθώς η εφαρμογή της σε πραγματικές καταστάσεις θα μπορούσε ενδεχομένως να βελτιώσει τόσο τις κλινικές αποφάσεις όσο και το προσδόκιμο ζωής του ασθενή. Η συγκεκριμένη έρευνα βασίζεται στο σύνολο δεδομένων “Νόσος Μεσοθηλίωμα” που βρίσκεται στην αποθήκη συνόλων δεδομένων UCI και περιέχει 324 παρατηρήσεις με 35 χαρακτηριστικά. Σχετικά με τον τομέα της ανάλυσης που ασχολείται με τη μη επιβλεπόμενη μάθηση χρησιμοποιούνται αλγόριθμοι μηχανικής μάθησης για κατηγοριοποίηση όπως Δέντρα Απόφασης (Decision Trees), Μηχανές Διανυσμάτων Στήριξης (SVM), Λογιστική Παλινδρόμηση (Logistic Regression), k Πλησιέστεροι Γείτονες (kNN) και Νευρωνικά Δίκτυα (ΑΝΝ) με σκοπό να ολοκληρωθεί η ανάλυση και να οδηγηθεί κανείς σε αποτελέσματα και συμπεράσματα. Όσον αφορά στις τεχνικές αξιολόγησης ο αναγνώστης μπορεί να περιμένει μεθόδους όπως για παράδειγμα τις στατιστικές μετρικές ακρίβεια (accuracy), ευαισθησία (sensitivity) και προσδιοριστικότητα (specificity), f1-score, την μήτρα σύγχυσης (confusion matrix) και τη χαρακτηριστική καμπύλη λειτουργίας (AUC/ROC). Table of Contents List of Figures III List of Tables V Acronyms VI Chapter 1 ..................................................................................................................................... 1 Introduction ....................................................................................................................................... 1 1.1 Motivation .......................................................................................................................... 1 1.2 Related Work ...................................................................................................................... 2 1.3 Objectives ........................................................................................................................... 3 1.4 Approach and Methodology ............................................................................................... 4 1.5 Structure ............................................................................................................................. 5 Chapter 2 ..................................................................................................................................... 6 Theoretical Background ..................................................................................................................... 6 2.1 Machine Learning and Data Mining .................................................................................... 6 2.2 Knowledge Discovery in Databases (KDD) .......................................................................... 8 2.3 Preprocessing Techniques .................................................................................................. 9 2.4 Machine Learning Algorithms ........................................................................................... 12 2.4.1 Decision Tree ................................................................................................................... 12 2.4.2 k-Nearest Neighbour (kNN) ............................................................................................ 15 2.4.3 Logistic Regression .......................................................................................................... 17 2.4.4 Naive Bayes Classifier ...................................................................................................... 19 2.4.5 Support Vector Machine (SVM) ...................................................................................... 22 2.4.6 Artificial Neural Network (ANN) ..................................................................................... 25 2.5 Evaluation Methods .......................................................................................................... 31 Chapter 3 ................................................................................................................................... 35 Dataset Insight ................................................................................................................................. 35 3.1 Mesothelioma Disease ...................................................................................................... 35 3.2 UCI and Mesothelioma Disease Dataset ........................................................................... 35 3.3 Attributes Explanation ...................................................................................................... 36 I Chapter 4 ................................................................................................................................... 40 Implementation Pipeline ................................................................................................................. 40 4.1 Exploratory Data Analysis (EDA) ....................................................................................... 40 4.2 Data Preprocessing ........................................................................................................... 49 4.3 Predictive Modelling ......................................................................................................... 53 Chapter 5 ................................................................................................................................... 55 Results and Discussion ..................................................................................................................... 55 5.1 Algorithms Individual Results ........................................................................................... 55 5.1.1 Decision Tree ................................................................................................................... 55 5.1.2 k-Nearest Neighbour (kNN) ............................................................................................ 56 5.1.3 Logistic Regression .......................................................................................................... 58 5.1.4 Naive Bayes Classifier ...................................................................................................... 59 5.1.5 Support