On Imbalanced Classification of Benthic Macroinvertebrates: Metrics and Loss-Functions
Total Page:16
File Type:pdf, Size:1020Kb
Mikko Impiö ON IMBALANCED CLASSIFICATION OF BENTHIC MACROINVERTEBRATES: METRICS AND LOSS-FUNCTIONS Performance metric and loss-function comparison for imbalanced multi-class classification Faculty of Information Technology and Communication Sciences Bachelor of Science Thesis May 2020 i ABSTRACT Mikko Impiö: On imbalanced classification of benthic macroinvertebrates: Metrics and loss- functions Bachelor of Science Thesis Tampere University Electrical Engineering May 2020 Aquatic biomonitoring is an integral part of assessing the state and quality of freshwater sys- tems. An important part of biomonitoring is the identification and classification of benthic macroin- vertebrates, a species group containing several indicator species of high interest. Lately, au- tomating the process of identifying these species using visual and chemical systems has gained interest. The methods presented for this often overlook the imbalanced nature of taxonomic data, where the size difference between largest and smallest classes is substantial. This thesis has two main themes: analyzing the suitability of different performance metrics used to evaluate imbalanced domain classification models, as well as testing methods that could be used to improve the performance of these models. Performance metrics are analyzed from the standpoint of experts with no machine learning expertise, focusing on understandability and visualizations of the metrics. Focus is given on metrics that can be derived from a multi-class confusion matrix, due to the intuitive derivation of these metrics. These metrics are used to produce both single-score and class-wise metrics, that describe the model performance either as whole, or separately for each class. As for classification improvement methods, experiments with different loss functions, rebalancing and augmentation methods are conducted. This thesis presents as results a comparison of different evaluation metrics with their pros and cons from the biomonitoring point of view. The main argument is that a single metric for describing model performance can be very ambiguous, and if it is possible, further assessment by class-wise metrics should be conducted when comparing models. The results of classification improvement methods did not yield better results than the reference model with the experiments conducted. This thesis also presents a modern reference model trained with a benthic macroinvertebrate benchmark dataset, outperforming most of the current flat classification models in the literature. Keywords: imbalanced classification, biomonitoring, loss functions, performance metrics, cost- sensitive learning The originality of this thesis has been checked using the Turnitin OriginalityCheck service. ii TIIVISTELMÄ Mikko Impiö: Epätasaisen datajakauman ongelmat pohjaeläinten luokittelussa: metriikat ja tavoi- tefunktiot Kandidaatintyö Tampereen yliopisto Sähkötekniikka Toukokuu 2020 Biologinen seuranta on tärkeä osa vedenlaadun seurantaa. Pienilläkin ympäristömuutoksilla voi olla suuria vaikutuksia makeiden vesien lajistoon. Tärkeän osan makeiden vesien ekosystee- meistä muodostaa pohjaeläimet, joiden tunnistamisen automatisointi on herättänyt kiinnostusta viime vuosina uusien koneoppimismenetelmien myötä. Esitetyt menetelmät eivät kuitenkaan ota yleensä huomioon taksonomisen datan suurta epätasaisuutta, jossa suurimman ja pienimmän luokan näytemäärien välillä voi olla monikymmenkertainen ero. Tässä kandidaatintyössä on kaksi pääteemaa: erilaisten metriikoiden sopivuus pohjaeläinten luokittelumallien arvioinnissa, sekä näiden luokittelumallien parantaminen käyttäen epätasaisuu- den huomioon ottavia menetelmiä. Luokittelumallien metriikoissa nostetaan esille menetelmiä, jotka ottavat luokittelijan suorituskyvyn paremmin huomioon myös pienempien luokkien osalta. Työssä esitellään yleisesti käytettyjä ja uusia metriikoita sekä visualisointeja ja tuodaan esille näi- den teoreettista taustaa. Metriikat keskittyvät sekaannusmatriisista (confusion matrix) johdettaviin arvoihin, joita käytetään sekä koko mallin suorituskyvyn, että luokkakohtaisten metriikoiden laske- miseksi. Metriikoiden lisäksi tutkitaan menetelmiä, jotka ottavat epätasaisen jakauman huomioon jo luokittelijan luontivaiheessa. Näitä ovat esimerkiksi neuroverkkojen optimoinnissa käytetyt ta- voitefunktiot, sekä erilaiset koulutusdatajakauman tasapainotus -ja muokkausmenetelmät. Työn tuloksena esitellään erilaisten metriikoiden hyödyt ja haitat biologisen seurannan näkö- kulmasta. Pääargumenttina on, että kokonaissuorituskykyä kuvaavan arvon sijaan tulisi tarkastel- la luokkakohtaisia suorituskykyjä, keskittyen mallin luotettavuuteen läpi luokkien. Luokittelijan pa- rannusmenetelmien tuloksena havaittiin, että epätasaisuuden huomioon ottavat menetelmät eivät juurikaan tuota oletusmallia parempia lopputuloksia. Työssä esitellään myös referenssiluokittelija, joka suoriutuu pohjaeläinten luokittelussa useita kirjallisuudessa esiintyviä yksittäisiä luokittelijoita paremmin. Avainsanat: epätasainen datajakauma, biomonitorointi, tavoitefunktio, metriikat Tämän julkaisun alkuperäisyys on tarkastettu Turnitin OriginalityCheck -ohjelmalla. iii CONTENTS 1 Introduction . 1 2 Related work . 3 3 Theory . 5 3.1 Biomonitoring and benthic macroinvertebrates . 5 3.2 Machine learning . 9 3.2.1 Statistical learning theory . 10 3.2.2 Optimization theory . 11 3.2.3 Neural networks . 13 3.3 Evaluation metrics for imbalanced classification . 15 3.3.1 Confusion matrix metrics . 16 3.3.2 Averaging multi-class classifiers . 19 3.3.3 F-measure, G-mean . 20 3.3.4 Bayesian probability . 22 3.4 Loss functions for imbalanced data . 23 3.4.1 Cross-entropy loss . 24 3.4.2 Focal loss . 25 3.4.3 Class-balanced loss . 26 3.5 Sampling methods for imbalanced data . 27 3.5.1 Resampling methods . 27 3.5.2 Data augmentation . 28 4 Methods . 29 4.1 Data . 29 4.2 Reference model . 31 5 Comparison of evaluation metrics . 33 5.1 Traditional metrics for model evaluation . 33 5.1.1 Cross-validation and averaging . 34 5.1.2 Confusion matrix and precision-recall -curve . 36 5.2 Imbalanced multi-class classification metrics and visualizations . 38 5.3 Qualitative comparison . 42 6 Comparison of loss-functions and augmentation methods . 45 6.1 Categorical cross-entropy . 46 6.2 Focal loss . 46 6.3 Class-balanced loss . 48 6.4 Resampling and data augmentation methods . 49 6.4.1 Under- and oversampling . 49 6.4.2 Data augmentation . 51 iv 6.5 Results . 52 7 Conclusion . 54 References . 56 Appendix A Appendix . 62 v LIST OF FIGURES 3.1 Relationship between the abundance and the amount of species . 7 3.2 Different kinds of benthic macroinvertebrates . 9 3.3 Cross-entropy and focal loss as a function of probability . 25 4.1 Taxonomic resolution of the image data . 30 4.2 Class sizes of the full dataset . 31 5.1 Reference model test split 1 confusion matrix . 37 5.2 Reference model split 1 precision-recall curve . 38 5.3 Reference model confusion matrix metrics and F1 score . 39 5.4 Reference model positive performance metrics, G-mean and F1 score . 40 5.5 Reference model cumulative positive performance metrics and F1 score . 41 5.6 Example of two different classifiers with the same macro-averaged F1 score, but drastically different overall performance . 41 6.1 Weighted cross-entropy comparisons for normalized and inverse frequency weights . 47 6.2 Focal loss (α = 1; γ = 2) performance comparison . 48 6.3 Class-balanced loss performance comparison . 49 6.4 Reference model continued with oversampled data performance . 51 6.5 Performance of a model trained with augmented data . 52 A.1 Focal loss F1 scores plotted against reference model F1 scores in ascend- ing order . 65 A.2 Focal loss (α = 1) cumulative plots against reference model . 66 A.3 Focal loss F1 improvements against reference . 67 vi LIST OF TABLES 3.1 Comparison of biosurvey organism assemblages . 8 3.2 Confusion matrix for binary classification . 17 3.3 Multi-class confusion matrix . 17 3.4 Multi-class confusion matrix as binary one-vs-rest matrix with class A as the class under inspection . 18 3.5 Common classification evaluation metrics . 19 4.1 Taxa labels . 30 5.1 Error rate and LCSE metrics for the 4-fold cross-validated reference clas- sifier with comparison to classifier trained with same data by Ärje etal..34 5.2 Micro- and macro-averaged performance of the reference classifier for each cross-validation split . 34 5.3 The different multi-class cross-validation averaging combinations for F1 score 35 5.4 Comparison of different metrics . 44 6.1 Performance of models trained using resampled datasets . 50 6.2 Performance comparison of different models using single-score metrics . 53 A.1 Taxa with their taxonomic classifications and class sizes . 62 A.2 Reference model confusion matrix values summed over folds (micro-averaging) 63 A.3 Reference model confusion matrix values . 64 vii LIST OF SYMBOLS AND ABBREVIATIONS acc Accuracy ANN Artificial neural network CB Class-balanced loss CE Cross-entropy CNN Convolutional neural network err Error rate F1 F1 score, harmonic mean of precision and recall FL Focal loss FN False negative FP False positive FPR False positive rate, 1-TNR ISO International Organization for Standardization LCSE Level-aware context-sensitive error MCC Matthews correlation coefficient MLP Multilayer perceptron NPV Negative predictive value PPV Positive predictive value (Precision) RGB Red green and blue TN True negative TNR True negative rate (Specificity) TP True positive TPR True positive rate (Sensitivity, Recall) 1 1 INTRODUCTION