Multiple Instance Learning Under Real-World Conditions
Total Page:16
File Type:pdf, Size:1020Kb
Multiple Instance Learning Under Real-World Conditions by Marc-André CARBONNEAU MANUSCRIPT-BASED THESIS PRESENTED TO ÉCOLE DE TECHNOLOGIE SUPÉRIEURE IN PARTIAL FULFILLMENT FOR THE DEGREE OF DOCTOR OF PHILOSOPHY Ph. D. MONTREAL, JULY 24, 2017 ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC Marc-André Carbonneau, 2017 This Creative Commons license allows readers to download this work and share it with others as long as the author is credited. The content of this work cannot be modified in any way or used commercially. BOARD OF EXAMINERS THIS THESIS HAS BEEN EVALUATED BY THE FOLLOWING BOARD OF EXAMINERS: Mr. Ghyslain Gagnon, Thesis Supervisor Department of Electrical Engineering, École de technologie supérieure Mr. Eric Granger, Thesis Co-supervisor Department of Automated Manufacturing Engineering, École de technologie supérieure Mr. Stéphane Coulombe, President of the Board of Examiners Department of Software and IT Engineering, École de technologie supérieure Mr. Marco Pedersoli, Member of the jury Department of Automated Manufacturing Engineering, École de technologie supérieure Mr. Marco Loog, External Examiner Pattern Recognition Laboratory, Delft University of Technology THIS THESIS WAS PRESENTED AND DEFENDED IN THE PRESENCE OF A BOARD OF EXAMINERS AND THE PUBLIC ON SEPTEMBER 11, 2017 AT ÉCOLE DE TECHNOLOGIE SUPÉRIEURE ACKNOWLEDGEMENTS First, I would like to express my gratitude to my supervisors. Thank you for the moral and financial support. Thank you for your guidance. Thank you for the multiple teaching and work opportunities. Thank you for patiently reading each and every paper as I painfully learned to write in English. Thanks for the debates. Thank you for your time. Thank you for your friendship. I am grateful to my family. Each one of you has been supportive from day one. Your encour- agements helped me believe that this extended stay at school made some sense. I’m lucky and proud to be part of this exclusive club and love each one of you more than anything in the world. Next, I need to thank all of these close friends that were and are there for me. Special mention to the BGNers, les voisines and Pélippe. Finally, thank you to all my colleagues at LIVIA, LACIME and the unaffiliateds for making ÉTS a fun place to study. APPRENTISSAGE PAR INSTANCES MULTIPLES DANS DES CONDITIONS RÉELLES Marc-André CARBONNEAU RÉSUMÉ L’apprentissage par instances multiples (AIM) est un type d’apprentissage machine avec faible supervision. Les données sont groupées en ensembles que l’on nomme sacs. Une étiquette est donnée pour chacun des sacs. Par contre, les données individuelles dans les sacs, appelées instances, ne sont pas étiquetées. Comme pour les autres types d’apprentissages faiblement supervisés, l’AIM est utile quand il est coûteux même impossible d’obtenir des étiquettes pour chacune des instances. Dans tous les cas, on apprendra à partir de données arrangées en sacs. Cependant, la tâche du classificateur peut être de prédire la classe des sacs ou des instances. Cette formulation se révèle utile dans plusieurs situations passant de la prédiction des effets de médicaments à la reconnaissance visuelle d’objets. De par leur forme particulière, les problèmes d’AIM comportent plusieurs difficultés qui sont trop souvent mal comprises ou inconnues. Il en résulte que plusieurs méthodes AIM sont mal adaptées aux données réelles et présentent des performances inégales dependant des applications. Dans cette thèse, des algorithmes de classification par AIM seront proposés pour la classifica- tion de sacs et d’instances, et ce, selon différentes suppositions sur les données. Chacune de ces méthodes est conçue pour être utilisée dans des situations réelles comportant des caractéris- tiques et défis particuliers. Comme première contribution, ces caractéristiques propres à l’AIM seront analysées et groupées en quatre catégories: le niveau auquel les prédictions sont faites, la composition des sacs, les types de distribution de données et l’ambiguïté sur les étiquettes. Chacune de ces catégories sera analysée en profondeur et les méthodes de pointe proposées pour ces cas spécifiques seront recensées. Ensuite, les applications typiques de l’AIM seront revues du point de vue de ces caractéristiques. Des expériences sont menées afin de montrer comment les caractéristiques affectent les performances de 16 types de méthodes d’AIM. Ces expérimentations et analyses permettent de tirer plusieurs conclusions pour choisir et tester des méthodes par AIM. Finalement, plusieurs sujets pour des recherches futures sont identifiés. La seconde contribution est une méthode pour la classification de sacs basée sur l’identification probabiliste d’instances positives dans la base d’entraînement. Suite à ce processus d’identifi- cation, on entraîne un ensemble de classificateurs pour la classification d’instances. Les pré- dictions faites sur les instances sont ensuite combinées pour prédire la classe des sacs. Pour l’identification des instances positives, les données sont projetées dans plusieurs sous-espaces aléatoires. Dans ces sous-espaces, les instances sont regroupées et les étiquettes de sacs dans chaque groupe sont utilisées pour juger de la nature des instances. Les expériences montrent que cet algorithme obtient des performances comparables à l’état de l’art tout en étant davan- tage robuste à plusieurs des caractéristiques identifiées au chapitre précédent. Il existe des applications pour lesquelles les instances ne peuvent pas être attribuées à une classe positive ou négative. En fait, les classes des sacs dépendent de la composition de ceux- VIII ci. Dans ces cas-là, ce sont les relations entre les instances qui portent l’information permettant de distinguer entre les classes de sacs. À titre de troisième contribution, une méthode pour la classification de sacs dans ces conditions est proposée. La méthode sert à prédire la personnal- ité d’un locuteur à partir de la voix. Cette méthode représente le spectrogramme d’un segment audio par un sac d’instances. Les parties du spectrogramme correspondent aux instances et sont encodées en utilisant un encodage creux (sparse). Une fois encodées, les instances sont agglomérées pour obtenir un vecteur de caractéristiques unique représentant le segment audio en entier. Ces vecteurs de caractéristiques sont utilisés par le classificateur de sac. Des expéri- ences utilisant des données réelles montrent que la méthode obtient des résultats comparables à l’état de l’art tout en étant moins complexe à implémenter que les méthodes couramment utilisées dans le domaine. Finalement, deux méthodes sont proposées pour choisir des sacs à faire étiqueter par un oracle dans un contexte d’apprentissage actif. Le but de l’apprentissage actif est d’entraîner un clas- sificateur fiable en utilisant un minimum de données étiquetées. La structure des données en sacs rend sous-optimales les méthodes proposées pour l’apprentissage à instance simple. Les deux méthodes proposées tiennent compte de la structure en sacs mais abordent le problème différemment. La première tente de raffiner directement la frontière de décision du classifica- teur en portant son attention sur les instances près de celle-ci. La seconde méthode étudie la structure des instances dans l’espace afin d’identifier les régions les plus informatives. Le degré de désaccord entre les étiquettes des instances et des sacs et la proportion d’instances dont la classe est inconnue dans une région servent à déterminer la pertinence de celle-ci. Des expéri- ences sont conduites dans un contexte d’apprentissage par induction et transduction pour trois domaines d’application. Ces expériences montrent la nécessité de considérer la structure en sacs dans un contexte d’AIM en réduisant la quantité d’étiquettes nécessaires pour l’obtention de bonnes performances de classification. Cette thèse démontre que les problèmes d’AIM comportent une grande variété de défis et prob- lématiques. Après une analyse en profondeur de ces défis et problématiques, des expériences sont menées afin de mesurer leur impact sur les performances des méthodes AIM. Ensuite, des méthodes sont proposées spécialement pour solutioner certaines de ces problématiques. Les méthodes sont validées expérimentalement avec des données provenant d’applications réelles. Finalement, des avenues pour recherches futures sont identifiées. Mots clés: Apprentissage par instances multiples, apprentissage faiblement supervisé MULTIPLE INSTANCE LEARNING UNDER REAL-WORLD CONDITIONS Marc-André CARBONNEAU ABSTRACT Multiple instance learning (MIL) is a form of weakly-supervised learning that deals with data arranged in sets called bags. In MIL problems, a label is provided for bags, but not for each individual instance in the bag. Like other weakly-supervised frameworks, MIL is useful in sit- uations where obtaining labels is costly. It is also useful in applications where instance labels cannot be observed individually. MIL algorithms learn from bags, however, prediction can be performed at instance- and bag-level. MIL has been used in several applications from drug activity prediction to object localization in image. Real-world data poses many challenges to MIL methods. These challenges arise from different problem characteristics that are some- times not well understood or even completely ignored. This causes MIL methods to perform unevenly and often fail in real-world applications. In this thesis, we propose methods for both classification levels under different working as- sumptions. These methods are designed to address challenging problem characteristics