Algorithms for Similarity Relation Learning from High Dimensional Data Phd Dissertation
Total Page:16
File Type:pdf, Size:1020Kb
University of Warsaw Faculty of Mathematics, Informatics and Mechanics mgr Andrzej Janusz Algorithms for Similarity Relation Learning from High Dimensional Data PhD dissertation Supervisor Prof. dr hab. Nguyen Hung Son Institute of Mathematics University of Warsaw October 2013 Author’s declaration: aware of legal responsibility I hereby declare that I have written this dissertation myself and all the contents of the dissertation have been obtained by legal means. October 31, 2013 . date mgr Andrzej Janusz Supervisor’s declaration: the dissertation is ready to be reviewed October 31, 2013 . date Prof. dr hab. Nguyen Hung Son 3 Abstract The notion of similarity plays an important role in machine learning and artificial intelligence. It is widely used in tasks related to a supervised classification, clustering, an outlier detection and planning [7, 22, 57, 89, 153, 166]. Moreover, in domains such as information retrieval or case-based reasoning, the concept of similarity is essential as it is used at every phase of the reasoning cycle [1]. The similarity itself, however, is a very complex concept that slips out from formal definitions. A similarity of two objects can be different depending on a considered context. In many practical situations it is difficult even to evaluate the quality of similarity assessments without considering the task for which they were performed. Due to this fact the similarity should be learnt from data, specifically for the task at hand. In this dissertation a similarity model, called Rule-Based Similarity, is described and an algorithm for constructing this model from available data is proposed. The model utilizes notions from the rough set theory [108, 110, 113, 114, 115] to derive a similarity function that allows to approximate the similarity relation in a given context. The construction of the model starts from the extraction of sets of higher-level features. Those features can be interpreted as important aspects of the similarity. Having defined such features it is possible to utilize the idea of Tversky’s feature contrast model [159] in order to design an accurate and psychologically plausible similarity function for a given problem. Additionally, the dissertation shows two extensions of Rule-Based Similarity which are designed to efficiently deal with high dimensional data. They incorporate a broader array of similarity aspects into the model. In the first one it is done by constructing many heterogeneous sets of features from multiple decision reducts. To ensure their diversity, a randomized reduct computation heuristic is proposed. This approach is particularly well-suited for dealing with the few-objects-many-attributes problem, e.g. the analysis of DNA microarray data. A similar idea can be utilized in the text mining domain. The second of the proposed extensions serves this particular purpose. It uses a combination of a semantic indexing method and an information bireducts computation technique to represent texts by sets of meaningful concepts. The similarity function of the proposed model can be used to perform an accurate classification of previously unseen objects in a case-based fashion or to facilitate clustering of textual documents into semantically homogeneous groups. Experiments, whose results are also presented in the dissertation, show that the proposed models can successfully compete with the state-of-the-art algorithms. Keywords: Rule-Based Similarity, Similarity Learning, Rough Set Theory, Tversky’s Similarity Model, Case-Based Reasoning, Feature Extraction ACM Computing Classification (rev.2012): Computing methodologies 7! Machine learning 7! Machine learning approaches 7! Instance-based learning. 4 Streszczenie Pojęcie podobieństwa pełni istotną rolę w dziedzinach uczenia maszynowego i sztucznej inteligencji. Jest ono powszechnie wykorzystywane w zadaniach dotyczących nadzorowanej klasyfikacji, grupowania, wykrywania nietypowych obiektów oraz planowania [7, 22, 57, 89, 153, 166]. Ponadto w dziedzinach takich jak wyszukiwanie informacji (ang. information retrieval) lub wnioskowanie na podstawie przykładów (ang. case-based reasoning) pojęcie podobieństwa jest kluczowe ze względu na jego obecność na wszystkich etapach wyciągania wniosków [1]. Jednakże samo podobieństwo jest pojęciem niezwykle złożonym i wymyka się próbom ścisłego zdefiniowania. Stopień podobieństwa między dwoma obiektami może być różny w zależności od kontekstu w jakim się go rozpatruje. W praktyce trudno jest nawet ocenić jakość otrzymanych stopni podobieństwa bez odwołania się do zadania, któremu mają służyć. Z tego właśnie powodu modele oceniające podobieństwo powinny być wyuczane na podstawie danych, specjalnie na potrzeby realizacji konkretnego zadania. W niniejszej rozprawie opisano model podobieństwa zwany Regułowym Modelem Podobieństwa (ang. Rule-Based Similarity) oraz zaproponowano algorytm tworzenia tego modelu na podstawie danych. Wykorzystuje on elementy teorii zbiorów przybliżonych [108, 110, 113, 114, 115] do konstruowania funkcji podobieństwa pozwalającej aproksymować podobieństwo w zadanym kontekście. Konstrukcja ta rozpoczyna się od wykrywania zbiorów wysokopoziomowych cech obiektów. Mogą być one interpretowane jako istotne aspekty podobieństwa. Mając zdefiniowane tego typu cechy możliwe jest wykorzystanie idei modelu kontrastu cech Tversky’ego [159] (ang. feature contrast model) do budowy precyzyjnej oraz zgodnej z obserwacjami psychologów funkcji podobieństwa dla rozważanego problemu. Dodatkowo, niniejsza rozprawa zawiera opis dwóch rozszerzeń Regułowego Modelu Podobieństwa przystosowanych do działania na danych o bardzo wielu atrybutach. Starają się one włączyć do modelu szerszy zakres aspektów podobieństwa. W pierwszym z nich odbywa się to poprzez konstruowanie wielu zbiorów cech z reduktów decyzyjnych. Aby zapewnić ich zróżnicowanie, zaproponowano algorytm łączący heurystykę zachłanną z elementami losowymi. Podejście to jest szczególnie wskazane dla zadań związanych z problemem małej liczby obiektów i dużej liczby cech (ang. the few-objects-many-attributes problem), np. analizy danych mikromacierzowych. Podobny pomysł może być również wykorzystany w dziedzinie analizy tekstów. Realizowany jest on przez drugie z proponowanych rozszerzeń modelu. Łączy ono metodę semantycznego indeksowania z algorytmem obliczania bireduktów informacyjnych, aby reprezentować teksty dobrze zdefiniowanymi pojęciami. Funkcja podobieństwa zaproponowanego modelu może być wykorzystana do klasyfikacji nowych obiektów oraz do łączenia dokumentów tekstowych w semantycznie spójne grupy. Eksperymenty, których wyniki opisano w rozprawie, dowodzą, że zaproponowane modele mogą skutecznie konkurować nawet z powszechnie uznanymi rozwiązaniami. Contents 1 Introduction7 1.1 Motivation and Aims...........................7 1.2 Main Contributions............................9 1.3 Plan of the Dissertation......................... 10 1.4 Acknowledgements............................ 12 2 Theory of Rough Sets 13 2.1 Introduction to Rough Sets....................... 14 2.1.1 Information and decision systems................ 14 2.1.2 Indiscernibility relation...................... 16 2.1.3 Descriptions and rules...................... 17 2.2 Rough Set Approximations........................ 20 2.2.1 Lower and upper approximations................ 21 2.2.2 Approximation spaces...................... 23 2.2.3 Approximation of relations.................... 24 2.3 Attribute Reduction........................... 26 2.3.1 Rough set information reduction................. 26 2.3.2 Generalizations of reducts.................... 27 2.3.3 Notion of bireducts........................ 29 3 Notion of Similarity 31 3.1 Similarity as a Relation.......................... 32 3.1.1 Vagueness of a similarity relation................ 32 3.1.2 Similarity in a context...................... 33 3.1.3 Similarity function and classification rules........... 35 3.1.4 Evaluation of similarity models................. 38 3.2 Commonly Used Similarity Models................... 40 3.2.1 Distance-based similarity modelling............... 40 3.2.2 Feature contrast model...................... 44 3.2.3 Hierarchical and ontology-based similarity models....... 46 3.3 Similarity in Machine Learning..................... 47 3.3.1 Similarity in predictive data analysis and visualization.... 48 3.3.2 Case-based Reasoning framework................ 49 3.3.3 Similarity in cluster analysis................... 50 5 6 CONTENTS 4 Similarity Relation Learning Methods 53 4.1 Problem Statement............................ 54 4.2 Examples of Similarity Learning Models................ 56 4.2.1 Feature extraction and attribute ranking methods....... 57 4.2.2 Genetic approaches........................ 58 4.2.3 Relational patterns learning................... 60 4.2.4 Explicit Semantic Analysis.................... 62 4.3 Rule-Based Similarity Model....................... 64 4.3.1 General motivation for Rule-Based Similarity......... 65 4.3.2 Construction of the Rule-Based Similarity model....... 67 4.3.3 Properties of the Rule-Based Similarity function........ 73 4.3.4 Rule-Based Similarity for high dimensional data........ 79 4.3.5 Unsupervised Rule-based Similarity for textual data...... 82 4.3.6 Summary of the Rule-Based Similarity models......... 86 5 Experimental Evaluation of the Rule-Based Similarity Model 89 5.1 Performance of Rule-Based Similarity in a Classification Context... 90 5.1.1 Description of the benchmark data sets............. 90 5.1.2 Compared similarity models................... 91 5.1.3 Evaluation