Management of Xml Data by Means of Schema Matching

MANAGEMENT OF XML DATA BY MEANS OF SCHEMA MATCHING Dissertation zur Erlangung des akademischen Grades Doktoringenieur (Dr.-Ing.), angenommen durch die Fakultät für Informatik der Otto-von-Guericke-Universität Magdeburg von: M.Sc. Alsayed Alshahat Alsayed Algergawy geb. am 06. Nov. 1973 in Agypten¨ Gutachter: Prof. Dr. Gunter Saake Prof. Dr. Erhard Rahm Prof. Dr. Stefan Conrad Promotionskolloquium: Magdeburg, Germany, February 19, 2010 Algergawy, Alsayed: Management of XML Data by Means of Schema Matching Dissertation, Otto-von-Guericke-Universität Magdeburg, 2009. Abstract The eXtensible Markup Language (XML) has emerged as a de facto standard to represent and exchange information among various applications on the Web and within organiza- tions due to XML’s inherent data self-describing capability and flexibility of organizing data. As a result, the number of available (heterogeneous) XML data is rapidly increas- ing, and the need for developing high-performance techniques to manage these data is vastly growing. A first step to manage these data is to identify and discover semantic correspondences across XML data. The process of identifying semantic correspondences among heterogeneous XML data is called XML schema matching. Schema matching in general plays a central role in several shared XML data applications, such as XML data integration, XML data migration, XML data clustering, peer-to-peer systems, etc. Therefore, myriads of matching algorithms have been proposed and many matching systems have been developed. However, most of these systems pro- duce score schema elements, which results in discovering simple (one-to-one) matches. Such results solve the schema matching problem partially. In order to completely solve the problem, the matching system should discover complex matches as well as simple ones. Another dimension of schema matching that should be considered is matching scalability. Existing matching systems rely heavily either on rule-based approaches or on learner-based approaches. Rule-based systems represent schemas to be matched in a common data model, such as schema trees or schema graphs. Then, they apply their algorithms to the common data model, which in turn requires traversing schema trees (schema graphs) many times. By contrast, learning-based systems need much pre-match effort to train their learners. As a consequence, especially in large-scale schemas and dynamic environments, matching efficiency declines radically. As an attempt to improve matching efficiency, recent schema matching systems have been developed. However, they only consider simple matching. Therefore, discovering complex matching taking into ac- count schema matching scalability against both a large number of schemas and large-scale schemas is considered a real challenge. This thesis proposes a new matching approach, called sequence-based schema matching, to identify and discover both simple and complex matches in the large-scale XML schema context. The approach is based on exploiting the Prüfer encoding method that constructs a one-to-one correspondence between schema trees and sequences. As a result of sequence- i based schema matching we develop two approaches in sequence. To begin with, we develop the XPrüM framework, which identifies and discovers simple (one-to-one) matches by representing schema trees as sequences. By exploiting this representation we capture both schema tree internal (semantic) information in the Label Prüfer Sequence (LPS) and schema tree external (structural) information in the Number Prüfer Sequence (NPS). Capturing both information in this efficient way provides and maximizes the possibility to get better matching results. To assess the internal similarity between XML schema elements, we develop a linguistic element matcher that exploits semantic information in LPSs, while to assess the structural similarity between schema elements, we propose a structure matcher that makes use of structural information in NPSs. Then, to cope with complex matches, we further enhance the XPrüM framework by introducing the concept of compatible elements. We also present two case studies where our sequence-based matching approach can be deployed. Moreover, the thesis introduces a new evaluation measure, cost-effectiveness, to consider both performance aspects: matching effectiveness and matching efficiency. The XPrüM and its enhancement frameworks as well as the two case studies have been designed, developed and implemented. The frameworks have been evaluated on various real world test cases with encouraging results, thus, empirically proving their benefits. ii Zusammenfassung Die eXtensible Markup Language (XML) hat sich durch ihre inhärente Eigenschaft der Selbstbeschreibung von Daten und die Flexibilität bei der Organisation von Daten zum Industriestandard zur Darstellung und zum Austausch von Informationen zwischen ver- schiedenen Anwendungen im Web und in Organisationen entwickelt. Als Ergebnis wächst die Menge verfügbarer (heterogener) XML-Daten rapide an, und die Notwendigkeit, hoch- performante Techniken zur Verwaltung dieser Daten zu entwickeln, steigt erheblich. Ein erster Schritt, um diese Daten zu verwalten, ist die Identifikation und Entdeckung semantischer Korrespondenzen innerhalb der XML-Daten. Der Prozess der Identifikation semantischer Korrespondenzen zwischen heterogenen XML-Daten wird als XML Schema Matching (dt. Schemaabgleich) bezeichnet. Allgemein hat Schema Matching eine zentrale Bedeutung für verschiedene Anwen- dungen gemeinsam genutzter XML-Daten, wie zum Beispiel bei der Integration, der Mi- gration oder dem Clustering von XML-Daten, in Peer-to-Peer-Systemen usw. Deshalb sind eine Vielzahl von Matching-Algorithmen und -Systemen entwickelt worden. Jedoch produzieren die meisten dieser Systeme Bewertungen für Schemaelemente, was nur zur Entdeckung einfacher (1:1) Abbildungen führt. Solche Ergebnisse lösen das Problem aber nur teilweise. Um das Problem vollständig zu lösen, sollte ein Matching-System komplexe und einfache Abbildungen entdecken. Eine weitere Dimension des Schema Matching, welche berücksichtigt werden muss, ist die Skalierbarkeit. Existierende Systeme verlassen sich entweder stark auf regelbasierte oder auf lernbasierte Ansätze. Regelbasierte Systeme repräsentieren abzubildende Schemata in einem gemeinsamen Datenmodell, zum Beispiel Schemabäume oder Schemagraphen. Anschliessend führen sie ihre Algorithmen auf dem gemeinsamen Datenmodell aus, welches ein mehrfaches Durchlaufen der Schemabäume (Schemagraphen) erfordert. Im Gegensatz dazu benötigen Systeme, welche auf Lern- verfahren basieren, umfangreichen Aufwand zum Training der Learns. Als Konsequenz daraus verschlechtert sich insbesondere für grosse Schemata und in dynamischen Umge- bungen die Effizienz des Abgleichs radikal. Neuere Matching-Systeme setzen sich des wegen zum ziel, die Matching-Effizienz zu steigern. Aber auch diese betrachten nur einfache Abbildungen zwischen Schemaelementen. Deshalb stellt die Entdeckung komplexer Abbildungen bei gleichzeitiger Berücksichtigung der Skalierbarkeit sowohl bezüglich einer grossen Anzahl von Schemata als auch grosser Schemata eine wirkliche Herausforderung iii dar. Diese Arbeit schlägt einen neuartigen Matching-Ansatz vor, welcher als sequenz- basiertes Schema Matching bezeichnet wird und einfache und komplexe Abbildungen im Kontext grosser XML-Schemata identifiziert und entdeckt. Der Ansatz basiert auf der Verwendung von Prüfer-Codes, welche eine 1:1-Korrespondenz zwischen Schemabäumen und Sequenzen konstruieren. Für die Umsetzung des sequenzbasierten Matching entwickeln wir zwei aufeinander aufbauende Ansätze. Zuerst entwickeln wir das XPrüm- Framework, welches einfache (1:1) Abbildungen durch die Darstellung von Schemabäumen als Sequenzen identifiziert und entdeckt. Wir verwenden diese Darstellung für interne (semantische) Informationen in der Label Prüfer Sequence (LPS, Folge der Knotenbezeich- nungen) und externe (strukturelle) Informationen in der Number Prüfer Sequence (NPS, eigentlicher Prüfer-Code) beider Schemabäume. Diese effiziente Darstellung beider Infor- mationen ermöglicht und maximiert die Wahrscheinlichkeit, bessere Matching-Ergebnisse zu erhalten. Um die innere Ahnlichkeit¨ zwischen XML-Schemaelementen zu berechnen, entwickeln wir einen linguistischen Element-Matcher, welcher semantische Informationen der zwei LPS nutzt, während zur Berechnung der strukturellen Ahnlichkeit¨ ein Matcher vorgestellt wird, welcher Strukturinformationen der NPS nutzt. Darauf aufbauend er- weitern wir das XPrüm-Framework durch die Einführung des Konzeptes der kompatiblen Elemente, um komplexe Abbildungen behandeln zu können. Wir stellen ebenfalls zwei Fallstudien vor, in denen unser Matching-Verfahren ange- wandt werden kann. Darüber hinaus führt die Arbeit mit der Kosteneffektivität ein neues Evaluationsmass ein, welches beide Performanzaspekte berücksichtigt: die Effektivität und die Effizienz des Matching. Sowohl das erweiterte Framework XPrüM als auch die beiden Fallstudien wurden entworfen, entwickelt und implementiert. Die Frameworks wurden anhand verschiedener Realwelt-Testdatensätze mit ermutigenden Ergebnissen evaluiert, und dadurch wurde ihr Nutzen empirisch nachgewiesen. iv Acknowledgments In the name of Allah (GOD), Most Gracious, Most Merciful. It is my firm belief that this dissertation has never been completed without the help of GOD. My belief in God gave me hope during difficult times. Thanks to Allah. I would like to express my deep

Load more