Management of Xml Data by Means of Schema Matching

Management of Xml Data by Means of Schema Matching

MANAGEMENT OF XML DATA BY MEANS OF SCHEMA MATCHING Dissertation zur Erlangung des akademischen Grades Doktoringenieur (Dr.-Ing.), angenommen durch die Fakult¨at f¨ur Informatik der Otto-von-Guericke-Universit¨at Magdeburg von: M.Sc. Alsayed Alshahat Alsayed Algergawy geb. am 06. Nov. 1973 in Agypten¨ Gutachter: Prof. Dr. Gunter Saake Prof. Dr. Erhard Rahm Prof. Dr. Stefan Conrad Promotionskolloquium: Magdeburg, Germany, February 19, 2010 Algergawy, Alsayed: Management of XML Data by Means of Schema Matching Dissertation, Otto-von-Guericke-Universit¨at Magdeburg, 2009. Abstract The eXtensible Markup Language (XML) has emerged as a de facto standard to represent and exchange information among various applications on the Web and within organiza- tions due to XML’s inherent data self-describing capability and flexibility of organizing data. As a result, the number of available (heterogeneous) XML data is rapidly increas- ing, and the need for developing high-performance techniques to manage these data is vastly growing. A first step to manage these data is to identify and discover semantic correspondences across XML data. The process of identifying semantic correspondences among heterogeneous XML data is called XML schema matching. Schema matching in general plays a central role in several shared XML data ap- plications, such as XML data integration, XML data migration, XML data clustering, peer-to-peer systems, etc. Therefore, myriads of matching algorithms have been proposed and many matching systems have been developed. However, most of these systems pro- duce score schema elements, which results in discovering simple (one-to-one) matches. Such results solve the schema matching problem partially. In order to completely solve the problem, the matching system should discover complex matches as well as simple ones. Another dimension of schema matching that should be considered is matching scalability. Existing matching systems rely heavily either on rule-based approaches or on learner-based approaches. Rule-based systems represent schemas to be matched in a common data model, such as schema trees or schema graphs. Then, they apply their algorithms to the common data model, which in turn requires traversing schema trees (schema graphs) many times. By contrast, learning-based systems need much pre-match effort to train their learners. As a consequence, especially in large-scale schemas and dynamic environments, matching efficiency declines radically. As an attempt to improve matching efficiency, recent schema matching systems have been developed. However, they only consider simple matching. Therefore, discovering complex matching taking into ac- count schema matching scalability against both a large number of schemas and large-scale schemas is considered a real challenge. This thesis proposes a new matching approach, called sequence-based schema matching, to identify and discover both simple and complex matches in the large-scale XML schema context. The approach is based on exploiting the Pr¨ufer encoding method that constructs a one-to-one correspondence between schema trees and sequences. As a result of sequence- i based schema matching we develop two approaches in sequence. To begin with, we develop the XPr¨uM framework, which identifies and discovers simple (one-to-one) matches by representing schema trees as sequences. By exploiting this representation we capture both schema tree internal (semantic) information in the Label Pr¨ufer Sequence (LPS) and schema tree external (structural) information in the Number Pr¨ufer Sequence (NPS). Capturing both information in this efficient way provides and maximizes the possibility to get better matching results. To assess the internal similarity between XML schema elements, we develop a linguistic element matcher that exploits semantic information in LPSs, while to assess the structural similarity between schema elements, we propose a structure matcher that makes use of structural information in NPSs. Then, to cope with complex matches, we further enhance the XPr¨uM framework by introducing the concept of compatible elements. We also present two case studies where our sequence-based matching approach can be deployed. Moreover, the thesis introduces a new evaluation measure, cost-effectiveness, to consider both performance aspects: matching effectiveness and matching efficiency. The XPr¨uM and its enhancement frameworks as well as the two case studies have been designed, developed and implemented. The frameworks have been evaluated on vari- ous real world test cases with encouraging results, thus, empirically proving their benefits. ii Zusammenfassung Die eXtensible Markup Language (XML) hat sich durch ihre inh¨arente Eigenschaft der Selbstbeschreibung von Daten und die Flexibilit¨at bei der Organisation von Daten zum Industriestandard zur Darstellung und zum Austausch von Informationen zwischen ver- schiedenen Anwendungen im Web und in Organisationen entwickelt. Als Ergebnis w¨achst die Menge verf¨ugbarer (heterogener) XML-Daten rapide an, und die Notwendigkeit, hoch- performante Techniken zur Verwaltung dieser Daten zu entwickeln, steigt erheblich. Ein erster Schritt, um diese Daten zu verwalten, ist die Identifikation und Entdeckung se- mantischer Korrespondenzen innerhalb der XML-Daten. Der Prozess der Identifikation semantischer Korrespondenzen zwischen heterogenen XML-Daten wird als XML Schema Matching (dt. Schemaabgleich) bezeichnet. Allgemein hat Schema Matching eine zentrale Bedeutung f¨ur verschiedene Anwen- dungen gemeinsam genutzter XML-Daten, wie zum Beispiel bei der Integration, der Mi- gration oder dem Clustering von XML-Daten, in Peer-to-Peer-Systemen usw. Deshalb sind eine Vielzahl von Matching-Algorithmen und -Systemen entwickelt worden. Jedoch produzieren die meisten dieser Systeme Bewertungen f¨ur Schemaelemente, was nur zur Entdeckung einfacher (1:1) Abbildungen f¨uhrt. Solche Ergebnisse l¨osen das Problem aber nur teilweise. Um das Problem vollst¨andig zu l¨osen, sollte ein Matching-System komplexe und einfache Abbildungen entdecken. Eine weitere Dimension des Schema Matching, welche ber¨ucksichtigt werden muss, ist die Skalierbarkeit. Existierende Systeme verlassen sich entweder stark auf regelbasierte oder auf lernbasierte Ans¨atze. Regelbasierte Systeme repr¨asentieren abzubildende Schemata in einem gemeinsamen Datenmodell, zum Beispiel Schemab¨aume oder Schemagraphen. Anschliessend f¨uhren sie ihre Algorithmen auf dem gemeinsamen Datenmodell aus, welches ein mehrfaches Durchlaufen der Schemab¨aume (Schemagraphen) erfordert. Im Gegensatz dazu ben¨otigen Systeme, welche auf Lern- verfahren basieren, umfangreichen Aufwand zum Training der Learns. Als Konsequenz daraus verschlechtert sich insbesondere f¨ur grosse Schemata und in dynamischen Umge- bungen die Effizienz des Abgleichs radikal. Neuere Matching-Systeme setzen sich des wegen zum ziel, die Matching-Effizienz zu steigern. Aber auch diese betrachten nur ein- fache Abbildungen zwischen Schemaelementen. Deshalb stellt die Entdeckung komplexer Abbildungen bei gleichzeitiger Ber¨ucksichtigung der Skalierbarkeit sowohl bez¨uglich einer grossen Anzahl von Schemata als auch grosser Schemata eine wirkliche Herausforderung iii dar. Diese Arbeit schl¨agt einen neuartigen Matching-Ansatz vor, welcher als sequenz- basiertes Schema Matching bezeichnet wird und einfache und komplexe Abbildungen im Kontext grosser XML-Schemata identifiziert und entdeckt. Der Ansatz basiert auf der Verwendung von Pr¨ufer-Codes, welche eine 1:1-Korrespondenz zwischen Schemab¨aumen und Sequenzen konstruieren. F¨ur die Umsetzung des sequenzbasierten Matching en- twickeln wir zwei aufeinander aufbauende Ans¨atze. Zuerst entwickeln wir das XPr¨um- Framework, welches einfache (1:1) Abbildungen durch die Darstellung von Schemab¨aumen als Sequenzen identifiziert und entdeckt. Wir verwenden diese Darstellung f¨ur interne (se- mantische) Informationen in der Label Pr¨ufer Sequence (LPS, Folge der Knotenbezeich- nungen) und externe (strukturelle) Informationen in der Number Pr¨ufer Sequence (NPS, eigentlicher Pr¨ufer-Code) beider Schemab¨aume. Diese effiziente Darstellung beider Infor- mationen erm¨oglicht und maximiert die Wahrscheinlichkeit, bessere Matching-Ergebnisse zu erhalten. Um die innere Ahnlichkeit¨ zwischen XML-Schemaelementen zu berechnen, entwickeln wir einen linguistischen Element-Matcher, welcher semantische Informationen der zwei LPS nutzt, w¨ahrend zur Berechnung der strukturellen Ahnlichkeit¨ ein Matcher vorgestellt wird, welcher Strukturinformationen der NPS nutzt. Darauf aufbauend er- weitern wir das XPr¨um-Framework durch die Einf¨uhrung des Konzeptes der kompatiblen Elemente, um komplexe Abbildungen behandeln zu k¨onnen. Wir stellen ebenfalls zwei Fallstudien vor, in denen unser Matching-Verfahren ange- wandt werden kann. Dar¨uber hinaus f¨uhrt die Arbeit mit der Kosteneffektivit¨at ein neues Evaluationsmass ein, welches beide Performanzaspekte ber¨ucksichtigt: die Effektivit¨at und die Effizienz des Matching. Sowohl das erweiterte Framework XPr¨uM als auch die beiden Fallstudien wurden entworfen, entwickelt und implementiert. Die Frameworks wurden anhand verschiedener Realwelt-Testdatens¨atze mit ermutigenden Ergebnissen evaluiert, und dadurch wurde ihr Nutzen empirisch nachgewiesen. iv Acknowledgments In the name of Allah (GOD), Most Gracious, Most Merciful. It is my firm belief that this dissertation has never been completed without the help of GOD. My belief in God gave me hope during difficult times. Thanks to Allah. I would like to express my deep

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    222 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us