DISSERTATION Data Integration Against Multiple Evolving
Total Page:16
File Type:pdf, Size:1020Kb
1 DISSERTATION Data Integration against Multiple Evolving Autonomous Schemata ausgef¨uhrtzum Zwecke der Erlangung des akademischen Grades eines Doktors der technischen Wissenschaften unter der Leitung von o. Univ.-Prof. Dr. Robert Trappl Institut f¨urmedizinische Kybernetik und Artificial Intelligence Universit¨atWien und Universit¨atslektorDipl.-Ing. Dr. Paolo Petta Institut f¨urmedizinische Kybernetik und Artificial Intelligence Universit¨atWien eingereicht an der Technischen Universit¨atWien Fakult¨atf¨urTechnische Naturwissenschaften und Informatik von CERN-THESIS-2001-036 //2001 Christoph Koch E9425227 A-1030 Wien, Beatrixgasse 26/70 Wien, am 2 3 Inhaltsangabe Forschung im Gebiet der Datenintegration hat u.a. Richtungen wie f¨oderierteund Multidatenbanken, Mediation, Data Warehousing, Global Information Systems und Model Management bzw. Schema Matching zu Tage gebracht. Von einem architektonischen Standpunkt aus gesehen kann zwischen Ans¨atzenunterschieden werden, in denen gegen ein einziges globales Schema integriert wird, und solchen, wo das nicht der Fall ist. Auf der Ebene der Interschemasemantik kann man den Großteil der bisherigen Forschungsarbeit in die sogenannten global-as-view und local-as-view Ans¨atzeeinteilen. Diese Ans¨atzeunterscheiden sich teilweise stark in ihren individuellen Eigenschaften. F¨oderierteDatenbanken haben sich in Umgebungen als brauchbar erwiesen, in denen mehrere Informationssysteme miteinander Daten austauschen m¨ussen, jedes dieser Informationssysteme aber sein eigenes Schema hat, und, was das Design dieses Schemas betrifft, auch autonom ist. In der Praxis unterst¨utztdieser Ansatz aber unangenehmerweise die Wartung von sich ¨anderndenSchemata nicht. Andere bekannte Ans¨atze,die gegen ein \globales" Schema integrieren, unterst¨u- tzen hingegen die Design Autonomy von Informationssystemen nicht. Bei not- wendig werdenden Schema¨anderungenf¨uhrtdiese Art von Autonomie n¨amlich oft zu Schemata, gegen die die erw¨unschte Interschemasemantik weder durch global-as-view noch durch local-as-view-Ans¨atzeausgedr¨uckt werden kann. Diese Problematik ist das Thema dieser Dissertation, in der ein neuer Ansatz zur Datenintegration, der Ideen von Model Management, Mediation, and local- as-view Integration vereint, vorgeschlagen wird. Unser Ansatz erm¨oglicht die Mo- dellierung von (partiellen) Abbildungen zwischen Schemata, die Anderungen¨ eine vorteilhafte Robustheit entgegensetzen. Die Motivation f¨urdie pr¨asentierten Re- sultate ist Folge eines ausgedehnten Aufenthalts des Autors am CERN, w¨ahrend- dessen die die Informationsinfrastruktur betreffenden Ziele und Notwendigkeiten von großen wissenschaftlichen Kollaborationen studiert wurden. Unser Ansatz basiert auf zwei zentralen Grundlagen. Die erste ist Query Rewriting, also das Umschreiben von Abfragen, unter sehr ausdrucksstarken \symmetrischen" Interschemaabh¨angigkeiten, n¨amlich Inklusionsabh¨angigkeiten zwischen sogenannten Conjunctive Queries, die wir Conjunctive Inclusion Depen- dencies (cind's) nennen. Wir behandeln eine sehr allgemeine Form des Quellen- integrationsproblems, in dem mehrere Schemata koexistieren d¨urfen,und jedes davon sowohl echte Datenbankentitit¨aten,f¨urdie also Daten vorhanden sind, sowie rein logische oder \virtuelle" Entitit¨atenenthalten darf, gegen die mit Hilfe von cind's Abh¨angigkeiten von anderen Schemata definiert werden k¨onnen.Das Query Rewriting Problem zielt nun darauf ab, eine Abfrage, die sowohl ¨uber lo- gische als auch echte Entitit¨ateneines Schemas gestellt werden darf, so in eine andere umzuschreiben, daß nur echte Datenbankentitit¨aten,allerdings, wenn n¨otig,von allen dem Integrationssystem bekannten Schemata, verwendet wer- den. Exakter wird unter der klassisch-logischen Semantik mit Hilfe einer Menge 4 von cind's eine Conjunctive Query in eine maximale logisch enthaltene positive Abfrage umgeschrieben. Solch derart umgeschriebene Abfragen k¨onnenmit Hilfe von bekannten Techniken aus dem Gebiet der verteilten Datenbanken beant- wortet werden. Aus theoretischen Uberlegungen,¨ die in dieser Dissertation n¨aher erl¨autertwerden, beschr¨anken wir uns dabei { f¨urdie Datenintegration { auf Mengen von cind's deren Abh¨angigkeitsgraph bezogen auf die Inklusionsrichtung der cind's azyklisch ist. Was das Query Rewriting Problem betrifft stellen wir zuerst Semantik(en) und theoretische Eigenschaften vor. Danach werden Algorithmen und Optimierungen, die auf Datenbanktechniken aufbauen, pr¨asentiert, die in einem Prototypen im- plementiert wurden. Zu diesem werden auch passende Benchmarks geliefert, die zeigen sollen, daß unser Ansatz leistungsf¨ahiggenug ist, um auch praktische Relevanz zu besitzen. Unser Ansatz skaliert ausgezeichnet zu großen Datenmengen, da das Daten- integrationsproblem ausschließlich auf der Ebene von Schemata und Abfragen, nicht aber auf der Ebene von Daten, gel¨ostwird. Eine weitere St¨arke ist die hohe Ausdruckskraft unserer Abh¨angigkeiten (cind's), die viel Flexibilit¨atbei der Modellierung von Interschemabeziehungen erlaubt; beispielsweise sind sowohl local-as-view als auch global-as-view Integration Spezialf¨alleunseres Ansatzes. Wie auch gezeigt wird, erlaubt diese Flexibilit¨at,Abbildungen zu erzeugen, die Anderungen¨ gegen¨uber robust sind, da sie es erm¨oglicht, cind's weitgehend un- abh¨angigvoneinander zu machen, sodaß notwendige Anderungen¨ meist lokal beschr¨anktbleiben. Query Rewriting mit cind's erm¨oglicht es klarerweise auch, mit einer sehr großen Klasse von Disparit¨atenvon Konzepten umzugehen, da Paare von einander entsprechenden (um exakt zu sein, einander enhaltenden) Konzepten durch zwei in Relation gebrachte Conjunctive Queries ausgedr¨uckt werden. Die zweite Grundlage stellt Model Management mit cind's dar. Im Model Management Ansatz werden Schemata und Abbildungen als Objekte mit Iden- tit¨atverwaltet, auf die eine Anzahl von m¨achtigen Wartungs- und Manipulations- operationen angewandt werden kann. In dieser Dissertation werden solche Oper- ationen definiert, die daf¨urpassend sind, Abbildungen so zu verwalten, daß h¨aufige Anderungen¨ handhabbar sind. Dazu wird auch eine Methodologie zum Management von Schema Evolution pr¨asentiert. Die Kombination der technischen Beitr¨agedieser Dissertation erm¨oglicht eine deutliche Verbesserung von Offenheit und Flexibilit¨atf¨urdie Ans¨atzeModel Management und f¨oderierte Datenbanken in der Datenintegration und stellt die erste praktische L¨osungder Datenintegrationsprobleme dar, denen im Kontext von komplexen, autonomen und sich ¨andernden Informationslandschaften, wie es große wissenschaftliche Kollaborationen sind, begegnet wird. 5 Abstract Research in the area of data integration has resulted in approaches such as fed- erated and multidatabases, mediation, data warehousing, global information sys- tems, and the model management/schema matching approach. Architecturally, approaches can be categorized into those that integrate against a single global schema and those that do not, while on the level of inter-schema constraints, most work can be classified either as so-called global-as-view or as local-as-view integration. These approaches differ widely in their strengths and weaknesses. Federated databases have been found applicable in environments in which several autonomous information systems coexist { each with their individual schemata { and need to share data. However, this approach does not provide sufficient support for dealing with change of schemata and requirements. Other approaches to data integration which are centered around a single \global" inte- gration schema, on the other hand, cannot handle design autonomy of information systems. Under evolution, this type of autonomy eventually leads to schemata between which neither the global-as-view nor the local-as-view approaches to source integration can be used to express the inter-schema semantics. In this thesis, this issue is addressed with a novel approach to data integration which combines techniques from model management, mediation, and local-as- view integration. It allows for the design of inter-schema mappings that are more robust when change occurs. The work has been motivated by the requirements of large scientific collaborations in high-energy physics, as encountered by the author during his stay at CERN. The approach presented here is based on two foundations. The first is query rewriting with very expressive symmetric inter-schema constraints, called con- junctive inclusion dependencies (cind's). These are containment relationships between conjunctive queries. We address a very general form of the source inte- gration problem, in which several schemata may coexist, each of them containing a number of purely logical as well as a number of source entities. For the source entities, the information system that belongs to the schema holds data, while the logical entities are meant to allow schema entities from other information systems to be integrated against. The query rewriting problem now aims at rewriting a query over (possibly) both source and logical schema entities of one schema into source entities only, which may be part of any of the schemata known. Under the classical logical semantics, and given a conjunctive input query, we address the problem of finding maximally contained positive rewritings under a set of cind's. Such rewritten queries can then be optimized and efficiently answered using clas- sical distributed database techniques. For the purpose of data integration and the sake of computability, we require the dependency graph of a set