DISSERTATION Data Integration Against Multiple Evolving

1 DISSERTATION Data Integration against Multiple Evolving Autonomous Schemata ausgeführtzum Zwecke der Erlangung des akademischen Grades eines Doktors der technischen Wissenschaften unter der Leitung von o. Univ.-Prof. Dr. Robert Trappl Institut fürmedizinische Kybernetik und Artificial Intelligence UniversitätWien und UniversitätslektorDipl.-Ing. Dr. Paolo Petta Institut fürmedizinische Kybernetik und Artificial Intelligence UniversitätWien eingereicht an der Technischen UniversitätWien FakultätfürTechnische Naturwissenschaften und Informatik von CERN-THESIS-2001-036 //2001 Christoph Koch E9425227 A-1030 Wien, Beatrixgasse 26/70 Wien, am 2 3 Inhaltsangabe Forschung im Gebiet der Datenintegration hat u.a. Richtungen wie föderierteund Multidatenbanken, Mediation, Data Warehousing, Global Information Systems und Model Management bzw. Schema Matching zu Tage gebracht. Von einem architektonischen Standpunkt aus gesehen kann zwischen Ansätzenunterschieden werden, in denen gegen ein einziges globales Schema integriert wird, und solchen, wo das nicht der Fall ist. Auf der Ebene der Interschemasemantik kann man den Großteil der bisherigen Forschungsarbeit in die sogenannten global-as-view und local-as-view Ansätzeeinteilen. Diese Ansätzeunterscheiden sich teilweise stark in ihren individuellen Eigenschaften. FöderierteDatenbanken haben sich in Umgebungen als brauchbar erwiesen, in denen mehrere Informationssysteme miteinander Daten austauschen müssen, jedes dieser Informationssysteme aber sein eigenes Schema hat, und, was das Design dieses Schemas betrifft, auch autonom ist. In der Praxis unterstütztdieser Ansatz aber unangenehmerweise die Wartung von sich änderndenSchemata nicht. Andere bekannte Ansätze,die gegen ein \globales" Schema integrieren, unterstü- tzen hingegen die Design Autonomy von Informationssystemen nicht. Bei not- wendig werdenden Schemaänderungenführtdiese Art von Autonomie nämlich oft zu Schemata, gegen die die erwünschte Interschemasemantik weder durch global-as-view noch durch local-as-view-Ansätzeausgedrückt werden kann. Diese Problematik ist das Thema dieser Dissertation, in der ein neuer Ansatz zur Datenintegration, der Ideen von Model Management, Mediation, and local- as-view Integration vereint, vorgeschlagen wird. Unser Ansatz ermöglicht die Mo- dellierung von (partiellen) Abbildungen zwischen Schemata, die Anderungen¨ eine vorteilhafte Robustheit entgegensetzen. Die Motivation fürdie präsentierten Re- sultate ist Folge eines ausgedehnten Aufenthalts des Autors am CERN, während- dessen die die Informationsinfrastruktur betreffenden Ziele und Notwendigkeiten von großen wissenschaftlichen Kollaborationen studiert wurden. Unser Ansatz basiert auf zwei zentralen Grundlagen. Die erste ist Query Rewriting, also das Umschreiben von Abfragen, unter sehr ausdrucksstarken \symmetrischen" Interschemaabhängigkeiten, nämlich Inklusionsabhängigkeiten zwischen sogenannten Conjunctive Queries, die wir Conjunctive Inclusion Depen- dencies (cind's) nennen. Wir behandeln eine sehr allgemeine Form des Quellen- integrationsproblems, in dem mehrere Schemata koexistieren dürfen,und jedes davon sowohl echte Datenbankentititäten,fürdie also Daten vorhanden sind, sowie rein logische oder \virtuelle" Entititätenenthalten darf, gegen die mit Hilfe von cind's Abhängigkeiten von anderen Schemata definiert werden können.Das Query Rewriting Problem zielt nun darauf ab, eine Abfrage, die sowohl über logische als auch echte Entititäteneines Schemas gestellt werden darf, so in eine andere umzuschreiben, daß nur echte Datenbankentititäten,allerdings, wenn nötig,von allen dem Integrationssystem bekannten Schemata, verwendet werden. Exakter wird unter der klassisch-logischen Semantik mit Hilfe einer Menge 4 von cind's eine Conjunctive Query in eine maximale logisch enthaltene positive Abfrage umgeschrieben. Solch derart umgeschriebene Abfragen könnenmit Hilfe von bekannten Techniken aus dem Gebiet der verteilten Datenbanken beant- wortet werden. Aus theoretischen Uberlegungen,¨ die in dieser Dissertation näher erläutertwerden, beschränken wir uns dabei { fürdie Datenintegration { auf Mengen von cind's deren Abhängigkeitsgraph bezogen auf die Inklusionsrichtung der cind's azyklisch ist. Was das Query Rewriting Problem betrifft stellen wir zuerst Semantik(en) und theoretische Eigenschaften vor. Danach werden Algorithmen und Optimierungen, die auf Datenbanktechniken aufbauen, präsentiert, die in einem Prototypen im- plementiert wurden. Zu diesem werden auch passende Benchmarks geliefert, die zeigen sollen, daß unser Ansatz leistungsfähiggenug ist, um auch praktische Relevanz zu besitzen. Unser Ansatz skaliert ausgezeichnet zu großen Datenmengen, da das Daten- integrationsproblem ausschließlich auf der Ebene von Schemata und Abfragen, nicht aber auf der Ebene von Daten, gelöstwird. Eine weitere Stärke ist die hohe Ausdruckskraft unserer Abhängigkeiten (cind's), die viel Flexibilitätbei der Modellierung von Interschemabeziehungen erlaubt; beispielsweise sind sowohl local-as-view als auch global-as-view Integration Spezialfälleunseres Ansatzes. Wie auch gezeigt wird, erlaubt diese Flexibilität,Abbildungen zu erzeugen, die Anderungen¨ gegenüber robust sind, da sie es ermöglicht, cind's weitgehend un- abhängigvoneinander zu machen, sodaß notwendige Anderungen¨ meist lokal beschränktbleiben. Query Rewriting mit cind's ermöglicht es klarerweise auch, mit einer sehr großen Klasse von Disparitätenvon Konzepten umzugehen, da Paare von einander entsprechenden (um exakt zu sein, einander enhaltenden) Konzepten durch zwei in Relation gebrachte Conjunctive Queries ausgedrückt werden. Die zweite Grundlage stellt Model Management mit cind's dar. Im Model Management Ansatz werden Schemata und Abbildungen als Objekte mit Iden- titätverwaltet, auf die eine Anzahl von mächtigen Wartungs- und Manipulations- operationen angewandt werden kann. In dieser Dissertation werden solche Oper- ationen definiert, die dafürpassend sind, Abbildungen so zu verwalten, daß häufige Anderungen¨ handhabbar sind. Dazu wird auch eine Methodologie zum Management von Schema Evolution präsentiert. Die Kombination der technischen Beiträgedieser Dissertation ermöglicht eine deutliche Verbesserung von Offenheit und Flexibilitätfürdie AnsätzeModel Management und föderierte Datenbanken in der Datenintegration und stellt die erste praktische Lösungder Datenintegrationsprobleme dar, denen im Kontext von komplexen, autonomen und sich ändernden Informationslandschaften, wie es große wissenschaftliche Kollaborationen sind, begegnet wird. 5 Abstract Research in the area of data integration has resulted in approaches such as federated and multidatabases, mediation, data warehousing, global information systems, and the model management/schema matching approach. Architecturally, approaches can be categorized into those that integrate against a single global schema and those that do not, while on the level of inter-schema constraints, most work can be classified either as so-called global-as-view or as local-as-view integration. These approaches differ widely in their strengths and weaknesses. Federated databases have been found applicable in environments in which several autonomous information systems coexist { each with their individual schemata { and need to share data. However, this approach does not provide sufficient support for dealing with change of schemata and requirements. Other approaches to data integration which are centered around a single \global" integration schema, on the other hand, cannot handle design autonomy of information systems. Under evolution, this type of autonomy eventually leads to schemata between which neither the global-as-view nor the local-as-view approaches to source integration can be used to express the inter-schema semantics. In this thesis, this issue is addressed with a novel approach to data integration which combines techniques from model management, mediation, and local-as- view integration. It allows for the design of inter-schema mappings that are more robust when change occurs. The work has been motivated by the requirements of large scientific collaborations in high-energy physics, as encountered by the author during his stay at CERN. The approach presented here is based on two foundations. The first is query rewriting with very expressive symmetric inter-schema constraints, called conjunctive inclusion dependencies (cind's). These are containment relationships between conjunctive queries. We address a very general form of the source integration problem, in which several schemata may coexist, each of them containing a number of purely logical as well as a number of source entities. For the source entities, the information system that belongs to the schema holds data, while the logical entities are meant to allow schema entities from other information systems to be integrated against. The query rewriting problem now aims at rewriting a query over (possibly) both source and logical schema entities of one schema into source entities only, which may be part of any of the schemata known. Under the classical logical semantics, and given a conjunctive input query, we address the problem of finding maximally contained positive rewritings under a set of cind's. Such rewritten queries can then be optimized and efficiently answered using classical distributed database techniques. For the purpose of data integration and the sake of computability, we require the dependency graph of a set

DISSERTATION Data Integration Against Multiple Evolving

Max Pellert: CV

The Agentlink III Technical Forums: Introduction to the Special Issue

Agent-Directed Simulation Symposium (ADSS'08) Scientific Committee

Motivating Dramatic Interactions

CV (Curriculum Vitae)

Conference Committees

Editorial Paolo Petta

Österreichisches Forschungsinstitut Für / Austrian Research Institute for / Artiﬁcial Intelligence

The Agentlink III Technical Forums

Masterarbeit / Master's Thesis

Modeling the Cognitive Antecedents and Consequences of Emotion

Confederation of Laboratories for AI Research in Europe (CLAIRE) The