Transactional Process Management Over Component Systems

Diss. ETH No. 13976 Transactional Process Management over Component Systems A dissertation submitted to the Swiss Federal Institute of Technology Zurich for the degree of Doctor of Technical Sciences presented by Heiko Schuldt Diplom-Informatiker, UniversitätKarlsruhe born October 20, 1969 citizen of Germany Accepted on the recommendation of Prof. Dr. H.-J. Schek, examiner Prof. Dr. G. Alonso, co-examiner 2000 Geleitwort Die Arbeit von Heiko Schuldt ist transaktionellen Prozessen gewidmet, die oberhalb von Komponenten–Systemen angesiedelt sind und daher diese Komponenten systemübergreifend verbinden. Dies ist ein sehr aktuelles Thema und ich möchte dazu einige übergeordnete Gesichts- punkte darstellen. Anwendungsentwicklung mit Zugriff auf grosse Datenmengen findet heute nicht mehr, wie es der klassischen Lehrmeinung entspricht, auf der Basis eines einzigen Datenbank- systems statt, in dem ein unternehmensweites, für alle Anwendungen verbindliches Datenmodell vorliegt. Vielmehr möchte man Anwendungen entwickeln, die in zusammengesetzten Systemen ablaufen, wobei die Komponenten wieder Datenbanksysteme sein können, oder auch allgemeiner als Ressourcen–Verwalter oder Dienstanbieter auftreten. Manche sprechen auch von “Megaprogram- mierung” (Wiederhold, Stanford). Es geht in allen Fällen um die Verwendung, also das Aufrufen und Ausführen wohlverstandener Bausteine und um deren Zusammenfügenzu einer wohldefinierten grösseren Einheit. Hierfür hat man auch Begriffe wie Workflow–Management oder Prozessmanage- ment eingeführt und stellt sich solche neuen Plattformen für zukünftige Anwendungsentwicklung als Bestandteil einer Middleware–Schicht in einer mehrstufigen Systemarchitektur vor. In einer solchen Umgebung besteht daher ein Programm auch nicht mehr nur aus einer Transaktion oder aus einer Sequenz von Transaktionen, die alle auf der gleichen Datenbank ausgeführt werden. Vielmehr werden viele Transaktionen als Bausteine, als “Schritte” oder “Aktivitäten”zu einem transaktionellen Prozess zusammengefasst, der in mehreren Datenbanksystemen ausgeführt wird und durch einen Transaktionskoordinator überwacht wird. Einzelne Schritte in gewissen Kompo- nentensystemen können erfolgreich durchgeführt werden, bei anderen können sich Ausnahme– oder Fehlersituation einstellen. Je nach Erfolg oder Misserfolg der bislang gestarteten Schritte ergibt sich die Notwendigkeit, weitere Transaktionen, darunter auch Kompensationstransaktionen, zur Ausführung zu bringen oder alternative Schritte auszuführen. In jedem Fall, auch im Fehlerfall, soll ein transaktioneller Prozess zu einem wohldefinierten, vorgesehenen Ende führen. Zwischen den einzelnen Schritten eines transaktionellen Prozesses gibt es Abhängigkeiten, die berücksichtigt werden müssen. Beispielsweise möchte man garantieren, dass zwei Schritte innerhalb eines Prozesses entweder sequentiell ausgeführt werden müssen, oder dass bei paralleler Ausführung die Richtung eines möglichen Informationsflusses vorgeschrieben ist. Weitere Eigenschaften einzelner Schritte wie Kompensierbarkeit oder Wiederholbarkeit müssen berücksichtigt werden. So macht es z.B. keinen Sinn, die Ausführung eines Schrittes zu beenden, wenn nicht sicher ist, ob man diesen Schritt wieder rückgängig machen kann. Auch Interprozess–Abhängigkeiten, also Abhängigkeiten zwischen parallel laufenden Prozessen erfordern Koordinationsmassnahmen. So muss garantiert werden, dass ein zweiter Prozess nie einen nicht–kompensierbaren Schritt ausführt, wenn eine Abhängigkeit von einem kompensierbaren Schritt eines anderen transaktionellen Prozesses besteht, dessen Ausgang noch ungewiss ist. Dagegen kann eine Abhängigkeit von einem nicht–kompensierbaren Schritt eines anderen Prozesses durchaus erlaubt werden. v vi Geleitwort Die Ahnlichkeiten¨ aber auch die Unterschiede zu der Laufzeitumgebung eines Datenbanksystems werden deutlich: Die Schritte einer DB–Transaktion sind Lese– oder Schreiboperationen auf persistenten Speicherobjekten. Ein Schritt eines transaktionellen Prozesses dagegen ist eine Aktivität,die als DB–Transaktion auf einer DB–Komponente ausgeführt wird. Jede Aktion einer DB–Transaktion ist kompensierbar. Dagegen kann ein Schritt eines transaktionellen Prozesses entweder kompensierbar oder wiederholbar oder beides sein, oder er ist ein “Pivotschritt”, d.h. weder kompensierbar noch wiederholbar. Bei einer DB–Transaktion gibt es zwei wohldefinierte Ausgänge,den erfolgreichen Abschluss oder den Abbruch, der keine Spuren hinterlässt. Diese bei- den Ausgängewerden einem Programmierer garantiert. In einem transaktionellen Prozess dagegen werden weitere Ausgängegarantiert, die durch den Programmierer durch alternative Ausführungen spezifiziert werden. In Analogie zu Datenbanken kann man daher auch von der Weiterentwicklung der Datenbank- technologie auf höherer Ebene sprechen, von der aus man nicht Daten, sondern ganze Daten- banken anspricht und durch transaktionelle Prozesse als verallgemeinerte Transaktionen Garantien für die korrekte Ausführung in mehreren Komponentensystemen bekommt. Die Infrastruktur heute verfügbarer Middleware–Produkte in Form von Transaktionsmonitoren oder Transaktions- servern, etwa auch in COM+, ist hinsichtlich der oben aufgestellten Forderungen recht bescheiden. Man bekommt lediglich verteilte DB–Transaktionen, die durch ein Zweiphasen–Commit–Protokoll koordiniert werden. Es gibt daher nur eine “Alles–oder–Nichts”–Garantie, keine Alternativen und daher keine flexible Fehlerbehandlung, keine Berücksichtigung von Kompensations– oder Wiederholungsaktivitäten, keine Berücksichtigung semantischer Kommutativitätund daher keine Unterstützung offen geschachtelter Transaktionen. Diese unbefriedigende Situation zu ändern, bedurfte einer Reihe grundlagenorientierter Arbeiten, auf denen die Arbeit Schuldt zunächst aufsetzt und die er sehr gekonnt und überzeugend weiter- entwickelt hat. In den Kernkapiteln der Arbeit stellt H. Schuldt präzise aber ohne übertrie- benen Formalismus dar, was man genau unter einem transaktionellen Prozesse versteht. Er unterscheidet folgerichtig “Process Program” als Spezifkation eines transaktionellen Prozesses von seiner Ausführung, die er kurz “Process” nennt. Das “Process Program” ist die statische Spezifikation eines Prozesses, die man vor der Ausführung auf Wohlgeformtheit überprüfen möchte. Hierbei wird festgestellt, ob die Spezifikation erlaubt, einen der gewünschten alternativen Ausgängezu erreichen, wobei man die Terminierungseigenschaften der einzelnen verwendeten Aktivitäten in Betracht zieht. Die Definition der korrekten parallelen Ausführung eines oder mehrerer Prozesse ist dann die konsequente Verallgemeinerung eines traditionellen Transaktionsschedulers. Neu wird jetzt nicht nur die Kommutativitätvon Aktivitäteneingebracht, sondern der Scheduler bekommt auch die Kenntnis über die Kompensation einer ausgeführten Aktivitätund die Terminierungs- eigenschaft einer Aktivität. H. Schuldt hat diese Grundlagen äusserst sorgfältig und ausführlich zusammengestellt und das sehr erwünschte Ziel erreicht, unter präzisegegebenen Voraussetzungen zu beweisen, dass mit seinem Prozess–Scheduler alle parallel ausgeführten Prozesse garantiert ter- minieren und korrekt ausgeführt werden. Die Theorie hierzu ist leider nicht sehr einfach, aber H. Schuldt geht sehr konsequent vor und unterscheidet sorgfältig mehrere mögliche Korrektheits- kriterien, die sich vor allem durch die Behandlung der Recovery, d.h. durch die Berücksichtigung von Fehlerfällen unterscheiden. Man sieht deutlich, dass die Theorie hierdurch sehr viel komplizierter wird als nur durch das alleinige Behandeln der Korrektheit paralleler Ausführung. Selbst dies wird bei transaktionellen Prozessen komplexer, weil beispielsweise im Konfliktfall ein einzelner Prozess eine alternative Ausführung einschlagen kann. Im traditionellen Modell dagegen ist hier nur ein vollständiges Rücksetzen möglich. Geleitwort vii Nach dieser wichtigen Grundlagenarbeit kommt der Informatik–Ingenieur Schuldt zum Zug. Er gibt Protokolle an, die relativ einfach zu implementieren sind. Sehr bemerkenswert ist dabei die Ver- wendung eines Protokolls von El Abbadi, das unter dem Namen “Ordered Shared Locks” bekannt geworden ist. H. Schuldt sieht aber bei der Anwendung dieses Protokolls allein Nachteile und kom- biniert dieses geschickt mit Zeitstempelverfahren. Er entwickelt daher beinahe so nebenbei auch ein neues Lock–Protokoll und baut geschickt die Terminierungseigenschaften in dieses Protokoll ein. H. Schuldt gibt sich ausserdem nicht damit zufrieden, dass eine Aktivitätbeispielsweise kompensierbar ist oder nicht. Vielmehr schlägter vor, Ausführungskosten, insbesondere auch Kosten für die Kompensation zu berücksichtigen und damit den Scheduler “kostenbewusst” arbeiten zu lassen. Diese Idee ist deswegen bemerkenswert, weil in der Vergangenheit ein unnötiger Streit entstand über die Frage, ob man denn immer eine Kompensation habe. Im neuen Modell hat man immer eine Kompensation, nur kann sie sehr teuer sein, so teuer, dass sich ihre Ausführung aus Kostengründen verbietet. Es sind damit die Voraussetzungen geschaffen fürzukünftige Produkte, die einen solchen Prozess- manager und daher eine deutlich bessere Infrastruktur fürdie Entwicklung verteilter Anwendungen zur Verfügung stellen, in der flexible Ausführung mit Ausführungsgarantie ermöglicht werden kann. Zürich, den 28. Februar 2001 Prof. H.-J. Schek Vorwort Die vorliegende Dissertation entstand währendmeiner

Load more