Efficient and Consistent Transaction Processing in Wireless Data
Total Page:16
File Type:pdf, Size:1020Kb
Efficient and Consistent Transaction Processing in Wireless Data Broadcast Environments Dissertation zur Erlangung des akademischen Grades des Doktors der Naturwissenschaften an der Universitat¨ Konstanz Fachbereich Informatik und Informationswissenschaft vorgelegt von Andre´ Seifert Begutachtet von 1. Referent: Prof. Dr. Marc H. Scholl, Universitat¨ Konstanz 2. Referent: Prof. Dr. Daniel A. Keim, Universitat¨ Konstanz Tag der Einreichung: 05.01.2005 Tag der mundlichen¨ Prufung:¨ 27.04.2005 ii “Mit Worten verhalt¨ es sich wie mit Son- nenstrahlen — je mehr man sie konden- siert, um so tiefer dringen diese.” – Robert Southey Zusammenfassung Die hybride, d.h., push- und pull-basierte Datenkommunikationsmethode wird sich wahrscheinlich als primarer¨ Ansatz fur¨ die Verteilung von Massendaten an große Benutzergruppen in mobilen Umgebungen durchsetzen. Eine wesentliche Aufgabenstellung innerhalb hybrider Datenkommuni- kationsnetze ist es, Klienten einen konsistenten und aktuellen Blick auf die vom Server entweder uber¨ einen Breitband-Broadcastkanal oder mehrere dedizierte Schmallband-Unicastkanale¨ bereit- gestellten Daten zu geben. Ein ebenso wichtiges Forschungsgebiet innerhalb hybrider Datenkom- munikationssysteme stellt die Pufferverwaltung der mobilen Endgerate¨ dar, welche die Diskrepanz zwischen der Struktur und dem Inhalt des Broadcast-Programmes und den klienten-spezifischen Informationsbedurfnissen¨ und Datenzugriffsmustern aufzulosen¨ versucht. Weiterhin kommt dem Klientenpuffer die Aufgabe zu, die sequentielle Zugriffscharakteristik des Broadcastkanals weitge- hend zu verbergen und er kann daruberhinaus¨ als Speicherort verwendet werden, um veraltete — aber fur¨ den Klienten immer noch nutzliche¨ — Datenobjekte vorzuhalten, die demnachst¨ vom Ser- ver physikalisch geloscht¨ werden sollen oder dort bereits geloscht¨ worden sind. Die vorliegende Dissertation stellt zunachst¨ verschiedene drahtlose Netzwerktypen vor, welche derzeit zur mobilen Datenkommunikation zur Verfugung¨ stehen und zeigt anschließend, daß die Mehrheit heutiger drahtloser Netze uber¨ eine Asymmetrie in der Bandbreitenkapazitat,¨ dem Daten- volumen sowie der Servicelast verfugt.¨ Es wird aufgezeigt, daß die hybride Datenkommunikation, welche die traditionelle Pull- und die relativ neue Pushtechnik vereint, eine attraktive Kommunika- iii iv Zusammenfassung tionsvariante zur Schaffung skalierbarer und flexibler mobiler Datendienste darstellt. Es folgt ein kurzer Uberblick¨ uber¨ die verschiedenen umweltbezogenen und systemimmanenten Einschrankun-¨ gen, welche mobile Computersysteme ausgesetzt sind und wir schlussfolgern daraufhin, daß es in mobilen drahtlosen Umgebungen wesentlich schwieriger als in traditionellen stationaren¨ Da- tenubertragungsnetzen¨ ist, gute Performanceergebnisse in Verbindung mit starken semantischen Konsistenzgarantien fur¨ Transaktionen zu erreichen. Im gleichen Zuge werden mogliche¨ Techniken prasentiert,¨ um Datenkonflikte zwischen parallel laufenden Transaktionen zu vermeiden bzw. de- ren Anzahl zu verringern und es werden Moglichkeiten¨ vorgestellt, wie Datenkonflikte erkannt und aufgelost¨ werden konnen.¨ Wenn man hybride Datenkommunikationsnetze mit hoher Performance, Skalierbarkeit und Verlasslichkeit¨ entwerfen und realisieren mochte¨ und daruber¨ hinaus auch noch strenge Anforderungen an die Datenkonsistenz und -aktualitat¨ des Systems stellt, mussen¨ — neben der Transaktionskontrolle — diverse andere performance- und missionskritische Aspekte betrachtet werden. Um dieser Forderung nachzukommen, beschaftigt¨ sich die Arbeit u.a. mit den Themen des Broadcast-Schedulings und der Broadcast-Indexierung und es werden hierzu in der Literatur vorgeschlagene Ansatze¨ prasentiert¨ sowie evaluiert. Im Anschluß an die Darlegung der praktischen Notwendigkeit und dem zunehmenden Interesse an der Gewahrleistung¨ einer zeitnahen und konsistenten Bereitstellung von Masseninformation uber¨ mobile Breitband-Broadcastkanale,¨ schließt sich eine Diskussion uber¨ die Herausforderungen und vielfaltigen¨ Probleme, welche hiermit verbunden sind, an. In diesem Zusammenhang wird behaup- tet, daß die momentan vorhandenen Definitionen von Isolationsgraden nicht fur¨ die Implementation von Transaktionsprotokollen, welche fur¨ Nur-Lese-Transaktionen kreiert werden, geeignet sind, da diese eventuell ungewollte — obwohl korrekte — Datenzugriffe aufgrund nicht vorhandener Da- tenaktualitatsgarantien¨ erlauben. Um diesem Problem Abhilfe zu schaffen, werden vier neue Isola- tionsgrade, welche zahlreiche nutzliche¨ Datenkonsistenz- und -aktualitatsgarantien¨ fur¨ Nur-Lese- Transaktionen zur Verfugung¨ stellen, definiert und es werden geeignete Implementierungen dieser Isolationsgrade fur¨ hybride Datenkommunikationsnetze prasentiert.¨ Um Performanceunterschiede zwischen den neu definierten Isolationsgraden bzw. Protokollen zu ermitteln, wurden zahlreiche empirische Experimente durchgefuhrt,¨ welche zeigen, daß der Strict Forward BOT View Consi- v stency Isolationsgrad und seine Implementation, welche die Bezeichnung MVCC-SFBVC tragt,¨ die besten Performanceergebnisse unter den verglichenen Transaktionsprotokollen erzielt. Um die Antwortzeiten von mobilen Anwendungen zu verkurzen¨ und um eine hohe Skalierbar- keit von hybriden Datenkommunikationssystemen zu erreichen, spielt die Pufferverwaltung der mobilen Klienten (d.h. Endgeraten)¨ eine wesentliche, wenn nicht die entscheidende Rolle. Da existierende Pufferverwaltungsstrategien nur eine ungenugende¨ Unterstutzung¨ fur¨ Mehrversions- Transaktionsprotokolle bieten, stellt diese Arbeit eine neue Pufferersetzungs- und -vorabrufstrategie vor, welche den Namen MICP tragt.¨ Das Acronym MICP steht dabei fur¨ Multi-version Inte- grated Caching und Prefetching und stellt eine hybride Pufferverwaltungsmethode dar, welche sowohl Datenseiten als auch Datenobjekte verwalten kann. Wahrend¨ Datenseiten nach dem tra- ditionellen LRU-Verfahren ersetzt werden, fuhrt¨ das MICP-Verfahren Objektersetzungs- und - vorabrufentscheidungen auf der Basis zahlreicher performance-kritischer Informationen durch, wo- zu u.a. die Aktualitat¨ und Haufigkeit¨ vorangegangener Objektzugriffe, die prognostizierte Ande-¨ rungswahrscheinlichkeit der gespeicherten Datenobjekte sowie deren Wiederbeschaffungskosten zahlen.¨ Um auf bestimmte speicherungsrelevante Ereignisse, wie z.B., daß bestimmte gespeicherte Objektversionen fur¨ die Ausfuhrung¨ der momentan laufenden Transaktion(en) nutzlos geworden sind, reagieren zu konnen,¨ ist der MICP-Puffermanager eng an den Transaktionmanager gekop- pelt. Um zu vermeiden, daß nutzliche¨ — jedoch nicht-wiederbeschaffbare — Objektversionen mit wiederbeschaffbaren Objektversionen um verfugbare¨ Pufferressourcen konkurrieren mussen,¨ teilt das MICP-Verfahren den vorhandenen Speicherplatz des Klientenpuffers in zwei unterschiedlich große Segmente auf: die sogenannte REC- und NON-REC-Partition. Zur Beurteilung der Effizi- enz der MICP-Puffermanagementstrategie wurden umfangreiche Simulationsstudien durchgefuhrt,¨ welche zeigen, daß mobile Klienten, die nicht das MICP-Verfahren zur Ausfuhrung¨ von Nur-Lese- Transaktionen einsetzen, einen durchschnittlichen Performanceverlust von etwa 19% erleiden. Schließlich widmet sich die Arbeit dem Problem, Serialisierbarkeit von Lese-Schreib- Transaktionen in Verbindung mit guten Antwortzeiten und einer niedrigen Transaktionsabbruchs- rate in hybriden drahtlosen Datenkommunikationsnetzen zu erreichen. Um diese Ziele zu verwirk- lichen, stellt die Arbeit eine Familie von funf¨ Mehrversions-Transaktionsprotokollen vor, die den vi Zusammenfassung Namen MVCC-* tragt.¨ Die einzelnen Protokolle der MVCC-*-Familie unterscheiden sich dabei hinsichtlich der Scheduling-Performance, den Datenaktualitatsgarantien¨ , welche den Leseopera- tionen der Transaktionen zugesichert werden, sowie der Speicher- und Zeitkomplexitat¨ . Es wer- den die Performanceabweichungen zwischen den einzelnen Protokollen der MVCC-*-Familie, welche aufgrund unterschiedlicher Datenaktualitatsgarantien¨ und Schedulingentscheidungen ent- stehen, quantifiziert und außerdem werden die Performanceergebnisse mit denen, welche fur¨ das bekannte Snapshot Isolation Protokoll entstehen, verglichen. Da die MVCC-*-Protokollfamilie fur¨ Schedulingentscheidungen nur einfache Lese- und Schreiboperationen zur Laufzeit und keine semantischen Informationen uber¨ ihre zugrunde liegenden Transaktionen verwendet, skizziert und evaluiert die Arbeit diverse Moglichkeiten,¨ welche die vorgeschlagenen Transaktionsprotokolle er- weitern, um Datenkonflikte zu vermeiden bzw. zu reduzieren. Hierzu gehort¨ u.a. die Spezifikation von alternativen Schreiboperationen fur¨ ursprungliche¨ Anderungsoperationen,¨ die Reduktion der Datengranularitat¨ auf welcher die Transaktionskontrolle basiert sowie die Erhohung¨ der Anzahl der vom System vorgehaltenen Versionen der Datenobjekte. Anschließend wird verdeutlicht, daß die MICP-Pufferverwaltungsstrategie auch dann dem LRFU-Verfahren bezuglich¨ der Pufferper- formance uberlegen¨ sein kann, wenn diese in Verbindung mit der Ausfuhrung¨ von Lese-Schreib- Transaktionen eingesetzt wird. “It is with words as with sunbeams — the more they are condensed, the deeper they burn.” – Robert Southey Abstract Hybrid, i.e., push and pull-based, data delivery is likely to become a method of choice for the dis- tribution of information to a large user population in many new mobile and stationary applications. One of the major issues in hybrid data delivery networks is to provide clients with a consistent and current view