Folien Zur Vorlesung Sortierverfahren

Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Sortierverfahren Einleitung Lutz Wegner 17. April 2014 1 / 34 Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Inhaltsverzeichnis 1 Einleitung Warum Sortierverfahren? Sortieren und Suchen als algorithmische Herausforderung 2 Modellannahmen Ein realistisches Modell Offen gelassene Punkte 3 Internes vs Externes Sortieren Internes Sortieren (Hauptspeichersort) Externes Sortieren (Plattensortierung) 4 Qualitätsbeurteilungen Asymptotische und gemessene Laufzeiten Zusätzlicher Platz Stabilität und Smoothness Praktische Ub¨ erlegungen Taxonomie 5 Leistungsnachweis Ihre Aufgabe 2 / 34 Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Warum Sortierverfahren? Einer Studie aus den Achtzigern zufolge verbringen Mainframes 25 % ihrer CPU-Zeit mit Sortiervorgängen. Betrachte hierzu Join und Projektion in Datenbanken. select STUDENTS.NAME, COURSE, DEPT from SIGN_UP, STUDENTS where SIGN_UP.NAME = STUDENTS.NAME 3 / 34 Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Tabelle 1: SIGN UP Tabelle 2: STUDENTS NAME COURSE NAME SEM DEPT Jones ALG+DS Smith 1 CSC Smith DB1 Miller 5 MATH Miller ALG+DS Jones 1 MATH Smith PROG1 Clark 3 CSC Clark DB1 Jones PROG1 Tabelle 3: SIGN UP ./ STUDENTS NAME COURSE DEPT Jones ALG+DS MATH Smith DB1 CSC Miller ALG+DS MATH Smith PROG1 CSC Clark DB1 CSC Jones PROG1 MATH 4 / 34 Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Das Datenbankbeispiel deutet auch an, wie wichtig die Erkennung und Eliminierung von Duplikaten ist, z. B. nach einer Projektion auf NAME im Ergebnis oben, wenn im SQL-Befehl die DISTINCT-Klausel enthalten war. Indeed, I believe that virtually every important aspect of programming arises somewhere in the context of sorting and searching! [Knu98, p. v] 5 / 34 Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Sortieren ist ein ideales Anwendungsgebiet fur¨ Algorithmenentwurf und Software Engineering Studien zu Effizienz und Laufzeitverhalten (performance evaluation) konkrete Komplexitätstheorie und hatte seinen ersten Höhepunkt in den funfziger¨ und sechziger Jahren, wie man an den Referenzen hier sieht ACM Symp. on Sorting, Nov. 1962 and CACM May 1963 Knuth’s bibliography in Computing Reviews 13 (1972) wurde aber immer wieder neu belebt, z. B. in dem Uberblicksartikel¨ IEEE TC Special issue on sorting, April 1985 6 / 34 Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Realistische Modellannahmen Knuth [Knu98, p. 4] schlägt das folgende Modell vor. Gegeben sind N Sätze (Objekte, items, records) R1, R2, ..., RN die zusammen eine Datei (a file) bilden. Jeder Satz Rj hat einen Schlussel¨ (key), Kj , der die Sortierung bestimmt. Zusätzlich kann der Satz weitere Informationen (sog “satellite information”) enthalten. Man definiert dann eine Ordnungsrelation (ordering relation)“<” uber¨ dem Schlusselraum¨ mit der Eigenschaft, dass fur¨ beliebige drei Schlusselwerte¨ a, b, c, gilt: genau eine der Möglichkeiten a < b, a = b, b < a ist wahr (law of trichotomy) wenn a < b und b < c, dann auch a < c (law of transitivity) Somit wird eine lineare (totale) Ordnung vorausgesetzt. 7 / 34 Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Offen gelassene Punkte Das Ziel einer Sortierung ist es, eine Permutation p(1)p(2) ... p(N) der Sätze zu finden, bei der die Schlussel¨ in nicht-absteigender Reihenfolge stehen: Kp(1) ≤ Kp(2) ≤ · · · ≤ Kp(N). Die folgenden Punkte bleiben offen: Wie werden die Datensätze geliefert (Band, Platte, on-line)? Wie viele Sätze sind gegeben und ist die Anzahl vorher bekannt? Ist der Wertebereich der Schlussel¨ bekannt (begrenzt)? Welche Operationen sind erlaubt (nur Schlusselvergleiche,¨ arithmetische Operationen)? Wie erfolgt die Umordnung der Sätze? Gibt es eine bekannte Anfangsordnung? Wie viel Extraplatz ist verfugbar?¨ 8 / 34 Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Internes versus Externes Sortieren Traditionell unterscheidet man zwei Untermodelle Sortieren eines Array (eines per Index adressierbaren Felds) im Hauptspeicher Sortieren einer Plattendatei 9 / 34 Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Internes Sortieren (Hauptspeichersortierung) Dieses Modell setzt eine Datenstruktur ähnlich zu der unten in PASCAL-Notation gegebenen voraus. TYPE item = RECORD key : integer; info : infotype END; sequence = ARRAY[1..N] OF item; VAR a : sequence; Wir wollen jetzt eine Prozedur XYZ-Sort(VAR s : sequence); erstellen, die – bei Aufruf mit XYZ-Sort(a) – den Array a so umordnet, dass danach gilt a[i].key ≤ a[i+1].key ∀ i (1 ≤ i < N). 10 / 34 Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Modellannahmen fur¨ Hauptspeichersortierung Die Annahmen in diesem Modell sind: Die Sätze können getauscht werden, was u. U. gleiche, feste Längen voraussetzt. Der Zugriff auf jeden Satz erfolgt mit gleichen Kosten (uniform cost model). Die Ordnung bestimmt sich nur uber¨ Schlusselvergleiche.¨ Alle Sätze passen in den Hauptspeicher. Im einfachen Fall bleiben auch alle Parallelitätsaspekte außen vor. 11 / 34 Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Externes Sortieren (Plattensortierung) Der Begriff “Plattendatei” (disc file) bezieht sich auf alle Dateien auf externen Medien mit wahlfreiem Zugriff auf einzelne Sätze (random access), im Gegensatz zu Bändern oder Streams. Die entsprechende Datenstruktur sieht jetzt wie folgt aus (wieder in PASCAL-Notation). TYPE page = ARRAY[1..s] OF item; file = ARRAY[1..M] OF page; buffer = ARRAY[1..k] OF page; VAR f : file; 12 / 34 Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Modellannahmen fur¨ Plattensortierung Die Annahmen fur¨ eine sinnvolle Diskussion spiegeln die klassische Speicherhierarchie wider: k M und k ist fest während der Ausfuhrung¨ die Seitengröße ist fest vorgegeben, z. B. 4 KB die Datei passt nicht in den Hauptspeicher der Zugriff ist nicht gleich teuer fur¨ alle Seiten auf der Platte Ein-/Ausgabezeiten bestimmen die Gesamtausfuhrungszeit¨ (mit Ausnahmen) innerhalb einer Seite sind die Sätze linear geordnet Seiten, die die Datei belegt, sind nicht notwendigerweise aufeinanderfolgend und linear geordnet innerhalb der Zylinder Zylinder, die die Datei belegt, sind nicht notwendigerweise aufeinanderfolgend und linear geordnet die Seitenersetzung kann vom Anwender kontrolliert werden 13 / 34 Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Andere Modelle Andere untersuchenswerte Modelle sind: Sortieren linearer Listen (chained nodes, internes Sortieren) Sortieren mit Parallelverarbeitung (VLSI, SIMD) Sortieren in Netzwerken (LAN, WAN) Sortieren von Bändern (auch bubble memory) Hauptspeichersortierverfahren im virtuellen Adressraum (paged memory sorting) 14 / 34 Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Asymptotische und gemessene Laufzeiten Neben der Messung der tatsächlichen Laufzeiten eines Programms fur¨ verschiedene Eingaben, die von der Programmiersprache und dem Rechner abhängen, ist es ublich¨ die Leistungsfähigkeit in einer abstrakteren Art zu messen (zu analysieren). Zählen kann man Schlusselvergleiche¨ Plattenzugriffe MIX-Instruktionen elementare PASCAL-, C-, Java-, . Instruktionen Schleifendurchgänge (Iterationen) Satzvertauschungen (record exchanges, moves) im besten, mittleren, schlechtesten Fall, fur¨ bestimmte Schlusselbereiche,¨ unterschiedliche Dateigrößen, Vorsortierungen und Multimengen. Das Ergebnis schreibt man immer als Funktion der Länge n der Eingabe auf, meist in der “Big-Oh-Notation”. 15 / 34 Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Big-Oh- und Big-Omega-Notation Es gelte f (n) = O(g(n)) gdw. es Konstanten k und n0 gibt, so dass |f (n)| ≤ k · |g(n)| ∀n > n0. Damit gibt man eine obere Schranke fur¨ die Wachstumsrate der Funktion an, die multiplikative und additive Konstanten ignoriert. Das rechtfertigt dann den Begriff der asymptotischen Laufzeit. Eine untere Schranke gibt man in der “Big-Omega-Notation” an: f (n) = Ω(g(n)) gdw. g(n) = O(f (n)) Genauer, es gibt eine Konstante k, so dass f (n) ≥ k · g(n) unendlich oft. 16 / 34 Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Little-oh- und Big-Theta-Notation Weniger häufig ist die “Little-oh-Notation” f (n) f (n) = o(g(n)) gdw. lim = 0 n→∞ g(n) die angibt, dass f (n) asymptotisch langsamer wächst als g(n). Insbesondere setzen wir voraus, dass – bei Angabe einer Funktion f (n) = O(g(n)) – man keine Funktion h(n) = o(g(n)) kennt, so dass f (n) = O(h(n)), d. h. wenn wir eine obere Schranke benennen, dann sollte sie die knappmöglichste sein. Obere und untere Schranke zusammen bilden die “Big-Theta-Notation” f (n) = Θ(g(n)) gdw. f (n) = O(g(n)) und f (n) = Ω(g(n)). 17 / 34 Einleitung Modellannahmen Internes vs Externes Sortieren Qualitätsbeurteilungen Leistungsnachweis Gemessene Laufzeiten I Auch wenn es gelingt, die asymptotische Laufzeit zu analysieren

Folien Zur Vorlesung Sortierverfahren

Improving the Performance of Bubble Sort Using a Modified Diminishing Increment Sorting

A Proposed Solution for Sorting Algorithms Problems by Comparison Network Model of Computation

Bitonic Sorting Algorithm: a Review

Sorting Algorithm 1 Sorting Algorithm

I. Sorting Networks Thomas Sauerwald

Adaptive Bitonic Sorting

Bitonic Sort and Quick Sort

A Single SMC Sampler on MPI That Outperforms a Single MCMC Sampler

Sorting Algorithm 1 Sorting Algorithm

Metode Sorting Bitonic Pada GPU

Oblivious Computation with Data Locality

Fast Segmented Sort on Gpus