Bachelorthesis

Bachelorthesis Marktanalyse verschiedener Deduplizierungslösungen Vorgelegt am: 6. September 2013 Von: Schnabel, Alexander Scherbergplatz 5 08371 Glauchau Studiengang: Technische Informatik Studienrichtung: Daten- und Kommunikationstechnik Seminargruppe: 4TI10-1 Matrikelnummer: 4000681 Praxispartner: ibes Systemhaus GmbH Bergstraße 55 09113 Chemnitz Gutachter: Herr Prof. Dr. rer. nat. Reinhardt Nindel (ibes Systemhaus GmbH) Herr Dr. Mathias Sporer (Staatliche Studienakademie Glauchau) Inhaltsverzeichnis Inhaltsverzeichnis ....................................................................................................... II Abbildungsverzeichnis ............................................................................................... III Abkürzungsverzeichnis .............................................................................................. IV 1 Einordnung der Themenstellung ......................................................................... 1 2 Anforderungen an eine Deduplizierungslösung ................................................... 2 2.1 Definition Deduplizierung ............................................................................... 2 2.2 Arten von Deduplizierung .............................................................................. 2 2.3 Hash-Funktion ............................................................................................... 6 2.4 ZFS-Dateisystem ........................................................................................... 7 3 Vergleich von Angeboten für Deduplizierungslösungen .................................... 10 3.1 Windows Server 2012 ................................................................................. 10 3.2 FreeNAS ...................................................................................................... 11 3.3 NexentaStor ................................................................................................ 13 4 Auswahl, Test und Bewertung von Deduplizierungslösungen ........................... 16 4.1 Zur Verfügung stehende Hardware ............................................................. 16 4.2 Hardware-Anforderungen der Lösungen ..................................................... 17 4.3 Installation und Einrichtung ......................................................................... 18 4.3.1 Windows Server 2012 ........................................................................... 18 4.3.2 FreeNAS ............................................................................................... 20 4.3.3 NexentaStor .......................................................................................... 22 4.4 Testverfahren .............................................................................................. 24 4.5 Tests ............................................................................................................ 25 4.5.1 Win Server 2012 ................................................................................... 25 4.5.2 FreeNAS ............................................................................................... 30 4.5.3 NexentaStor .......................................................................................... 32 4.6 Bewertung ................................................................................................... 37 5 Schlussfolgerungen für den Praxiseinsatz ......................................................... 41 Quellenverzeichnis ................................................................................................... 42 II Abbildungsverzeichnis Abbildung 1 Deduplizierungsschema ...................................................................... 2 Abbildung 2 Dateienbasierter Vergleich .................................................................. 4 Abbildung 3 File-level hashing ................................................................................. 4 Abbildung 4 Block-level hashing .............................................................................. 5 Abbildung 5 Sub-block-level hashing ....................................................................... 6 Abbildung 6 FreeNAS WebGUI ............................................................................. 12 Abbildung 7 NexentaStor WebGUI ........................................................................ 14 Abbildung 8 Windows Server 2012 Server-Manager ............................................. 19 Abbildung 9 FreeNAS Console Setup ................................................................... 21 Abbildung 10 Laufwerkseigenschaften vor Deduplizierung .................................. 25 Abbildung 11 Laufwerkseigenschaften nach Deduplizierung ............................... 26 Abbildung 12 ATTO Disk Benchmark - Windows Server 2012 ............................. 28 Abbildung 13 ATTO Disk Benchmark - Windows Server 2012 (2 Kerne) ............. 29 Abbildung 14 Speicherbelegung FreeNAS ........................................................... 30 Abbildung 15 Deduplizierungsrate FreeNAS ........................................................ 31 Abbildung 16 ATTO Disk Benchmark - FreeNAS ................................................. 32 Abbildung 17 Speicherbelegung NexentaStor ...................................................... 33 Abbildung 18 Deduplizierungsrate NexentaStor ................................................... 34 Abbildung 19 ATTO Disk Benchmark – NexentaStor ........................................... 35 Abbildung 20 ATTO Disk Benchmark - NexentaStor (2 Kerne) ............................ 36 Abbildung 21 Speicherplatzeinsparung ................................................................ 37 Abbildung 22 Diagramm robocopy ....................................................................... 38 Abbildung 23 Diagramm ExtremeCopy ................................................................ 38 Abbildung 24 Preisübersicht ................................................................................. 40 Abbildung 25 Bewertung ...................................................................................... 40 III Abkürzungsverzeichnis HTTP Hypertext Transfer Protocol HTTPS Hypertext Transfer Protocol Secure LBA Logical Block Addressing NAS Network Attached Storage RAID Redundant Array of Independent Disks SAS Serial Attached Storage VTL Virtual Tape Library WebGUI Web-based Graphical User Interface IV 1 Einordnung der Themenstellung In der heutigen Zeit werden die Speicheranforderungen durch Datenverarbeitungs- systeme immer größer. Damit einhergehend wachsen auch die Sicherungskopien dieser Daten immer weiter an. Diese Sicherungskopien von den Nutzdaten werden wöchentlich oder auch täglich erzeugt und enthalten oft über 90% redundante Daten. Aber auch die Benutzer selbst gehen mit dem gebotenen Speicherplatz nicht gerade sorgsam um. Da werden Ordnerstrukturen angelegt, die so komplex sind, dass man schnell den Überblick verliert. Dabei kommt es nicht selten vor, dass die Daten in den Ordnern mehrfach vorhanden sind. Man kann dem entgegenwirken, indem die Spei- cherkapazität immer weiter ausgebaut wird. Die technologischen Fortschritte der Hersteller von Festplatten würden das zulassen. Es gibt aber andere, vielleicht güns- tigere Wege. Genau hier setzen Deduplizierungslösungen an. Sie versuchen mit ih- ren spezifischen Algorithmen Duplikate zu finden und zu eliminieren. Die dabei ver- wendeten Verfahren sollen hier erläutert werden. Es wird ein Testszenario erstellt, um die Stärken und Schwächen der verschiedenen Lösungen aufzudecken. Auch kann nicht auf jedes Detail eingegangen werden, da die Zeit und die technischen Möglichkeiten es nicht zulassen. Es sollen trotzdem vergleichbare und möglichst ob- jektive Ergebnisse erarbeitet werden. 1 2 Anforderungen an eine Deduplizierungslösung 2.1 Definition Deduplizierung Mit Deduplizierung wird in der Informationstechnik ein Vorgang bezeichnet, der redundante Daten entfernt bevor diese auf einem Massenspeicher abgespeichert werden (siehe Abbildung 1). Dabei wird, je nach Deduplizierungsart, über einzelnen Da- teien oder Datenstücken (chunks) ein Hashwert berechnet. Dieser Hashwert wird in einer Indexdatenbank abgelegt. Dadurch sollen Ressourcen, wie Prozessor und Ar- beitsspeicher, geschont und die Zugriffszeit auf die Hashwerte beschleunigt werden, weil nicht ständig neu berechnet werden muss. Die eigentlichen Daten werden auf dem Datenträger abgespeichert. Die Hashwerte werden dann mit den Hashwerten neuer Daten verglichen. Bei einem gleichen Hashwert wird das neue Datum verwor- fen und stattdessen ein Verweis auf das bereits gespeicherte Datum erstellt. Ist der Hashwert ein neuer, noch nicht in der Datenbank vorhandener, so wird er dort abgespeichert und steht für zukünftige Vergleiche bereit. Das zugehörige Datum wird ebenso gespeichert, um bei weiteren positiven Vergleichen darauf verweisen zu können.1 Durch die Deduplizierung entsteht eine kritische Situation. Der Verlust nur eines chunks kann den Verlust sehr vieler Daten bedeuten. Dies muss die eingesetz- te Software zu verhindern wissen. Deduplizierung Abbildung 1 Deduplizierungsschema 2.2 Arten von Deduplizierung Es gibt verschiedene Ansätze bei der Deduplizierung. Einmal wird zwischen in-line- und post-process-Deduplizierung unterschieden. Bei der in-line-Deduplizierung werden die Daten „in-line“, also in dem Datenstrom, in dem sie ankommen, sofort verar- 1 online: Deduplizierung, 2013 (30.09.2013) 2 beitet. Diese Methode ist Ressourcenintensiver,

Bachelorthesis

Inventors, Technologists and Entrepreneurs

Education and Research Solutions Brief

Nexentastor 5.X Reference Architecture- Supermicro

Nexentastor Installation Guide 4.0.4 FP1

Nexentastor Hardware Reference Architectures

Meet Nexenta

Introducing a New Product

A Technical Summary

Nexentaedge Datasheet

Nexenta, Openstorage and Commercial Open Source

Nexentastor 4.0.4 User Guide

Nexentaedge Datasheet