Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger

Introduction Digitale Videoarchivierung: Digitales Video Tech-Details Best practices fur¨ Semi-Pro bis Nationalarchiv Container Codecs Archivieren Datenformat(e) Speichermedien Peter Bubestinger Remuxen Prufsummen¨ Digitale Inventur Ende 23. Mai 2014

1 / 48 Uber¨ mich

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Peter Bubestinger Nationalarchiv Peter Studierte Medieninformatik an der TU-Wien Bubestinger Praxiserfahrung mit professionellen Archiven seit 2002: Introduction ORF (National broadcaster, Austria) Digitales Video Tech-Details VoV (National broadcaster, Vietnam) Container RTV (National broadcaster, Slovenia) Codecs Archivieren SRTC (National broadcaster, Sudan) Datenformat(e) Fonoteca Nacional (Mexico) Speichermedien Remuxen Memnon Archiving Services (Belgium) Prufsummen¨ SRF (Sweden), YLE (Finland), SRR (Romania), . . . Digitale Inventur Ende Arbeite mit GNU/Linux Systemen seit 2001 Angestellter in der Videoabteilung der Osterreichischen¨ Mediathek Koordinator von FSFE Aktivit¨aten in Osterreich¨

2 / 48 Freie Software . . . in der Osterreichischen¨ Mediathek

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger “Open Source” im Archivbereich: Introduction Videodigitalisierung fast ausschließlich mit GNU/Linux Digitales Video Tech-Details Neuer Massenspeicher: Open Hardware, GNU/Linux Container Codecs Zunehmend Interesse, im Archivbereich Freie Software Archivieren Datenformat(e) einzusetzen Speichermedien Remuxen Nicht weil gratis, sondern wegen “use, study, share & improve” Prufsummen¨ Digitale Inventur Extrem (kosten-)effiziente L¨osungen m¨oglich Ende Und: Freie Software + Offene Formate = “Virtually immortal”

3 / 48 Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger

Introduction

Digitales Video Tech-Details Container Codecs Digitales Video: Tech-Details Archivieren Datenformat(e) Speichermedien Remuxen Prufsummen¨ Digitale Inventur Ende

4 / 48 Aussagen wie “Die Videos sind im Flashformat” oder “Die Kamera speichert AVI-Videos” sagen also nur etwas uber¨ den Container aus. Und der ist oft noch das “Harmloseste” bei digitalen Videofiles. . .

Das Wichtigste gleich am Anfang!

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger

Introduction Die “Dreifaltigkeit”: Digitales Video Container Tech-Details Container Codecs Videocodec Archivieren Audiocodec Datenformat(e) Speichermedien Remuxen Prufsummen¨ Digitale Inventur Ende

5 / 48 Das Wichtigste gleich am Anfang!

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger

Introduction Die “Dreifaltigkeit”: Digitales Video Container Tech-Details Container Codecs Videocodec Archivieren Audiocodec Datenformat(e) Speichermedien Remuxen Aussagen wie “Die Videos sind im Flashformat” oder “Die Kamera Prufsummen¨ Digitale Inventur speichert AVI-Videos” sagen also nur etwas uber¨ den Container aus. Ende Und der ist oft noch das “Harmloseste” bei digitalen Videofiles. . .

6 / 48 fps: Frames Per Second

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger Ubliche¨ Frameraten: Introduction 24fps: Film Digitales Video Tech-Details 25fps: PAL/SECAM (Europa) Container Codecs 29.97fps: Eigentlich “30000/1001”. Kommt von NTSC (USA) Archivieren Datenformat(e) 23.98fps: Film auf NTSC Speichermedien Remuxen 38.42fps: WTF? Ja, bei born-digital Videos kann alles Prufsummen¨ Digitale Inventur vorkommen :) Ende http://vanillavideo.com/blog/2012/ history-frame-rates-why-speeds-vary

7 / 48 Zeilenabtastverfahren Sch¨ones, old-school “Ingenieurs-Sprech”

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Im Englischen heißt es “Scanning Method”. Nationalarchiv

Peter Bubestinger Halbbild oder Vollbild?

Introduction progressive: Ein Bild (Frame) = ein Vollbild.

Digitales Video Film als Quelle zB ist immer progressive. Tech-Details Container interlaced: 2 Halbbilder (Field) pro Frame. Codecs Kommt aus der Ara¨ von CRT-R¨ohren und Fernsehen. Archivieren Datenformat(e) Speichermedien Remuxen Doppelte zeitliche Aufl¨osung bei halber vertikaler Prufsummen¨ Digitale Inventur Aufl¨osung. Rundere Bewegungsabl¨aufe (zB Ende Sportubertragung).¨ Bsp: PAL Fernsehen hat 25 Frames pro Sekunde (fps), aber interlaced, also 50 Fields pro Sekunde.

Vorsicht: Programme “deinterlacen” zunehmend automatisch.

8 / 48 GOP: Group Of Pictures. Nicht jedes Bild ist alleine “lebensf¨ahig”. Gr¨oßere GOP=kleineres File, Kleinere GOP=stabileres File Bitrate: Nur bei lossy-Codecs relevant. Aber dort sehr wichtig! Framerate: Achtung: Manche Kameras/ADCs inserten/droppen/interpolieren Frames

“Aufl¨osung” Im weitesten Sinne. . .

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Mehrere Faktoren: Peter Bubestinger Pixelaufl¨osung: “width * height” Mindestens: 720x576 (PAL-SD) Introduction

Digitales Video Achtung: Breitbildformate werden oft “anamorph” Tech-Details aufgenommen! Container Codecs Bsp: HDV mit 1440x1080, statt 1920x1080 Archivieren Datenformat(e) Speichermedien Remuxen Prufsummen¨ Digitale Inventur Ende

9 / 48 Bitrate: Nur bei lossy-Codecs relevant. Aber dort sehr wichtig! Framerate: Achtung: Manche Kameras/ADCs inserten/droppen/interpolieren Frames

“Aufl¨osung” Im weitesten Sinne. . .

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Mehrere Faktoren: Peter Bubestinger Pixelaufl¨osung: “width * height” Mindestens: 720x576 (PAL-SD) Introduction

Digitales Video Achtung: Breitbildformate werden oft “anamorph” Tech-Details aufgenommen! Container Codecs Bsp: HDV mit 1440x1080, statt 1920x1080 Archivieren Datenformat(e) GOP: Group Of Pictures. Nicht jedes Bild ist alleine Speichermedien “lebensf¨ahig”. Remuxen Prufsummen¨ Gr¨oßere GOP=kleineres File, Digitale Inventur Kleinere GOP=stabileres File Ende

10 / 48 Framerate: Achtung: Manche Kameras/ADCs inserten/droppen/interpolieren Frames

“Aufl¨osung” Im weitesten Sinne. . .

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Mehrere Faktoren: Peter Bubestinger Pixelaufl¨osung: “width * height” Mindestens: 720x576 (PAL-SD) Introduction

Digitales Video Achtung: Breitbildformate werden oft “anamorph” Tech-Details aufgenommen! Container Codecs Bsp: HDV mit 1440x1080, statt 1920x1080 Archivieren Datenformat(e) GOP: Group Of Pictures. Nicht jedes Bild ist alleine Speichermedien “lebensf¨ahig”. Remuxen Prufsummen¨ Gr¨oßere GOP=kleineres File, Digitale Inventur Kleinere GOP=stabileres File Ende Bitrate: Nur bei lossy-Codecs relevant. Aber dort sehr wichtig!

11 / 48 “Aufl¨osung” Im weitesten Sinne. . .

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Mehrere Faktoren: Peter Bubestinger Pixelaufl¨osung: “width * height” Mindestens: 720x576 (PAL-SD) Introduction

Digitales Video Achtung: Breitbildformate werden oft “anamorph” Tech-Details aufgenommen! Container Codecs Bsp: HDV mit 1440x1080, statt 1920x1080 Archivieren Datenformat(e) GOP: Group Of Pictures. Nicht jedes Bild ist alleine Speichermedien “lebensf¨ahig”. Remuxen Prufsummen¨ Gr¨oßere GOP=kleineres File, Digitale Inventur Kleinere GOP=stabileres File Ende Bitrate: Nur bei lossy-Codecs relevant. Aber dort sehr wichtig! Framerate: Achtung: Manche Kameras/ADCs inserten/droppen/interpolieren Frames

12 / 48 Subsampling: Eine Art Kompression, da Farbinformation mit geringerer Pixelaufl¨osung gespeichert wird. Bsp: 4:2:2 oder 4:2:0. 4:4:4 bedeutet“Kein Subsampling”. Bits-Per-Component (bpc): Anzahl der Bits pro Komponente des Farbraums. Components: Y/U/V, R/G/B, etc.

Standard bei Digitalkameras (auch HD) ist meistens YUV, 4:2:0 Subsampling und 8bpc linear. Alles Andere ist oft “schlecht kartografiertes Gebiet”.

“Aufl¨osung” Im weitesten Sinne. . .

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Mehrere Faktoren: Peter Bubestinger Farbraum: YUV, RGB oder XYZ? Linear oder logarithmisch?

Introduction

Digitales Video Tech-Details Container Codecs Archivieren Datenformat(e) Speichermedien Remuxen Prufsummen¨ Digitale Inventur Ende

13 / 48 Bits-Per-Component (bpc): Anzahl der Bits pro Komponente des Farbraums. Components: Y/U/V, R/G/B, etc.

Standard bei Digitalkameras (auch HD) ist meistens YUV, 4:2:0 Subsampling und 8bpc linear. Alles Andere ist oft “schlecht kartografiertes Gebiet”.

“Aufl¨osung” Im weitesten Sinne. . .

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Mehrere Faktoren: Peter Bubestinger Farbraum: YUV, RGB oder XYZ? Linear oder logarithmisch? Introduction Subsampling: Eine Art Kompression, da Farbinformation mit Digitales Video Tech-Details geringerer Pixelaufl¨osung gespeichert wird. Container Bsp: 4:2:2 oder 4:2:0. Codecs Archivieren 4:4:4 bedeutet“Kein Subsampling”. Datenformat(e) Speichermedien Remuxen Prufsummen¨ Digitale Inventur Ende

14 / 48 Standard bei Digitalkameras (auch HD) ist meistens YUV, 4:2:0 Subsampling und 8bpc linear. Alles Andere ist oft “schlecht kartografiertes Gebiet”.

“Aufl¨osung” Im weitesten Sinne. . .

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Mehrere Faktoren: Peter Bubestinger Farbraum: YUV, RGB oder XYZ? Linear oder logarithmisch? Introduction Subsampling: Eine Art Kompression, da Farbinformation mit Digitales Video Tech-Details geringerer Pixelaufl¨osung gespeichert wird. Container Bsp: 4:2:2 oder 4:2:0. Codecs Archivieren 4:4:4 bedeutet“Kein Subsampling”. Datenformat(e) Speichermedien Bits-Per-Component (bpc): Anzahl der Bits pro Komponente des Remuxen Prufsummen¨ Farbraums. Digitale Inventur Components: Y/U/V, R/G/B, etc. Ende

15 / 48 Standard bei Digitalkameras (auch HD) ist meistens YUV, 4:2:0 Subsampling und 8bpc linear. Alles Andere ist oft “schlecht kartografiertes Gebiet”.

“Aufl¨osung” Im weitesten Sinne. . .

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Mehrere Faktoren: Peter Bubestinger Farbraum: YUV, RGB oder XYZ? Linear oder logarithmisch? Introduction Subsampling: Eine Art Kompression, da Farbinformation mit Digitales Video Tech-Details geringerer Pixelaufl¨osung gespeichert wird. Container Bsp: 4:2:2 oder 4:2:0. Codecs Archivieren 4:4:4 bedeutet“Kein Subsampling”. Datenformat(e) Speichermedien Bits-Per-Component (bpc): Anzahl der Bits pro Komponente des Remuxen Prufsummen¨ Farbraums. Digitale Inventur Components: Y/U/V, R/G/B, etc. Ende

16 / 48 “Aufl¨osung” Im weitesten Sinne. . .

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Mehrere Faktoren: Peter Bubestinger Farbraum: YUV, RGB oder XYZ? Linear oder logarithmisch? Introduction Subsampling: Eine Art Kompression, da Farbinformation mit Digitales Video Tech-Details geringerer Pixelaufl¨osung gespeichert wird. Container Bsp: 4:2:2 oder 4:2:0. Codecs Archivieren 4:4:4 bedeutet“Kein Subsampling”. Datenformat(e) Speichermedien Bits-Per-Component (bpc): Anzahl der Bits pro Komponente des Remuxen Prufsummen¨ Farbraums. Digitale Inventur Components: Y/U/V, R/G/B, etc. Ende Standard bei Digitalkameras (auch HD) ist meistens YUV, 4:2:0 Subsampling und 8bpc linear. Alles Andere ist oft “schlecht kartografiertes Gebiet”.

17 / 48 Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger

Introduction

Digitales Video Tech-Details Container Codecs Archivieren Container Datenformat(e) Speichermedien Remuxen Prufsummen¨ Digitale Inventur Ende

18 / 48 Containerformate

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger Dateiendung = Containername Introduction Digitales Video AVI (.avi), (.mkv), Quicktime (.mov), MPEG-4 Tech-Details Container (.mp4,.m4v) Codecs Archivieren WebM (.), Flash (.flv) Datenformat(e) Speichermedien MPEG (.mpeg, .mpg), VOB (.) Remuxen Prufsummen¨ MXF (.mxf), ISO9660/UDF (.iso), DV (.) Digitale Inventur Ende Fur¨ Audio gibt es andere Container: ., .aiff, ., ., .mka, etc.

19 / 48 Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger

Introduction

Digitales Video Tech-Details Container Codecs Archivieren Codecs Datenformat(e) Speichermedien Remuxen Prufsummen¨ Digitale Inventur Ende

20 / 48 Codecs

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger Was ist ein “Codec”?

Introduction Steht fur¨ “(en)COder / DECoder”. Digitales Video Tech-Details Container “Codec” ist das Format in dem der effektive Inhalt/Content Codecs (Audio/Video/etc) im Container abgelegt wird. Archivieren Datenformat(e) Speichermedien Remuxen Im digitalen Videobereich sind die meisten Codecs Prufsummen¨ Digitale Inventur Kompressionsmethoden - meist verlustbehaftet (lossy), k¨onnen aber Ende auch verlustfrei (lossless) oder sogar unkomprimiert sein (uncompressed).

21 / 48 Codecs - Kompressionsarten lossy vs. lossless vs. uncompressed

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Verlustbehaftet (lossy): Bubestinger Immer gewisser Informations-/Qualit¨atsverlust Introduction Beste Kompression. Digitales Video Tech-Details Kann gute Bild-/Tonqualit¨at bieten (je nach Codec und Container Codecs Einstellung) Archivieren Datenformat(e) Bei jeder Bearbeitung oder Umwandlung in ein anderes Speichermedien Remuxen lossy-Format entstehen Qualit¨atsverluste und Prufsummen¨ Kompressionsartefakte (aka “Generation Loss”). Digitale Inventur Ende Bei Video: Standard im Consumer- und Semi-Pro-Bereich Decoding schneller als lossless Rechenintensiv

22 / 48 Codecs - Kompressionsarten lossy vs. lossless vs. uncompressed

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger Verlustfrei (lossless): Introduction Kein Informations-/Qualit¨atsverlust Digitales Video Tech-Details Wesentlich (!) gr¨oßere Files als bei lossy-Komprimierung. Container Codecs Dafur¨ geht bei Bearbeitungen und Umwandlung in andere Archivieren lossless-Formate keine Qualit¨at verloren. Datenformat(e) Speichermedien Egal wie oft migriert wird. Remuxen Prufsummen¨ Bei Video: Seit Kurzem auch fur¨ Consumer leistbar machbar Digitale Inventur Ende Decoding meist langsamer als lossless Rechenintensiv

23 / 48 Codecs - Kompressionsarten lossy vs. lossless vs. uncompressed

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger Uncompressed:

Introduction Ebenfalls verlustfrei. Digitales Video Tech-Details Die Daten werden hier gar nicht komprimiert sondern quasi Container “roh” abgelegt. Codecs Archivieren Im Audiobereich ist unkomprimiert Standard (.wav). Datenformat(e) Speichermedien Bei Video sind die Datenmengen derzeit nur sehr kostspielig Remuxen Prufsummen¨ handzuhaben. Digitale Inventur zB: PAL SD Video (YUV 4:2:2) = ca. 1.86 GiB/Minute Ende Wenigste Rechenlast, dafur¨ aber sehr viel Daten-I/O.

24 / 48 Codecs Gr¨oßenvergleiche

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Video (1 Min. PAL-SD yuv422): Peter Bubestinger uncompressed : 1186.5 MiB

Introduction FFV1 : ca. 400 MiB (lossless/inhaltsabh¨angig) Digitales Video JPEG2000-lossless : ungef¨ahr gleich wie FFV1 Tech-Details Container Codecs Archivieren Audio (1 Min. 44.1 kHz/16bit stereo): Datenformat(e) Speichermedien PCM/WAV : ca. 10 MiB Remuxen Prufsummen¨ Digitale Inventur FLAC : ca. 6.7 MiB (lossless/inhaltsabh¨angig) Ende MP3/OGG- : bei 128kbps ca. 1 MiB

Audio ist vom Platzbedarf im Vergleich zum Video fast vernachl¨assigbar.

25 / 48 Videocodecs Uberblick¨

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Verlustbehaftet: Peter Bubestinger MPEG-2: In verschiedenen Varianten. zB Video-CD oder DVD

Introduction MPEG-4 (SP): MPEG-4 Simple Profile. Besser bekannt unter Digitales Video “DivX” oder “”. Tech-Details Container Codecs MPEG-4 (AVC): MPEG-4 . Besser bekannt Archivieren unter “h264” oder “”. Datenformat(e) Speichermedien ProRes: Propriet¨ares Apple Format. Sehr popul¨ar im Remuxen Prufsummen¨ Editing/Produktionsbereich. Digitale Inventur JPEG2000: Hauptanwendungsgebiet: Digital Cinema Package Ende (DCP) VP8: Teil der WebM Spezifikation. Hauptanwendung: Webvideos.

26 / 48 Videocodecs Uberblick¨

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Verlustfrei: Peter Bubestinger h264-lossless: h264 kann auch lossless eingestellt werden. h264-lossy

Introduction ist weit verbreitet, aber lossless ist schlecht/kaum Digitales Video unterstutzt.¨ Tech-Details Container JPEG2000-lossless: JPEG2000 gibt es ebenfalls lossy und lossless. Codecs Archivieren FFV1: “FFmpeg 1”. Reiner lossless-Codec. Datenformat(e) Speichermedien Komplett offenes Format. Remuxen Prufsummen¨ HuffYUV: Huffman-basiert. Sehr schnell. Komprimiert aber nicht Digitale Inventur so gut. Ende Uncompressed: Unkomprimiert ist ebenfalls verlustfrei. Hier gibt es je einen Codec fur¨ unterschiedliche Farb- und Subsamplingvarianten.

27 / 48 Audiocodecs Uberblick¨

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger Verlustbehaftet:

Introduction MPEG-1 Audio Layer II (mp2) Digitales Video MPEG-1 Audio Layer III (mp3) Tech-Details Container Codecs Vorbis Archivieren MPEG-4 Advanced Audio Codec (aac) Datenformat(e) Speichermedien Remuxen Prufsummen¨ Verlustfrei: Digitale Inventur Ende PCM (.wav, .aiff) Free Lossless Audio Codec (FLAC)

28 / 48 Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger

Introduction

Digitales Video Tech-Details Container Codecs Archivieren Archivieren Datenformat(e) Speichermedien Remuxen Prufsummen¨ Digitale Inventur Ende

29 / 48 Datenformate Was ist mein Video eigentlich jetzt genau?

Digitale Videoarchivierung: Tools: zB VLC, MediaInfo, ffprobe Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger

Introduction

Digitales Video Tech-Details Container Codecs Archivieren Datenformat(e) Speichermedien Remuxen Prufsummen¨ Digitale Inventur Ende

30 / 48 Datenformat(e) fur¨ die Langzeitarchivierung Format-Bedingungen

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Wunschliste: Peter Bubestinger Verlustfrei (Bild/Ton) Introduction Farbraum und Subsampling exakt erhalten (“pix fmt”) Digitales Video Tech-Details Metadaten erhalten Container Codecs Auf jeden Fall ein offenes Format. Im besten Fall standardisiert. Archivieren Datenformat(e) Auch bei Standards: Vorsicht vor propriet¨aren, geschlossenen Speichermedien Implementierungen (Hardware, Software, Kamera). Remuxen Prufsummen¨ Digitale Inventur Erhaltbarkeit/Zug¨anglichkeit Ende Sourcecode archivieren (“git clone”) = Abspielger¨at + Bauplan mit-archivieren Je simpler, desto besser

31 / 48 Pragmatische L¨osung fur¨ Langzeitarchivierung: FFV1/PCM in AVI/MOV/MKV. Im Privatbereich zwar machbar, aber wahrscheinlich doch (noch) zu teuer wegen Platzbedarf.

Datenformat(e) fur¨ die Langzeitarchivierung Was kann ich in ’x’ Jahren wieder ¨offnen?

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger Entscheidungen: Introduction Ein File fur¨ alles, oder ein “Ordnerpaket”? Digitales Video Tech-Details Formatobsoleszenz? Container Codecs Abh¨angigkeiten (Hardware, Software, Lizenzen)? Archivieren Datenformat(e) Storagekosten? Speichermedien Remuxen Prufsummen¨ Digitale Inventur Ende

32 / 48 Datenformat(e) fur¨ die Langzeitarchivierung Was kann ich in ’x’ Jahren wieder ¨offnen?

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger Entscheidungen: Introduction Ein File fur¨ alles, oder ein “Ordnerpaket”? Digitales Video Tech-Details Formatobsoleszenz? Container Codecs Abh¨angigkeiten (Hardware, Software, Lizenzen)? Archivieren Datenformat(e) Storagekosten? Speichermedien Remuxen Prufsummen¨ Pragmatische L¨osung fur¨ Langzeitarchivierung: FFV1/PCM in Digitale Inventur AVI/MOV/MKV. Ende Im Privatbereich zwar machbar, aber wahrscheinlich doch (noch) zu teuer wegen Platzbedarf.

33 / 48 Festplatten: Offline Lagerung: Haltbarkeit beschr¨ankt Schwachstellen: Bewegliche Teile, Elektronik Vorteil: Gutes Preis/Platz-Verh¨altnis, Daten schnell verfugbar¨

Bandlaufwerk (zB LTO): Langsamer als Festplatten Vorteil: Medium lang haltbar Herausforderung: Passendes Laufwerk + Software + Bandfilesystem

Speichermedien Oder: “Warum CDs/DVDs/BluRay keine gute Wahl sind. . . ”

Digitale Videoarchivierung: Optische Medien: Best practices fur¨ Semi-Pro bis Nationalarchiv Gebrannte optische Datentr¨ager: Schlechte physische Peter Haltbarkeit. Sehr temperatur- und lichtempfindlich. Bubestinger Als Videotr¨ager: Nur lossy Codecs und immer Subsampling Introduction

Digitales Video Tech-Details Container Codecs Archivieren Datenformat(e) Speichermedien Remuxen Prufsummen¨ Digitale Inventur Ende

34 / 48 Bandlaufwerk (zB LTO): Langsamer als Festplatten Vorteil: Medium lang haltbar Herausforderung: Passendes Laufwerk + Software + Bandfilesystem

Speichermedien Oder: “Warum CDs/DVDs/BluRay keine gute Wahl sind. . . ”

Digitale Videoarchivierung: Optische Medien: Best practices fur¨ Semi-Pro bis Nationalarchiv Gebrannte optische Datentr¨ager: Schlechte physische Peter Haltbarkeit. Sehr temperatur- und lichtempfindlich. Bubestinger Als Videotr¨ager: Nur lossy Codecs und immer Subsampling Introduction

Digitales Video Tech-Details Festplatten: Container Codecs Offline Lagerung: Haltbarkeit beschr¨ankt Archivieren Datenformat(e) Schwachstellen: Bewegliche Teile, Elektronik Speichermedien Remuxen Vorteil: Gutes Preis/Platz-Verh¨altnis, Daten schnell verfugbar¨ Prufsummen¨ Digitale Inventur Ende

35 / 48 Speichermedien Oder: “Warum CDs/DVDs/BluRay keine gute Wahl sind. . . ”

Digitale Videoarchivierung: Optische Medien: Best practices fur¨ Semi-Pro bis Nationalarchiv Gebrannte optische Datentr¨ager: Schlechte physische Peter Haltbarkeit. Sehr temperatur- und lichtempfindlich. Bubestinger Als Videotr¨ager: Nur lossy Codecs und immer Subsampling Introduction

Digitales Video Tech-Details Festplatten: Container Codecs Offline Lagerung: Haltbarkeit beschr¨ankt Archivieren Datenformat(e) Schwachstellen: Bewegliche Teile, Elektronik Speichermedien Remuxen Vorteil: Gutes Preis/Platz-Verh¨altnis, Daten schnell verfugbar¨ Prufsummen¨ Digitale Inventur Ende Bandlaufwerk (zB LTO): Langsamer als Festplatten Vorteil: Medium lang haltbar Herausforderung: Passendes Laufwerk + Software + Bandfilesystem

36 / 48 Beispiele:

$ -i video.avi -vcodec copy -acodec copy output.avi $ ffmpeg -i video.avi -c copy output.avi

Re-Multiplexing (remuxen) Den Container “umpacken” ohne neu zu enkodieren

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Peter Wozu remuxen? Bubestinger Bei born-digital immer zu empfehlen: Fehler fruh¨ erkennen Introduction und/oder vermeiden. Digitales Video Tech-Details Kein Qualit¨atsverlust. Auch auch bei lossy-Codecs. Container Codecs Wenn geht, Originalfile aufheben. Archivieren Datenformat(e) Vorsicht: Metadaten k¨onnen dabei leider leicht verloren gehen. Speichermedien Remuxen Prufsummen¨ Digitale Inventur Ende

37 / 48 Re-Multiplexing (remuxen) Den Container “umpacken” ohne neu zu enkodieren

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Peter Wozu remuxen? Bubestinger Bei born-digital immer zu empfehlen: Fehler fruh¨ erkennen Introduction und/oder vermeiden. Digitales Video Tech-Details Kein Qualit¨atsverlust. Auch auch bei lossy-Codecs. Container Codecs Wenn geht, Originalfile aufheben. Archivieren Datenformat(e) Vorsicht: Metadaten k¨onnen dabei leider leicht verloren gehen. Speichermedien Remuxen Prufsummen¨ Beispiele: Digitale Inventur Ende $ ffmpeg -i video.avi -vcodec copy -acodec copy output.avi $ ffmpeg -i video.avi -c copy output.avi

38 / 48 Prufsummen¨ zur Integrit¨atssicherung

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger Uberblick¨ Introduction Digitales Video Algorithmus: Ublich¨ ist MD5. Ausreichend fur¨ Integrit¨atschecks und Tech-Details Container schneller als zB SHA. Codecs Dateiprufsummen:¨ Eine Prufsumme¨ fur¨ ein File. Archivieren Datenformat(e) Segmentprufsummen: Mehrere Prufsummen pro File. Eine pro Speichermedien ¨ ¨ Remuxen Segment von x Bytes. Prufsummen¨ Digitale Inventur Content-Prufsummen:¨ Prufsumme(n)¨ uber¨ den Inhalt, ohne Ende Metadaten oder Container.

39 / 48 Beispiel:

$ md5sum *.avi > MD5SUMS

Prufsummen¨ zur Integrit¨atssicherung Dateiprufsummen¨

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger Eigenschaften / Anwendungsf¨alle:

Introduction Leicht zu erstellen und uberpr¨ ufen¨ Digitales Video Andern¨ sich, sobald zB Metadaten im Container aktualisiert Tech-Details Container werden Codecs Archivieren File-Integrit¨atscheck bei Speichermigration Datenformat(e) Speichermedien File-Integrit¨atscheck bei Ubergabe/Transport¨ Remuxen Prufsummen¨ Digitale Inventur Ende

40 / 48 Prufsummen¨ zur Integrit¨atssicherung Dateiprufsummen¨

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger Eigenschaften / Anwendungsf¨alle:

Introduction Leicht zu erstellen und uberpr¨ ufen¨ Digitales Video Andern¨ sich, sobald zB Metadaten im Container aktualisiert Tech-Details Container werden Codecs Archivieren File-Integrit¨atscheck bei Speichermigration Datenformat(e) Speichermedien File-Integrit¨atscheck bei Ubergabe/Transport¨ Remuxen Prufsummen¨ Digitale Inventur Beispiel: Ende $ md5sum *.avi > MD5SUMS

41 / 48 Beispiel:

$ ffmpeg -i video.avi -an -f framemd5 video_avi.framemd5

Prufsummen¨ zur Integrit¨atssicherung Content-Prufsummen¨ (framemd5)

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Eigenschaften / Anwendungsf¨alle:

Peter Bubestinger Rechenaufwendiger, weil Content erst “entpackt” werden muss

Introduction framemd5 Video: Prufsummen¨ werden von den unkomprimierten

Digitales Video Bildern gemacht Tech-Details Container framemd5 Audio: Prufsumme¨ uber¨ gewisse Anzahl von Samples Codecs Archivieren Integrit¨atscheck bei Format- und Codecmigration, sowie Datenformat(e) Containerupdates Speichermedien Remuxen Prufsummen¨ Bei worst-case Szenarien: verlustfreie Wiederherstellung der Digitale Inventur Information m¨oglich Ende

42 / 48 Prufsummen¨ zur Integrit¨atssicherung Content-Prufsummen¨ (framemd5)

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Eigenschaften / Anwendungsf¨alle:

Peter Bubestinger Rechenaufwendiger, weil Content erst “entpackt” werden muss

Introduction framemd5 Video: Prufsummen¨ werden von den unkomprimierten

Digitales Video Bildern gemacht Tech-Details Container framemd5 Audio: Prufsumme¨ uber¨ gewisse Anzahl von Samples Codecs Archivieren Integrit¨atscheck bei Format- und Codecmigration, sowie Datenformat(e) Containerupdates Speichermedien Remuxen Prufsummen¨ Bei worst-case Szenarien: verlustfreie Wiederherstellung der Digitale Inventur Information m¨oglich Ende Beispiel:

$ ffmpeg -i video.avi -an -f framemd5 video_avi.framemd5

43 / 48 Digitale Inventur

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger Konzept / Idee: Introduction Digitales Video Regelm¨aßige Uberpr¨ ufung¨ des Ist-Standes der Daten Tech-Details Container Datenfehler fruhzeitig¨ erkennen Codecs Archivieren Strukturintegrit¨at von Ordner-basierten Paketen Datenformat(e) Speichermedien erhalten/dokumentieren Remuxen Prufsummen¨ Schrittweise die Schwere von Fehlern erkennen Digitale Inventur Ende Verwendbar um validierte Backup-Kopien zu erstellen

44 / 48 Digitale Inventur

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger In der Praxis:

Introduction Eine “Unique ID” (aka Archivsignatur) ist empfehlenswert. zB Digitales Video “vx-00815” Tech-Details Container Codecs Prufsummen¨ fur¨ alle Files in einem Ordner erstellen (MD5SUMS Archivieren Datei) Datenformat(e) Speichermedien Bei Check: Prufsummenfile¨ fur¨ aktuelle Daten erstellen, dann Remuxen Prufsummen¨ mit original MD5SUMS-Datei “diffen” Digitale Inventur Ende Notifications (Mail?) und Logfiles “CV-File”: Der Lebenslauf einer Signatur

45 / 48 Prufsummen¨ + Digitale Inventur Benutzerfreundlicher(er) Tip. . .

Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Library of Congress’ “BagIt”: Peter Bubestinger Entworfen um File- und Strukturintegrit¨at bei Dateitransfer zu

Introduction checken Digitales Video Geht Fur¨ jede Art von Files/Ordnern Tech-Details Container Rein Textfile-basiert Codecs Archivieren http://en.wikipedia.org/wiki/BagIt Datenformat(e) Speichermedien Remuxen Tool: “Bagger” Prufsummen¨ Digitale Inventur Commandline + GUI (Java) Ende Cross-Platform: Linux, Mac, Win

http: //sourceforge.net/projects/loc-xferutils/files/loc-bagger/

46 / 48 Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv

Peter Bubestinger

Introduction

Digitales Video Tech-Details Container Codecs Fragen? Archivieren Datenformat(e) Speichermedien Remuxen Prufsummen¨ Digitale Inventur Ende

47 / 48 Digitale Videoarchivierung: Best practices fur¨ Semi-Pro bis Nationalarchiv Thank you very much for your attention! Peter Bubestinger

Introduction Digitales Video Some rights reserved... Tech-Details Container This presentation is available under a Free License: Codecs Archivieren Creative Commons Attribution Share-Alike Datenformat(e) (CC-BY-SA) Speichermedien Remuxen Prufsummen¨ Digitale Inventur Contact: Ende Free Software Foundation Europe: http://fsfeurope.org/ Peter Bubestinger: [email protected]

48 / 48