Die Digitale Edition Der „Preußischen Zeitungsberichte“: Evaluation Von Editionswerkzeugen Zur Nutzergenerierten Transkription Handschriftlicher Quellen
Total Page:16
File Type:pdf, Size:1020Kb
Fachhochschule Potsdam Masterarbeit Die digitale Edition der „preußischen Zeitungsberichte“: Evaluation von Editionswerkzeugen zur nutzergenerierten Transkription handschriftlicher Quellen Fachbereich Informationswissenschaften Master Informationswissenschaften Profil: Records Management und digitale Archivierung Eingereicht von: Jens Brokfeld Matrikelnummer: 8508 Erstgutachter: Prof. Dr. Mario Glauert Zweitgutachter: Prof. Dr. Felix Sasaki Eingereicht am: 6. August 2012 Toujours je rêve d’une plume qui soit une seringue. Jacques Derrida über das Schreiben Zusammenfassung Die Erstellung digitaler Editionen auf Grundlage von Manuskripten aus den Beständen von Archiven, Bibliotheken und Museen erfordert Software mit Funktionen zur Tran- skription, Verwaltung und Präsentation der Textdaten. Die nutzergenerierte Tanskripti- on (Crowdsourcing) der historischen Quellen stellt wiederum spezifische Anforderungen an die Transkriptionswerkzeuge. In einer Nutzerumfrage werden diese Ansprüche sowie bestehende Erfahrungen in Bezug auf die Art der handschriftlichen Quellen, die ein- gesetzten Software-Werkzeuge, die Einbeziehung von Freiwilligen in die Codierung der Transkripte, die Schaffung von Anreizen zur Mitarbeit, die Qualitätssicherung, Funk- tionen zur Kommentierung der behandelten Texte, die Erstellung von Indizes, die Spei- cherung der Editionstexte in Formaten wie TEI, den Verweis auf Normdaten und Er- schließungsinformationen sowie die Beteiligung an Web-Portalen erörtert. Die Auswahl der zu analysierenden Werkzeuge beruht auf den Kriterien Entwicklungsstand, Online- Werkzeuge und Crowdsourcing-Funktionen. Den Kriterien entsprechend wird die Soft- ware FromThePage, Refine!, Wikisource, Scripto, T-PEN sowie Bentham Transcription Desk behandelt. Der Funktionsumfang wird anhand von Prüfkriterien der Zugänglich- keit, Auffindbarkeit, intellektuellen Redlichkeit und Gebrauchstauglichkeit betrachtet und verglichen. Bei der Evaluation gilt die Prämisse, dass Anpassungen der Software bei gleichzeitiger Erfüllung projektspezifischer Anforderungen möglichst gering gehalten werden sollten. Dementsprechend wird der Funktionsumfang der Werkzeuge in Bezug auf Anwenderkreise mit spezifischen Anforderungsprofilen evaluiert. Schlagworte: Digitale Editionen, Transkription, Crowdsourcing, Transkriptionswerk- zeuge Abstract To create digital editions on the basis of manuscripts from archives, libraries and muse- ums it is necessary for the software to come with functions for the transcription, man- agement and presentation of textual data. Crowdsourcing the transcriptions moreover imposes specific requirements on the software. The requirements as well as experiences from other projects in relation to the type of manuscripts, the software, the participa- tion of volunteers in text encoding, the motivation of transcribers, quality control, the integration of text commentary, generating indices, storing the text in formats like TEI, referencing authority files as well as participation in web portals are analysed on the ba- sis of a survey. The choice of tools that are examined rests upon the following selection criteria: development stage, online tools and crowdsourcing functionality. Correspond- ing to the criteria, FromThePage, Refine!, Wikisource, Scripto and T-PEN are included in the analysis. Their functionality is analysed and compared in reference to test criteria of accessibility, findability, intellectual integrity and usability. The evaluation rests on the assumption that there should be as little software customzation as possible while the project specific requirements are met. To that effect, software functionality is evaluated in relation to target groups with specific requirement profiles. Keywords: Digital Editions, Transcription, Crowdsourcing, Transcription Tools Inhaltsverzeichnis 1 Einleitung 1 2 Crowdsourcing und Editionswerkzeuge 5 3 Umfrage zur Funktions- und Bedarfsanalyse 9 3.1 Durchführung . .9 3.2 Auswertung . 10 4 Auswahlkriterien 24 4.1 Checkliste für potentielle Transkriptionsprojekte . 24 4.2 Auswahl der Software für die weitere Analyse . 29 5 Prüfkriterien 32 5.1 Zugänglichkeit . 33 5.1.1 Browser-Unterstützung . 33 5.2 Auffindbarkeit . 34 5.2.1 Schnittstellen . 34 5.2.2 Verweise auf Normdaten . 34 5.3 Langlebigkeit . 35 5.3.1 Lizenz . 35 5.3.2 Codierungsformat . 35 5.3.3 Hosting . 36 5.4 Intellektuelle Redlichkeit . 36 5.4.1 Textauszeichnung . 37 5.5 Gebrauchstauglichkeit . 37 5.5.1 Transkriptionsmodus . 38 5.5.2 Textpräsentation und -Navigation . 38 5.5.3 Bearbeitungsstatistiken . 38 5.5.4 Benutzerverwaltung . 38 V Inhaltsverzeichnis 6 Analyse und Evaluation 40 6.1 Editionswerkzeuge . 40 6.1.1 FromThePage . 40 6.1.2 Refine! . 48 6.1.3 Wikisource . 55 6.1.4 Scripto . 62 6.1.5 T-PEN . 69 6.1.6 Bentham Transcription Desk . 74 7 Programmvergleich 83 7.1 Programmvergleich anhand der Prüfkriterien . 83 7.2 Programmvergleich anhand der Zielgruppe . 88 8 Fazit 101 9 Literaturverzeichnis 104 10 Anhang 116 10.1 Umfrage: Textantworten . 116 10.1.1 Art der Quellen . 116 10.1.2 Eingesetzte Editoren . 119 10.1.3 Konfrontation des Bearbeiters mit Quelltext . 121 10.1.4 Anreize zur Mitarbeit an Transkriptionsprojekten . 123 10.1.5 Technische Hilfsmittel zur Qualitätssicherung . 124 10.1.6 Funktion zur text- oder sachkritischen Kommentierung . 126 10.1.7 Speicherung in TEI . 128 10.1.8 Erstellung von Indizes . 131 10.1.9 Weitere Funktionen zur Textnavigation . 132 10.1.10 Verweise auf Normdaten oder Erschließungsinformationen . 133 10.1.11 Datenlieferung an größere Portale . 135 10.1.12 Weitere Kommentare zu Anforderungen an Editionswerkzeuge . 136 10.2 Umfrage: Multiple-Choice-Antworten . 138 10.3 Liste der Transkriptionswerkzeuge . 141 VI Abbildungsverzeichnis 6.1 FromThePage: Transkriptionsmodus . 42 6.2 FromThePage: Graph . 43 6.3 FromThePage: Bearbeitungsstatistik . 44 6.4 Refine!: Transkriptionsmodus . 50 6.5 Wikisource: Transkriptionsmodus . 57 6.6 Wikisource: Textdarstellung mit Marginalien . 57 6.7 Scripto: Komponenten . 64 6.8 Scripto: Transkriptionsmodus . 64 6.9 Scripto: Versionsgeschichte . 65 6.10 T-PEN: Transkriptionsmodus . 70 6.11 T-PEN: Werkzeugleiste . 71 6.12 T-PEN: Projektmanagement . 72 6.13 Bentham Transcription Desk: Transkriptionsmodus . 76 6.14 Bentham Transcription Desk: Digitales Bentham Repositorium . 77 6.15 Bentham Transcription Desk: Moderations-Workflow . 79 6.16 Bentham Transcription Desk: Rangliste der aktivsten Bearbeiter . 80 VII Verzeichnis der Codebeispiele 6.1 Refine!: TEI-header . 52 6.2 Wikisource: Metadaten . 59 6.3 Bentham Transcription Desk: Metadaten . 77 VIII Tabellenverzeichnis 2.1 Rose Holley’s checklist for crowdsourcing . .6 7.1 Programmvergleich: Teil 1 . 85 7.2 Programmvergleich: Teil 2 . 87 7.3 Zielgruppenspezifische Verteilung der Programmeigenschaften . 91 10.24 Mutiple Choice: Ergebnisse Deutsch und Englisch . 141 10.25 Liste der Transkriptionswerkzeuge . 147 IX Diagrammverzeichnis 7.1 FromThePage: Zielgruppenspezifische Eigenschaften . 92 7.2 Refine!: Zielgruppenspezifische Eigenschaften . 93 7.3 Wikisource: Zielgruppenspezifische Eigenschaften . 95 7.4 Scripto: Zielgruppenspezifische Eigenschaften . 97 7.5 T-PEN: Zielgruppenspezifische Eigenschaften . 99 7.6 Bentham Transcription Desk: Zielgruppenspezifische Eigenschaften . 100 X Abkürzungsverzeichnis AGPL . Affero General Public License API . Application Programming Interface CMS . Content Management System CSS . Cascading Stylesheets DCB . Dictionary of Canadian Biography DFG . Deutsche Forschungsgemeinschaft DNB . Dictionary of National Biography EAD . Encoded Archival Description ECL . Educational Community License EPL . Eclipse Public License ePub . Electronic Publication ESTC . English Short Title Catalogue FTP . File Transfer Protocol GKD . Gemeinsame Körperschaftsdatei GND . Gemeinsame Normdatei GPL . General Public License GUI . Graphical User Interface HTML . Hypertext Markup Language HTTP . Hypertext Transfer Protocol JSON . JavaScript Object Notation LAMP . Linux Apache HTTP Server MySQL PHP LC . Library of Congress LGPN . Lexicon of Greek Personal Names MAB . Maschinelles Austauschformat für Bibliotheken MARC . Machine-Readable Cataloging MIT . Massachusetts Institute of Technology NDB . Neue Deutsche Biographie OAI-PMH . Open Archives Initiative Protocol for Metadata Harvesting XI Abkürzungsverzeichnis OCR . Optical Character Recognition OPAC . Online Public Access Catalogue PDF . Portable Document Format PND . Personennamendatei RDF . Resource Description Framework RTF . Rich Text Format TGN . Thesaurus of Geographic Names URL . Uniform Resource Locator VD17 . Verzeichnis der im deutschen Sprachraum erschienenen Drucke des 17. Jahrhunderts VIAF . Virtual International Authority File W3C . World Wide Web Consortium WYSIWYG . What You See Is What You Get XHTML . eXtensible HyperText Markup Language XQuery . XML Query Language XSLT . Extensible Stylesheet Language Transformations XII 1 Einleitung Die Anregung für das Thema der vorliegenden Arbeit gaben Planungen zur Erstellung einer digitalen Edition für den Archivbestand der Immediats-Zeitungsberichte des Pots- damer Regierungspräsidenten von 1855/1867 bis 1890/1914 im Brandenburgischen Lan- deshauptarchiv1, den sogenannten preußischen Zeitungsberichten. Die Transkription der handschriftlichen Berichte sollte mit Mitteln des Crowdsourcing vorgenommen werden und als Ergebnis wurde eine digitale Edition mit Indizes zu Ortsnamen, Personennamen etc. sowie Anmerkungen und Verweisen auf korrespondierende archivalische Quellen an- gesetzt. Die Evaluation geeigneter Software zur Realisierung dieser