Durchleuchtet PDF Ist Der Standard Für Den Austausch Von Dokumenten, Denn PDF-Dateien Sehen Auf
Total Page:16
File Type:pdf, Size:1020Kb
WORKSHOP PDF-Dateien © alphaspirit, 123RF © alphaspirit, PDF-Dateien verarbeiten und durchsuchbar machen Durchleuchtet PDF ist der Standard für den Austausch von Dokumenten, denn PDF-Dateien sehen auf Daniel Tibi, allen Rechnern gleich aus. Für Linux gibt es zahlreiche Tools, mit denen Sie alle Möglich- Christoph Langner, Hans-Georg Eßer keiten dieses Dateiformats ausreizen. okumente unterschiedlichster Art, in einem gedruckten Text, Textstellen mar- denen Sie über eine Texterkennung noch von Rechnungen über Bedie- kieren oder Anmerkungen hinzufügen. eine Textebene hinzufügen müssen. D nungsanleitungen bis hin zu Bü- Als Texterkennungsprogramm für Linux chern und wissenschaftlichen Arbeiten, Texterkennung empfiehlt sich die OCR-Engine Tesseract werden heute digital verschickt, verbrei- Um die Möglichkeiten des PDF-Formats [1]. Die meisten Distributionen führen das tet und genutzt – vorzugsweise im platt- voll auszureizen, sollten PDF-Dateien Programm in ihren Paketquellen: formunabhängigen PDF-Format. Durch- durchsuchbar sein. So durchstöbern Sie l Unter OpenSuse installieren Sie tesse suchbare Dokumente erleichtern das etwa gleich mehrere Dokumente nach be- ractocr und eines der Sprachpakete, schnelle Auffinden einer bestimmten stimmten Wörtern und finden innerhalb z. B. tesseractocrtraineddatagerman. Stelle in der Datei, Metadaten liefern zu- einer Datei über die Suchfunktion des (Das Paket für die englische Sprache sätzliche Informationen. PDF-Betrachters schnell die richtige Stelle. richtet OpenSuse automatisch mit ein.) Zudem gibt es zahlreiche Möglichkei- PDF-Dateien, die Sie mit LaTeX oder Libre- l Für Ubuntu und Linux Mint wählen ten, PDF-Dokumente zu bearbeiten: Ganz Office erstellen, lassen sich üblicherweise Sie tesseractocr und ein Sprachpaket, nach Bedarf lassen sich Seiten entfernen, bereits durchsuchen. Anders sieht es je- wie etwa tesseractocrdeu. neue einfügen oder einzelne Seiten zu ei- doch bei PDF-Dateien aus, die Sie aus In beiden Fällen wird Support für englisch- ner neuen PDF-Datei zusammenfügen. Scans erstellen: Sie bestehen nach dem sprachige Texte automatisch mitinstalliert Auch können Sie in einer PDF-Datei, wie Scan zunächst nur aus reinen Bilddaten, und lässt sich auch nicht abwählen. 66 www.easylinux.de EasyLinux 02/18 – 04/18 PDF-Dateien WORKSHOP Am Ende definieren Sie Metadaten wie Titel, Autor, Betreff und Schlagwörter für das ausgegebene PDF-Dokument. Ein- zelne Wörter tragen Sie einfach hinter dem entsprechenden Schalter ein, meh- rere Wörter oder ganze Sätze gehören in Anführungszeichen. Zuletzt steht der Name der Eingabedatei, gefolgt vom Na- men der Ausgabedatei. Als Ergebnis er- halten Sie eine durchsuchbare PDF-Datei. Abb. 1: Mit „pdfgrep“ durchsuchen Sie PDF-Dateien von der Kommandozeile aus. Gesucht, gefunden Das Programm selbst bringt keine gra- richtige Sprache einstellen. Ohne diese Innerhalb einer durchsuchbaren PDF-Da- fische Oberfläche mit, doch auch auf der Angabe geht OCRmyPDF (und damit tei kommen Sie nun über die Suchfunk- Kommandozeile lässt sich der Inhalt einer auch Tesseract) davon aus, dass es sich tion des PDF-Betrachters zur gewünsch- Bilddatei komplett in maschinenlesbaren um einen englischen Text handelt. ten Textstelle. Möchten Sie mehrere PDF- Text übersetzen. Mit tesseract ‑‑listlangs Die beiden Optionen c und d veran- Dateien nach bestimmten Ausdrücken erhalten Sie eine Liste aller Sprachen, die lassen das Tool, Scanfehler, wie etwa durchsuchen, greifen Sie auf das Pro- Tesseract verarbeiten kann; unter Open- dunkle Balken, zu korrigieren und schief gramm pdfgrep [5] zurück, das wir in Suse erscheinen z. B. eng, deu und deu_ gescannten Text gerade auszurichten. Ausgabe 03/2016 vorgestellt haben [6]. frak (Frakturschrift). Mit dem Befehl Dazu greift OCRmyPDF auf das dafür op- Vor der Nutzung steht die Einrichtung timierte Werkzeug Unpaper [4] zurück. der Software, die nicht zur Standardaus- tesseract ‑l deu beispiel.jpg beispiel.txt Ohne weitere Angaben nutzt OCRmyPDF wahl der gängigen Distributionen gehört. weisen Sie Tesseract an, den Scan in bei die mit Unpaper verbesserten Seiten nur OpenSuse-Anwender installieren das spiel.jpg zu analysieren und die Ergeb- intern zur Texterkennung, erst durch die Programm über die One-Click-Funktion nisse nach beispiel.txt zu schreiben. Da- Option i landen die bereinigten Scans von der zugehörigen Paketseite [7] aus mit liegt nun eine durchsuchbare Textda- auch in der Ausgabedatei. dem Repository Publishing; bei Ubuntu tei auf der Festplatte. Eine PDF-Datei, die Das Hinzuziehen von Unpaper funktio- und Linux Mint ist das Paket pdfgrep im Sie aus dem Bild erzeugen, enthält aber niert gut – allerdings meist nur dann, universe-Repository enthalten, das Sie PDF-Dateien verarbeiten und durchsuchbar machen weiterhin nur die Bilddaten. wenn der Scan ausschließlich Fließtext eventuell erst in der Datei /etc/apt/ Anwendungen wie OCRmyPDF [2] ge- enthält. Finden sich im gescannten Doku- sources.list aktivieren müssen. hen nun einen Schritt weiter und betten ment auch Bilder und grafische Elemente, Möchten Sie beispielsweise alle ge- den von Tesseract mit OCR ermittelten kommt es durchaus vor, dass Unpaper scannten Rechnungen aus dem Jahr 2016 Text direkt ins PDF-Dokument ein, wo- auch diese als Scanfehler ansieht und finden, nutzen Sie folgenden Befehl: Durchleuchtet durch dieses durchsuchbar wird. löscht. Verzichten Sie daher im Zweifel Ubuntu-Anwender finden das Pro- besser auf die Option. pdfgrep ‑i ‑n 'rechnung|2016' *.pdf gramm im Paket ocrmypdf, für Linux Mint (das auf der alten Ubuntu-Version 16.04 basiert) ist es nicht verfügbar. Unter OpenSuse liegt das Paket in keinem Stan- dardrepository; eine Installation ist aber über die Paketsuche auf software.open suse.org möglich – der Treffer [3] erlaubt eine One-Click-Installation. Um aus einem Scan eine durchsuch- bare PDF-Datei zu erstellen, verwenden Sie Kommandos der folgenden Form: ocrmypdf ‑l deu artikel.pdf artikel_ocr.pdf ocrmypdf ‑l deu ‑c ‑d ‑i ‑‑title "SherlockU Holmes: Ein Skandal in Böhmen" ‑‑author "U Arthur Conan Doyle" ‑‑subject Scan ‑‑keywoU rds "Krimi, Kurzgeschichte" scan.pdf scan_U ocr.pdf Da Texterkennung mit Tesseract nicht einfach nur Buchstabe für Buchstabe ana- lysiert, sondern das Ergebnis mit einem sprachspezifischen Wörterbuch abgleicht, Abb. 2: OCRFeeder kommt auch mit kompliziertem Layout problemlos zurecht, wie hier müssen Sie den Aufruf mit ldeu auf die mit einem Zeitschriftenartikel. EasyLinux 02/18 – 04/18 www.easylinux.de 67 WORKSHOP PDF-Dateien este OpenSuse-Version, gaben lassen sich bei vielen PDF-Doku- für die sich bei der Pa- mentenbetrachtern einblenden (Abbil- ketsuche ein Treffer fin- dung 3). Zum Ändern oder Löschen der det, ist Leap 42.1. Metadaten bietet sich das PDF Toolkit [9] Nach der Installation an. Installieren Sie unter OpenSuse, können Sie ein neues Ubuntu und Mint das Paket pdftk über Dokument scannen oder die Paketverwaltung. ein bereits eingelesenes Die Metadaten zum Dokument scan.pdf Dokument als Grafik lesen Sie mit den folgenden Kommandos oder PDF-Datei öffnen. aus (erste Zeile) bzw. schreiben sie wie- Um Scanfehler zu korri- der zurück (zweite Zeile): gieren und den Text zu pdftk scan.pdf dump_data output metadateU begradigen, greift auch n.txt OCRFeeder auf Unpaper pdftk scan.pdf update_info metadaten.txtU zurück: Dessen Funktio- output scan_updated.pdf nen rufen Sie über Werkzeuge/Unpaper Als Puffer dient dabei die Datei metada sowie Werkzeuge/Bil ten.txt. Listing 1 zeigt, wie eine solche derbegradigen auf. Textdatei aussieht. Die Daten in den Zei- Anschließend starten len 1 bis 24 enthalten Autor, Titel, Betreff, Abb. 3: PDF-Dateien beinhalten oft zusätzliche Metadaten. Sie die Texterkennung Schlagwörter, Erstelldatum, Änderungs- Viewer wie Evince zeigen diese in den Eigenschaften an. über den Menüpunkt datum, das Programm, mit dem das ur- Dokument/Dokument sprüngliche Dokument vor der Konvertie- Durch die Option i ignoriert pdfgrep bei erkennen. Nach Abschluss der Aktion er- rung ins PDF-Format erstellt wurde, so- der Suche Groß- und Kleinschreibung. Die scheint der erkannte Text in einem Edi- wie das Programm, mit dem das Doku- Option n gibt zusätzlich zur jeweiligen torfenster. Dort bietet OCRFeeder die ment ursprünglich erstellt wurde. Fundstelle aus, auf welcher Seite der PDF- Möglichkeit, Korrekturen vorzunehmen Die Informationen gliedern sich jeweils Datei sie sich befindet (Abbildung 1). und den Text zu formatieren (Abbil- in Dreierblöcke: Auf den Beginn eines dung 2). Das Ergebnis lässt sich dann Metadaten-Blocks (Zeile 1) folgen die Art Klicken statt tippen nicht nur als durchsuchbare PDF-Datei der Information (Zeile 2: Autor) und Möchten Sie mehr Kontrolle über die speichern: Die Exportfunktion unter- schließlich der eigentliche Wert (Zeile 3: Text er kennung haben, greifen die bisher stützt neben blanken Textdateien und Autorenname). In den Zeilen 25 und 26 beschriebenen Kommandozeilenwerk- HTML auch die Ausgabe im ODT-For- stehen zwei Prüfsummen, die zur Identi- zeuge zu kurz. Hier setzt das (leider nur mat, um das Dokument in LibreOffice fizierung der Datei dienen. Die erste für Ubuntu & Co. verfügbare) Programm weiterzubearbeiten. Die freie Bürosuite (Zeile 25) ist unveränderlich und stimmt OCRFeeder [8] an: Es übernimmt die Lay- wiederum eröffnet Exportmöglichkeiten mit der zweiten (Zeile 26) überein, wenn outanalyse und nutzt für die Texterken- nach RTF, DOC oder DOCX. Sie das Dokument erstmals erstellen. Die nung unterschiedliche OCR-Engines, da- zweite Prüfsumme