<<

WORKSHOP PDF-Dateien © alphaspirit, 123RF © alphaspirit,

PDF-Dateien verarbeiten und durchsuchbar machen Durchleuchtet PDF ist der Standard für den Austausch von Dokumenten, denn PDF-Dateien sehen auf

Daniel Tibi, allen Rechnern gleich aus. Für gibt es zahlreiche Tools, mit denen Sie alle Möglich- Christoph Langner, Hans-Georg Eßer keiten dieses Dateiformats ausreizen.

okumente unterschiedlichster Art, in einem gedruckten Text, Textstellen mar- denen Sie über eine Texterkennung noch von Rechnungen über Bedie- kieren oder Anmerkungen hinzufügen. eine Textebene hinzufügen müssen. D nungsanleitungen bis hin zu Bü- Als Texterkennungsprogramm für Linux chern und wissenschaftlichen Arbeiten, Texterkennung empfiehlt sich die OCR-Engine werden heute digital verschickt, verbrei- Um die Möglichkeiten des PDF-Formats [1]. Die meisten Distributionen führen das tet und genutzt – vorzugsweise im platt- voll auszureizen, sollten PDF-Dateien Programm in ihren Paketquellen: formunabhängigen PDF-Format. Durch- durchsuchbar sein. So durchstöbern Sie l Unter OpenSuse installieren Sie tesse­ suchbare Dokumente erleichtern das etwa gleich mehrere Dokumente nach be- ract­-ocr und eines der Sprachpakete, schnelle Auffinden einer bestimmten stimmten Wörtern und finden innerhalb z. B. tesseract-ocr-traineddata-german. Stelle in der Datei, Metadaten liefern zu- einer Datei über die Suchfunktion des (Das Paket für die englische Sprache sätzliche Informationen. PDF-Betrachters schnell die richtige Stelle. richtet OpenSuse automatisch mit ein.) Zudem gibt es zahlreiche Möglichkei- PDF-Dateien, die Sie mit LaTeX oder Libre- l Für und wählen ten, PDF-Dokumente zu bearbeiten: Ganz Office erstellen, lassen sich üblicherweise Sie tesseract-ocr und ein Sprachpaket, nach Bedarf lassen sich Seiten entfernen, bereits durchsuchen. Anders sieht es je- wie etwa tesseract-ocr-deu. neue einfügen oder einzelne Seiten zu ei- doch bei PDF-Dateien aus, die Sie aus In beiden Fällen wird Support für englisch- ner neuen PDF-Datei zusammenfügen. Scans erstellen: Sie bestehen nach dem sprachige Texte automatisch mitinstalliert Auch können Sie in einer PDF-Datei, wie Scan zunächst nur aus reinen Bilddaten, und lässt sich auch nicht abwählen.

66 www.easylinux.de EasyLinux 02/18 – 04/18 PDF-Dateien WORKSHOP

Am Ende definieren Sie Metadaten wie Titel, Autor, Betreff und Schlagwörter für das ausgegebene PDF-Dokument. Ein- zelne Wörter tragen Sie einfach hinter dem entsprechenden Schalter ein, meh- rere Wörter oder ganze Sätze gehören in Anführungszeichen. Zuletzt steht der Name der Eingabedatei, gefolgt vom Na- men der Ausgabedatei. Als Ergebnis er- halten Sie eine durchsuchbare PDF-Datei. Abb. 1: Mit „pdfgrep“ durchsuchen Sie PDF-Dateien von der Kommandozeile aus. Gesucht, gefunden Das Programm selbst bringt keine gra- richtige Sprache einstellen. Ohne diese Innerhalb einer durchsuchbaren PDF-Da- fische Oberfläche mit, doch auch auf der Angabe geht OCRmyPDF (und damit tei kommen Sie nun über die Suchfunk- Kommandozeile lässt sich der Inhalt einer auch Tesseract) davon aus, dass es sich tion des PDF-Betrachters zur gewünsch- Bilddatei komplett in maschinenlesbaren um einen englischen Text handelt. ten Textstelle. Möchten Sie mehrere PDF- Text übersetzen. Mit tesseract ‑‑list‑langs Die beiden Optionen ‑ und ‑d veran- Dateien nach bestimmten Ausdrücken erhalten Sie eine Liste aller Sprachen, die lassen das Tool, Scanfehler, wie etwa durchsuchen, greifen Sie auf das Pro- Tesseract verarbeiten kann; unter Open- dunkle Balken, zu korrigieren und schief gramm pdfgrep [5] zurück, das wir in Suse erscheinen z. B. eng, deu und deu_ gescannten Text gerade auszurichten. Ausgabe 03/2016​ vorgestellt haben [6]. frak (Frakturschrift). Mit dem Befehl Dazu greift OCRmyPDF auf das dafür op- Vor der Nutzung steht die Einrichtung timierte Werkzeug Unpaper [4] zurück. der Software, die nicht zur Standardaus- tesseract ‑l deu beispiel.jpg beispiel.txt Ohne weitere Angaben nutzt OCRmyPDF wahl der gängigen Distributionen gehört. weisen Sie Tesseract an, den Scan in bei­ die mit Unpaper verbesserten Seiten nur OpenSuse-Anwender installieren das spiel.jpg zu analysieren und die Ergeb- intern zur Texterkennung, erst durch die Programm über die One-Click-Funktion nisse nach beispiel.txt zu schreiben. Da- Option ‑i landen die bereinigten Scans von der zugehörigen Paketseite [7] aus mit liegt nun eine durchsuchbare Textda- auch in der Ausgabedatei. dem Repository Publishing; bei Ubuntu tei auf der Festplatte. Eine PDF-Datei, die Das Hinzuziehen von Unpaper funktio- und Linux Mint ist das Paket pdfgrep im Sie aus dem Bild erzeugen, enthält aber niert gut – allerdings meist nur dann, universe-Repository enthalten, das Sie PDF-Dateien verarbeiten und durchsuchbar machen weiterhin nur die Bilddaten. wenn der Scan ausschließlich Fließtext eventuell erst in der Datei /etc/​apt/​­ Anwendungen wie OCRmyPDF [2] ge- enthält. Finden sich im gescannten Doku- sources.list aktivieren müssen. hen nun einen Schritt weiter und betten ment auch Bilder und grafische Elemente, Möchten Sie beispielsweise alle ge- den von Tesseract mit OCR ermittelten kommt es durchaus vor, dass Unpaper scannten Rechnungen aus dem Jahr 2016 Text direkt ins PDF-Dokument ein, wo- auch diese als Scanfehler ansieht und finden, nutzen Sie folgenden Befehl: Durchleuchtet durch dieses durchsuchbar wird. löscht. Verzichten Sie daher im Zweifel Ubuntu-Anwender finden das Pro- besser auf die Option. pdfgrep ‑i ‑n 'rechnung|2016' *. gramm im Paket ocrmypdf, für Linux Mint (das auf der alten Ubuntu-Version 16.04 basiert) ist es nicht verfügbar. Unter OpenSuse liegt das Paket in keinem Stan- dardrepository; eine Installation ist aber über die Paketsuche auf software.open­ suse.org möglich – der Treffer [3] erlaubt eine One-Click-Installation. Um aus einem Scan eine durchsuch- bare PDF-Datei zu erstellen, verwenden Sie Kommandos der folgenden Form:

ocrmypdf ‑l deu artikel.pdf artikel_ocr.pdf ocrmypdf ‑l deu ‑c ‑d ‑i ‑‑title "SherlockU Holmes: Ein Skandal in Böhmen" ‑‑author "U Arthur Conan Doyle" ‑‑subject Scan ‑‑keywoU rds "Krimi, Kurzgeschichte" scan.pdf scan_U ocr.pdf Da Texterkennung mit Tesseract nicht einfach nur Buchstabe für Buchstabe ana- lysiert, sondern das Ergebnis mit einem sprachspezifischen Wörterbuch abgleicht, Abb. 2: OCRFeeder kommt auch mit kompliziertem Layout problemlos zurecht, wie hier müssen Sie den Aufruf mit ‑l deu auf die mit einem Zeitschriftenartikel.

EasyLinux 02/18 – 04/18 www.easylinux.de 67 WORKSHOP PDF-Dateien

este OpenSuse-Version, gaben lassen sich bei vielen PDF-Doku- für die sich bei der Pa- mentenbetrachtern einblenden (Abbil- ketsuche ein Treffer fin- dung 3). Zum Ändern oder Löschen der det, ist Leap 42.1. Metadaten bietet sich das PDF Toolkit [9] Nach der Installation an. Installieren Sie unter OpenSuse, können Sie ein neues Ubuntu und Mint das Paket pdftk über Dokument scannen oder die Paketverwaltung. ein bereits eingelesenes Die Metadaten zum Dokument scan.pdf Dokument als Grafik lesen Sie mit den folgenden Kommandos oder PDF-Datei öffnen. aus (erste Zeile) bzw. schreiben sie wie- Um Scanfehler zu korri- der zurück (zweite Zeile): gieren und den Text zu pdftk scan.pdf dump_data output metadateU begradigen, greift auch n.txt OCRFeeder auf Unpaper pdftk scan.pdf update_info metadaten.txtU zurück: Dessen Funktio- output scan_updated.pdf nen rufen Sie über Werkzeuge / Unpaper Als Puffer dient dabei die Datei metada­ sowie Werkzeuge / Bil­ ten.txt. Listing 1 zeigt, wie eine solche der begradigen auf. Textdatei aussieht. Die Daten in den Zei- Anschließend starten len 1 bis 24 enthalten Autor, Titel, Betreff, Abb. 3: PDF-Dateien beinhalten oft zusätzliche Metadaten. Sie die Texterkennung Schlagwörter, Erstelldatum, Änderungs- Viewer wie zeigen diese in den Eigenschaften an. über den Menüpunkt datum, das Programm, mit dem das ur- Dokument / Dokument sprüngliche Dokument vor der Konvertie- Durch die Option ‑i ignoriert pdfgrep bei erkennen. Nach Abschluss der Aktion er- rung ins PDF-Format erstellt wurde, so- der Suche Groß- und Kleinschreibung. Die scheint der erkannte Text in einem Edi- wie das Programm, mit dem das Doku- Option ‑n gibt zusätzlich zur jeweiligen torfenster. Dort bietet OCRFeeder die ment ursprünglich erstellt wurde. Fundstelle aus, auf welcher Seite der PDF- Möglichkeit, Korrekturen vorzunehmen Die Informationen gliedern sich jeweils Datei sie sich befindet (Abbildung 1). und den Text zu formatieren (Abbil- in Dreierblöcke: Auf den Beginn eines dung 2). Das Ergebnis lässt sich dann Metadaten-Blocks (Zeile 1) folgen die Art Klicken statt tippen nicht nur als durchsuchbare PDF-Datei der Information (Zeile 2: Autor) und Möchten Sie mehr Kontrolle über die speichern: Die Exportfunktion unter- schließlich der eigentliche Wert (Zeile 3: Text­er­kennung haben, greifen die bisher stützt neben blanken Textdateien und Autorenname). In den Zeilen 25 und 26 beschriebenen Kommandozeilenwerk- HTML auch die Ausgabe im ODT-For- stehen zwei Prüfsummen, die zur Identi- zeuge zu kurz. Hier setzt das (leider nur mat, um das Dokument in LibreOffice fizierung der Datei dienen. Die erste für Ubuntu & Co. verfügbare) Programm weiterzubearbeiten. Die freie Bürosuite (Zeile 25) ist unveränderlich und stimmt OCRFeeder [8] an: Es übernimmt die Lay- wiederum eröffnet Exportmöglichkeiten mit der zweiten (Zeile 26) überein, wenn outanalyse und nutzt für die Texterken- nach RTF, DOC oder DOCX. Sie das Dokument erstmals erstellen. Die nung unterschiedliche OCR-Engines, da­ zweite Prüfsumme entsteht jedes Mal runter­ neben Cuneiform, GOCR und Metadaten neu, sobald Sie das Dokument verändern. auch Tesseract. Die Wahl des OCR- Ähnlich den EXIF-Daten von Digitalfotos In Zeile 27 steht die Anzahl der Seiten. Werkzeugs treffen Sie im Programm unter enthalten auch PDF-Dokumente optionale Die Daten in der Datei metadaten.txt Werkzeuge / OCR-Anwendungen. Metadaten wie etwa Titel, Autor, Doku- bearbeiten Sie mit einem beliebigen Text- Ubuntu-Anwender installieren das Pa- mentenart, Schlagwörter, Erstell- und Än- editor. Zum Löschen einzelner Metadaten ket , für OpenSuse sind leider derungsdatum sowie das Programm, mit entfernen Sie den jeweiligen Wert von aktuell keine Pakete verfügbar. Die neu- dem die PDF-Datei erstellt wurde. Die An- InfoValue, so dass ein leeres Feld übrig-

LISTING 1: PDF-METADATEN

01 InfoBegin 10 InfoBegin 20 InfoKey: Creator 02 InfoKey: Author 11 InfoKey: Keywords 21 InfoValue: ocrmypdf 4.1.2 / Tesseract OU 03 InfoValue: Arthur Conan Doyle 12 InfoValue: Krimi, Kurzgeschichte CR 3.03 04 InfoBegin 13 InfoBegin 22 InfoBegin 05 InfoKey: Title 14 InfoKey: CreationDate 23 InfoKey: Producer 06 InfoValue: Sherlock Holmes: Ein SkandalU 15 InfoValue: D:20160624090000+02'00' 24 InfoValue: GPL 9.15 in Böhmen 16 InfoBegin 07 InfoBegin 17 InfoKey: ModDate 25 PdfID0: 4b6f80885c8cd32aa1ecfd450d73905b 08 InfoKey: Subject 18 InfoValue: D:20160624090000+02'00' 26 PdfID1: 4b6f80885c8cd32aa1ecfd450d73905b 09 InfoValue: Scan 19 InfoBegin 27 NumberOfPages: 42

68 www.easylinux.de EasyLinux 02/18 – 04/18 PDF-Dateien WORKSHOP

bleibt. Anschließend speichern Sie die Änderungen in der Textdatei und schrei- ben die geänderten Metadaten über pdftk scan.pdf update_info metadaten.txt out­ put scan_updated.pdf in die neue Datei scan_updated.pdf. Fallen solche Arbeiten öfter an, auto- matisieren Sie die Arbeitsschritte mit ei- nem einfachen Shell-Skript. Dazu spei- chern Sie den Inhalt von Listing 2 in einer Textdatei (etwa metadaten.sh), die Sie mit chmod +x metadaten.sh ausführbar machen. Alternativ erledigen Sie das über die Dateieigenschaften in einem Dateima- nager. Schließlich schieben Sie die Datei am besten nach ~/​bin – das Verzeichnis liegt üblicherweise im Pfad (der über die Shell-Variable PATH definiert ist), so dass Abb. 4: PDF Chain bietet eine einfache, aber nützliche grafische Oberfläche zu dem leis- die Shell das Skript findet. tungsfähigen PDF Toolkit („pdftk“). Anschließend rufen Sie das Skript über metadaten.sh scan.pdf auf. Das Skript (Zeile 7). Insgesamt entsteht ein PDF-Do- der Dateinamen beim Aufruf von pdftk liest zunächst die Metadaten aus der an- kument mit demselben Namen, den die entspricht. gegebenen PDF-Datei (z. B. scan.pdf) und Ausgangsdatei trug, das aber die geänder- Umgekehrt extrahieren Sie mit pdftk ge- speichert sie in der Textdatei scan.pdf.txt ten Metadaten enthält. zielt Passagen aus einem längeren Doku- (Zeile 2). Die öffnet sich dann im Textedi- ment. Angenommen, Sie möchten die Ti- tor kwrite (Zeile 3) – hier tragen Sie, falls Werkzeugkasten telseite eines E-Books auf Seite 1 sowie kwrite nicht installiert ist oder Sie einen Mit dem PDF Toolkit (pdftk) steht Ihnen den Inhalt zwischen den Seiten 42 und 73 anderen Editor bevorzugen, einen alter- ein umfangreiches Programm zum Bear- als schlanke PDF-Datei vorliegen haben, nativen Programmnamen ein, z. B. vi. beiten von PDF-Dateien zu Verfügung, dann erreichen Sie dies mit pdftk buch.pdf Sobald Sie den Editor schließen, geht mit dem Sie nicht nur Metadaten auslesen cat 1 42‑73 output kapitel.pdf. der Bearbeitungslauf weiter: Das Skript und bearbeiten oder mehrere PDF-Da- Alternativ drehen Sie z. B. ein Doku- überträgt die geänderten Metadaten in teien zusammenfügen, sondern auch ein- ment in die richtige Position, das nach eine neue PDF-Datei (Zeile 4) und räumt zelne Seiten aus einem PDF-Dokument dem Scan im Querformat vorliegt: abschließend noch ein wenig auf: Die alte extrahieren, Seiten rotieren sowie PDF- pdftk scan_quer.pdf cat 1‑endeast outputU PDF- und die Textdatei mit dem Metada- Dateien verschlüsseln und mit einem scan_hoch.pdf ten löscht es (Zeile 5 und 6), die neue Passwortschutz versehen. PDF-Datei erhält den Namen der alten Liegt Ihnen etwa der Scan eines Welche Seiten Sie in welche Richtung Buchs vor, bei dem jedes Kapitel in ei - drehen, bestimmen Sie über die Option LISTING 2: „metadaten.sh“ ner eigenen Datei steckt, fügen Sie die 1‑endeast. Dabei bedeutet 1‑end: von einzelnen Dateien zu einem Gesamtdo- Seite 1 bis zum Ende, also alle Seiten. 01 #!/bin/bash kument zusammen: Dazu kommt die Drehrichtung, hier east, 02 pdftk $1 dump_data output $1.txt also 90 Grad im Uhrzeigersinn (nach „Os- pdftk kap1.pdf kap2.pdf kap3.pdf cat outpU 03 kwrite "$1.txt" ten“). Als weitere Drehrichtungen gibt es ut buch.pdf 04 pdftk $1 update_info $1.txt output $1U south (nach „Süden“, also um 180 Grad) .updated.pdf oder kurz: und west (nach „Westen“, also 90 Grad gegen den Uhrzeigersinn). 05 rm $1 pdftk kap*.pdf cat output buch.pdf Darüber hinaus bietet pdftk die Mög- 06 rm $1.txt Beachten Sie, dass die Sortierung im er- lichkeit, das Dokument vor fremden Bli- 07 mv $1.updated.pdf $1 zeugten PDF-Dokument der Reihenfolge cken zu schützen. Die Option encrypt_

LISTING 3: PDF-DATEIEN VERSCHLÜSSELN

# einfacher Passwortschutz pdftk datei.pdf output datei_verschluesselt.pdf user_pw Passwort # User‑ und Besitzer‑Passwörtern pdftk datei.pdf output verschluesselt.pdf user_pw Passwort owner_pw Passwort2 # Drucken erlauben pdftk datei.pdf output verschluesselt.pdf user_pw Passwort owner_pw Passwort1 encrypt_128bit allow printing

EasyLinux 02/18 – 04/18 www.easylinux.de 69 WORKSHOP PDF-Dateien

eine maximale Dateigröße vor. Daher gilt es, schon beim Scannen auf die richtige Auflösung zu achten: Ein Schwarz-Weiß- Scan in 72 dpi genügt üblicherweise zum Lesen, jedoch nicht für eine Texterken- nung. In der Praxis resultiert ein Schwarz- Weiß-Scan mit 300 dpi in einem ausgegli- chenen Verhältnis von guter Qualität und handhabbarer Dateigröße. Gerät eine PDF-Datei doch einmal zu groß, skalieren Sie deren Auflösung mit Ghostscript [12] herunter oder optimieren das Dokument gleich komplett für ver- schiedene Einsatzzwecke. Bei Ubuntu, Mint und OpenSuse ist das Programm vorinstalliert. Der Befehl

gs ‑sDEVICE=pdfwrite ‑sPAPERSIZE=a4 ‑r72 -U dNOPAUSE ‑dBATCH ‑sOutputFile=output.pdf iU nput.pdf Abb. 5: Mit Krop teilen Sie eingescannte Doppelseiten schnell und einfach auf zwei ein- zelne Seiten im PDF-Dokument auf. veranlasst Ghostscript, aus der PDF-Datei input.pdf eine verkleinerte PDF-Datei out­ 128bit verschlüsselt die PDF-Datei mit ei- Doppelseiten in zwei Einzelseiten zertei- put.pdf im Format DIN-A4 mit einer Auf- nem 128 Bit langen Schlüssel, wobei Sie len (Abbildung 5). lösung von 72 dpi zu erstellen. das Passwort mit user_pw Passwort set- Die Installation ist etwas umständli- l Die Option ‑dNOPAUSE verhindert, zen. Erweitern Sie den Aufruf via owner_ cher: Unter Ubuntu und Kubuntu geben dass Ghostscript nach jeder Seite pw Passwort2 mit einem zweiten Pass- Sie in der Shell die folgenden Befehle ein: stoppt und auf eine Bestätigung zum wort, darf nur noch der „Besitzer“ das Weitermachen wartet. wget http://arminstraub.com/downloads/kroU Dokument drucken oder bearbeiten – es l ‑dBATCH bewirkt, dass Ghostscript sich p/krop_0.4.13‑1_all.deb sei denn, Sie geben die Rechte mit Optio- zum Schluss automatisch beendet. sudo apt install ./krop_0.4.13‑1_all.deb nen wie allow printing explizit frei (Lis- Der Aufruf sudo apt install python‑pypdf2 ting 3). Beachten Sie jedoch, dass nur der gs ‑sDEVICE=pdfwrite ‑dCompatibilityLevel=U Adobe Reader diese DRM-Funktionen Linux-Mint-Anwender benötigen nur die 1.4 ‑dPDFSETTINGS=/ ‑dNOPAUSE ‑dQUIETU zwingend beachtet (siehe Kasten Pseudo- ersten beiden Kommandos, denn dadurch ‑dBATCH ‑sOutputFile=output.pdf input.pdf DRM in PDF-Dateien). wird das Paket python-pypdf2 gleich mit Möchten Sie sich die mit den pdftk- installiert. bewahrt die Dimensionen der PDF-Datei, Aufrufen verbundene Tipparbeit sparen, OpenSuse-Anwender nutzen wieder setzt jedoch über die Option ‑dPDFSET­ finden Sie mit PDF Chain [10] eine pas- die Paketsuche auf software.opensuse.org, TINGS=/Einstellung automatisch eine sende grafische Benutzeroberfläche (Ab- geben diesmal python3-krop in die Such- Reihe weiterer Schalter, die das Doku- bildung 4). Sie legt sämtliche Funktionen maske ein und installieren das angebo- ment für verschiedene Einsatzgebiete op- des Toolkits auf schnell erfassbare - tene Paket aus der Liste der möglicher- timieren (siehe Tabelle Ghostscript: PDF- loge, so dass Sie sich keine Kommandos weise instabilen Pakete. Einstellungen). merken müssen. Das Programm finden Eingescannte Dokumente erreichen Sie unter OpenSuse, Ubuntu und Linux schnell Größen, die mit langen Ladezeiten Markierungen und Kommentare Mint im Paket pdfchain. und Problemen beim Weiterverarbeiten Das PDF-Format eignet sich sehr gut dazu, einhergehen. Oft gibt auch der Empfänger Dokumente plattform- und anwen- Beschneiden und Komprimieren Scannt man Bücher oder Zeitschriften PSEUDO-DRM IN PDF-DATEIEN mit einem leistungsfähigen Scanner ein, landet oft eine Doppelseite auf einer Die einem PDF-Dokument zuweisbaren Beschränkungen beachten aktivieren. Seite des PDF-Dokuments. Meist wäre es Vorgaben zur digitalen Rechteminde- Der Dokumentenbetrachter Evince von jedoch wünschenswert, jede Seite der rung, wie etwa allow printing, allow as- Gnome ignoriert die DRM-Einschränkun- Vorlage tatsächlich auf einer PDF-Seite sembly oder allow copycontents, beach- gen komplett. In der Praxis bietet die abzubilden. Hier schafft das Programm tet lediglich der Adobe Reader zwin- Trennung zwischen User- und Owner- Krop [11] (nicht zu verwechseln mit gend [14]. KDEs Dokumentenbetrachter Passwort daher keinen Mehrwert. Ein- dem Kommandozeilenprogramm crop) hält sich nur an die Vorgaben, zig das Verschlüsseln über user_pw Abhilfe. Krop bietet eine Vielzahl von wenn Sie den Menüpunkt Einstellungen Passwort encrypt_128bit bietet echten Möglichkeiten, PDF-Dateien zu be- / Okular einrichten / Allgemein / DRM- Schutz vor ungewünschten Einblicken. schneiden – unter anderem kann es

70 www.easylinux.de EasyLinux 02/18 – 04/18 PDF-Dateien WORKSHOP

Abb. 6: Mit dem Master PDF Editor markieren Sie Textstellen und fügen Kommentare ein. dungsunabhängig auszutauschen – ganz Alternativ greifen Sie auf das kom- ­jbarlow83/​­OCrmyPDF so, als ob Sie das Dokument ausgedruckt merzielle Programm Master PDF Edi- (http://​­ezlx.​­de/​­k1t2) verschicken würden. Ein Nachteil der elek- tor [13] zurück, das der Hersteller in [3] OCRmyPDF für OpenSuse: https://​ tronischen Variante ist allerdings, dass Form von - und RPM-Paketen ­software.​­opensuse.​­org/​­package/​ man im digitalen Dokument nicht ohne zum Herunterladen anbietet. Das Pro- ­OCRmyPDF (http://​­ezlx.​­de/​­k1t3) Weiteres mit einem Textmarker Sätze oder gramm läuft unter Linux, macOS und [4] Unpaper: http://​­www.​­flameeyes.​­eu/​ Passagen hervorheben, Post-its mit An- Windows, und es gibt eine kostenlose ­projects/​­unpaper (http://​­ezlx.​­de/​­k1t4) merkungen anbringen oder einfach nur und funktionell eingeschränkte Version [5] pdfgrep: http://​­pdfgrep.​­org/ herumkritzeln kann. Doch auch diese für den privaten Gebrauch. Für die kos- (http://​­ezlx.​­de/​­k1t5) Funktion bietet das PDF-Format, wenn tenpflichtige Pro-Variante sind 49,95 US- [6] Artikel zu pdfgrep: Hans-Georg Eßer, auch je nach Dokumentenbetrachter in un- Dollar plus Mehrwertsteuer fällig. Das „Schöner finden“, EasyLinux 03/​2016, terschiedlicher Ausprägung. Während Programm vereint praktisch alle hier S. 112 ff., http://​­linux‑community.​­de/​ KDEs Okular Anmerkungen sowie Marker vorgestellten PDF-Manipulationen in ei- ­37033 (http://​­ezlx.​­de/​­k1t6) und einfache Malwerkzeuge bietet, müs- nem Tool (Abbildung 6). (hge) n [7] OpenSuse-Pakete (pdfgrep): https://​ sen sich Benutzer von Evince (dem ­software.​­opensuse.​­org/​­package/​­pdfgrep Gnome-Tool) mit dem Einfügen von Noti- INFOS (http://​­ezlx.​­de/​­k1t7) zen begnügen. Die Darstellung der unter- [1] Tesseract-OCR: http://​­github.​­com/​ [8] OCRFeeder: http://​­wiki.​­gnome.​­org/​­Apps/​ schiedlichen Anmerkungen klappt jedoch ­tesseract‑ocr (http://​­ezlx.​­de/​­k1t1) ­OCRFeeder (http://​­ezlx.​­de/​­k1t8) bei beiden Programmen ohne Probleme. [2] OCRmyPDF: http://​­github.​­com/​ [9] PDF Toolkit: http://​­www.​­pdflabs.​­com/​ ­tools/​­pdftk‑server (http://​­ezlx.​­de/​­k1t9) GHOSTSCRIPT: PDF-EINSTELLUNGEN [10] PDF Chain: http://​­pdfchain.​­sourceforge.​ ­net/ (http://​­ezlx.​­de/​­k1t10) Option Auflösung Kommentar [11] Krop: http://​­arminstraub.​­com/​­software/​ /screen 72 dpi Für die Darstellung am PC optimiert. ­krop (http://​­ezlx.​­de/​­k1t11) Gute Qualität bei geringer Größe. Ideal für /ebook 150 dpi [12] Ghostscript: http://​­ghostscript.​­com/ Scans von Zeugnissen für Bewerbungen. (http://​­ezlx.​­de/​­k1t12) Optimiert für Ausdrucke, ergibt jedoch /printer 300 dpi [13] Master PDF Editor: http://​­code‑industry.​ recht große Dokumente. ­net/​­masterpdfeditor (http://ezlx.​­ de/​­ k1t13​­ ) Für die Weitergabe an Druckereien ge- /prepress 300 dpi [14]  Security, PDF Security dacht, keine Reduzierung der Farbanzahl. Development: http://​­www.​­locklizard.​ Optimierung für eine optimale Darstellung /default keine Angabe ­com/​­acrobat‑security/ auf unterschiedlichsten Ausgabegeräten. (http://​­ezlx.​­de/​­k1t14)

EasyLinux 02/18 – 04/18 www.easylinux.de 71