Portable Document Format Le Portable Document Format (PDF) est un format de fichier utilisé pour présenter des documents d'une manière indépendante des logiciels d’application, le matériel et les systèmes d’exploitation. Chaque fichier PDF encapsule une description complète d'un document à plat mise en page fixe, y compris le texte, les polices, les graphiques et autres informations nécessaires pour l’afficher.

1. Histoire et normalisation PDF a été développé au début des années 1990 comme un moyen de partager des documents informatiques, y compris la mise en forme de texte et des images en ligne. Il a été parmi un certain nombre de formats concurrents tels que DjVu, Envoy , Digital Paper Common Ground, Farallon Replica et même Adobe propre s ' PostScript Format. Dans ces premières années avant la montée des World Wide Web et HTML documents, PDF était populaire principalement dans l’édition de bureau workflows. Adobe Systems a fait la spécification PDF disponible gratuitement en 1993. PDF était un format propriétaire contrôlé par Adobe, jusqu'à ce qu'il ait été officiellement lancé en tant que standard ouvert le 1er Juillet 2008, et publié par l’Organisation internationale de normalisation ISO 32000-1 : 2008, au moment où le contrôle de la spécification transmis à un comité ISO d'experts du secteur bénévole. En 2008, Adobe a publié une licence de brevet publique à la norme ISO 32000-1 subventionnaires libres de droits de l' homme pour tous les brevets détenus par Adobe qui sont nécessaires pour fabriquer, utiliser, vendre et distribuer PDF implémentations conformes.

Cependant, il y a encore des technologies exclusives définies uniquement par Adobe, comme Adobe XML Forms architecture (XFA) et JavaScript extension pour Acrobat, qui sont référencés par la norme ISO 32000-1 comme normative et indispensable pour l'application de la spécification ISO 32000-1. Ces technologies propriétaires ne sont pas standardisées et leur spécification est publiée uniquement sur le site d'Adobe. Beaucoup d'entre eux sont également pas pris en charge par les implémentations populaires tiers de PDF. Ainsi, lorsque les organisations publient des fichiers PDF qui utilisent ces technologies propriétaires, ils présentent des problèmes d'accessibilité pour certains utilisateurs.

En 2014, l’ISO TC 171 a voté pour désapprouver XFA ISO 32000-2 («PDF de nouvelle génération»).

2. Fondations techniques Le PDF combine trois technologies:

 Un sous - ensemble du PostScript langue de la page de description de la programmation, pour générer la mise en page et de graphiques.  Une police-enrobage / système de remplacement pour permettre les polices de voyager avec les documents.  Un système de stockage structuré de manière à regrouper ces éléments et tout contenu associé dans un seul fichier, avec la compression de données, le cas échéant. PostScript PostScript est un langage de description de fonctionner dans un interpréteur pour générer une image, un processus nécessitant beaucoup de ressources. Il peut gérer les graphiques et la fonctionnalité standard de langages de programmation tels qu’if et les loop commandes. PDF est largement basé sur PostScript, mais simplifiée pour éliminer les fonctions de contrôle de débit comme ceux - ci, tandis que les commandes graphiques telles que lineto rester. Souvent, le code PostScript PDF-like est généré à partir d’un fichier source PostScript. Les commandes graphiques qui sont émis par le code PostScript sont collectées. Tous les fichiers, des graphiques ou des polices à laquelle le document fait également référence sont collectées. Ensuite, tout est compressé dans un fichier unique. Par conséquent, l'ensemble du monde PostScript (polices, mise en page, les mesures) reste intacte. En tant que format de document, PDF présente plusieurs avantages par rapport aux PostScript :

 PDF contient segmenté et interprété les résultats du code source PostScript, pour la correspondance directe entre les changements aux éléments dans le PDF de description de page et des modifications à l'apparence de la page résultante.  PDF (à partir de la version 1.4) prend en charge la transparence graphique ; PostScript ne fait pas.  PostScript est un langage de programmation interprété avec un état global implicite, donc les instructions accompagnant la description d'une page peuvent affecter l'apparence d'une page suivante. Par conséquent, toutes les pages précédentes dans un document PostScript doivent être traitées afin de déterminer l'apparence correcte d'une page donnée, alors que chaque page dans un document PDF est affecté par les autres. En conséquence, les téléspectateurs PDF permettent à l'utilisateur de passer rapidement aux dernières pages d'un long document, alors qu'un spectateur PostScript doit traiter toutes les pages de manière séquentielle avant de pouvoir afficher la page de destination (à moins que les PostScript en option Structuring Conventions de documents aient été soigneusement respectés).

3. Présentation technique a) Structure de fichiers

Un fichier PDF est un fichier ASCII 7 bits, sauf pour certains éléments qui peuvent avoir un contenu binaire. Un fichier PDF commence par un en- tête contenant le nombre magique et la version du format tel que %PDF-1.7. Le format est un sous - ensemble d'un (Object Structure "Carousel") Format COS. Fichier d'arbre Un COS se compose principalement d’objets, dont il existe huit types:

• Booléennes des valeurs, représentant vrai ou faux • Nombres • Cordes, enfermés entre parenthèses ((...)), peuvent contenir des caractères 8 bits. • Noms, en commençant par une barre oblique (/) • Les tableaux, commandés collections d'objets enfermés entre crochets carrés ( [...]) • Dictionnaires, collections d'objets indexés par noms enfermés dans des doubles crochets pointus ( <<...>>) • Streams, contenant généralement de grandes quantités de données, qui peuvent être compressés et binaires • Le null objetEn outre, il peut y avoir des commentaires, introduits par le signe pour cent ( % ). Les commentaires peuvent contenir des caractères 8 bits. Les objets peuvent être soit directe (incorporé dans un autre objet) ou indirecte. Objets indirects sont numérotés avec un numéro d'objet et un numéro de génération et définis entre les obj et endobj mots - clés. Une table d'index, également appelé la table de référence croisée et marqué avec le xrefmot - clé, suit le corps principal et donne le décalage de chaque objet indirect à partir du début du fichier octet. Cette conception permet une efficace accès aléatoire aux objets dans le fichier, et permet également de petites modifications à apporter sans réécrire l'intégralité du fichier (mise à jour incrémentale). Depuis la version PDF 1.5, les objets indirects peuvent également être situés dans les cours d’eau spéciaux appelés flux d’objets. Cette technique réduit la taille des fichiers qui ont un grand nombre de petits objets indirects et est particulièrement utile pour Tagged PDF. A la fin d'un fichier PDF est une remorque introduite avec le trailer mot - clé. Il contient :

 un dictionnaire  un décalage au début de la table de référence croisée (la table en commençant par le xrefmot - clé)  et la %%EOF fin de fichier marqueur. Le dictionnaire contient :

 une référence à l'objet de racine de la structure arborescente, également connu sous le nom catalogue  le nombre d'objets indirects dans la table de référence croisée  et d'autres informations facultatives.

Il existe deux configurations au format PDF: non-linéaire (pas «optimisé») et linéaire ( « optimisé »). Les fichiers PDF non-linéaires consomment moins d’espace disque que leurs homologues linéaires, mais ils sont plus lents à l’accès parce que des parties des données requises pour assembler les pages du document sont dispersés à travers le fichier PDF. Les fichiers PDF linéaires (également appelés "optimisé" ou "web optimisé" fichiers PDF) sont construits d'une manière qui leur permet d'être lu dans un plugin de navigateur Web sans attendre le téléchargement du fichier entier, car elles sont écrites sur le disque dans un linéaire (comme dans l'ordre des pages) mode. Les fichiers PDF peuvent être optimisés en utilisant logiciel ou qpdf.

b) Modèle d'imagerie

La conception de base de la façon dont les graphiques sont représentés dans le PDF est très similaire à celle de PostScript, à l' exception de l'utilisation de la transparence, qui a été ajouté au format PDF 1.4.

Graphiques PDF utilisent un dispositif indépendant du système de coordonnées cartésiennes pour décrire la surface d'une page. Une description de la page PDF peut utiliser une matrice à l’échelle, faire pivoter ou incliner les éléments graphiques. Un concept clé en PDF est celle de l’état des graphiques, qui est un ensemble de paramètres graphiques qui peuvent être modifiés, sauvegardés et restaurés par une description de la page. PDF a (à partir de la version 1.6) 24 propriétés de l’état des graphiques, dont certains des plus importants sont:  La matrice de transformation de courant (MC), qui détermine le système de coordonnées  Le chemin de détourage  L'espace colorimétrique  Le constante alpha, qui est un composant essentiel de la transparence 1) Les graphiques vectoriels Comme dans PostScript, des graphiques vectoriels en PDF sont construits avec des chemins. Les chemins sont généralement composés de lignes et de cubes courbes de Bézier , mais peuvent également être construits à partir des lignes de texte. Contrairement à PostScript, PDF ne permet pas un chemin unique pour mélanger le texte décrit avec des lignes et des courbes. Les chemins peuvent être caressés, remplis, ou utilisés pour l'écrêtage. Strokes et les remplissages peuvent utiliser toute couleur définie dans l'état des graphiques, y compris les modèles. PDF prend en charge plusieurs types de modèles. Le plus simple est le de carrelage dans lequel une œuvre d'art est spécifiée à tirer à plusieurs reprises. Cela peut être un motif de carreaux de couleur, avec les couleurs spécifiées dans l'objet de motif ou un motif de carrelage décoloré, qui reporte la spécification de couleur au moment où le motif est dessiné. A partir de PDF 1.3 il y a aussi un motif d’ombrage, qui dessine des couleurs variables en continu. Il existe sept types de motifs d'ombrage qui le plus simple sont l’ombre axiale (de type 2) et l’ombre radiale (type 3). 2) Les images raster Les images raster en PDF (appelé XObjects d’image) sont représentés par des dictionnaires avec un flux associé. Le dictionnaire décrit les propriétés de l'image, et le flux contient les données d'image. (Moins fréquemment, une image raster peut être incorporé directement dans une description de la page comme une image en ligne.) Les images sont généralement filtrées à des fins de compression. Les filtres d'image supportés au format PDF comprennent les filtres à usage général

 ASCII85Decode un filtre utilisé pour mettre le flux en 7-bit ASCII  ASCIIHexDecode similaire à ASCII85Decode mais moins compact  FlateDecode un filtre couramment utilisé sur la base du dégonflage algorithme défini dans la RFC 1951(déflater est également utilisé dans le gzip , PNG et zip formats de fichiers entre autres); introduit en PDF 1.2; il peut utiliser l' un des deux groupes de fonctions prédictives pour plus zlib compact / dégonflage compression: Predictor 2 du TIFF spécification et prédicteurs (filtres) de la 6.0 PNG spécification (RFC 2083)  LZWDecode un filtre basé sur LZW de compression; il peut utiliser l’un des deux groupes de fonctions prédictives pour plus compression LZW compact: Predictor 2 de la spécification TIFF 6.0 et prédicteurs (filtres) de la spécification PNG  RunLengthDecode une méthode de compression simple pour les flux avec des données répétitives en utilisant lecodage de longueur de l’algorithme et les filtres d'image spécifique  DCTDecode un lossy filtre basé sur le JPEG norme  CCITTFaxDecode une perte à deux niveaux (noir / blanc) filtre basé sur le groupe 3 ou du groupe 4 du CCITT (UIT-T) par télécopie standard de compression définie dans l' UIT-T T.4 et T.6  JBIG2Decode un lossy ou bi-niveau sans perte (noir / blanc) filtre basé sur le JBIG2 standard, introduit en PDF 1.4  JPXDecode un filtre avec ou sans pertes sur la base du JPEG 2000 standard, introduit en PDF 1.5 Normalement, tout le contenu de l' image dans un fichier PDF est intégré dans le fichier. Mais PDF permet à des données d'image soient stockées dans des fichiers externes par l'utilisation de courants externes ou d’autres images. Sous - ensembles normalisés de PDF, y compris PDF / A et PDF / X, interdisent ces caractéristiques. 3) Texte Texte en PDF est représenté par des éléments de texte dans les flux de contenu de la page. Un élément de texte précis que les caractères doivent être établis à certaines positions. Les caractères sont spécifiés en utilisant l’encodage d'une sélectionnée ressource police. 4) Fonts Un objet de la police au format PDF est une description d'un numérique caractère. Il peut soit décrire les caractéristiques d'une police de caractères, ou il peut inclure un incorporé fichier de police. Ce dernier cas est appelé une police intégrée alors que le premier est appelé une police non encastrée. Les fichiers de polices qui peuvent être incorporés sont basés sur les formats de polices numériques standards largement utilisés: Type 1 (et sa variante comprimé CFF), TrueType, et ( en commençant par PDF 1.6) OpenType. De plus PDF supporte le type 3 variantes dans laquelle les composants de la police sont décrits par les opérateurs graphiques PDF. Type de standard 1 les polices de caractères (Standard 14 Fonts) Quatorze caractères, appelés les 14 polices standard, ont une signification particulière dans les documents PDF:  Temps (v3) (en normal, italique, gras et italique gras)  Courier (en oblique régulière, oblique, gras et gras)  Helvetica (v3) (en oblique régulière, oblique, gras et gras)  symbole  Zapf Dingbats Ces polices sont parfois appelés la base de polices quatorze. Ces polices ou des polices de substitution appropriées avec les mêmes mesures, devraient être disponibles dans la plupart des lecteurs PDF. Cependant, depuis Adobe Acrobat la version 6, la plupart de ces polices ne sont pas garantis pour être disponible dans le lecteur, et ne peuvent afficher correctement si le système leur a installé. Les polices peuvent être substitués si elles ne sont pas intégrées dans un fichier PDF. 5) Codages Dans les chaînes de texte, les caractères sont affichés en utilisant des codes de caractères (nombres entiers) qui correspondent aux glyphes dans la police en cours en utilisant un encodage. Il y a un certain nombre d'encodages prédéfinis, y compris winansi, MacRoman , et un grand nombre de codages pour les langues d' Asie orientale, et une police peut avoir son propre codage intégré. (Bien que les codages winansi et macroman proviennent des propriétés historiques des Fenêtres et Macintosh systèmes d' exploitation, les polices en utilisant ces codages fonctionnent aussi bien sur toute plate - forme.) PDF peut spécifier un codage prédéfini à utiliser, le codage intégré de la police ou de fournir une table de consultation des différences par rapport à un codage prédéfini ou intégré (non recommandé avec des polices TrueType). Les mécanismes d'encodage au format PDF ont été conçus pour les polices Type 1, et les règles d'application pour les polices TrueType sont complexes. Pour les grandes polices ou des polices avec glyphes non-standard, le encodages spéciaux Identity-H (pour l’écriture horizontale) et Identity-V (pour vertical) sont utilisés. Avec de telles polices, il est nécessaire de fournir un To Unicode table si l’information sémantique sur les personnages doit être préservé. 6) Transparence Le modèle d'imagerie originale de PDF était, comme PostScript de, opaque : chaque objet dessiné sur la page quoi que ce soit complètement remplacé préalablement marqué au même endroit. En PDF 1.4 le modèle d'imagerie a été étendu pour permettre la transparence. Lorsque la transparence est utilisée, de nouveaux objets interagissent avec des objets précédemment marqués pour produire des effets de mélange. L'ajout de la transparence au format PDF a été fait par le biais de nouvelles extensions qui ont été conçus pour être ignorés dans les produits écrits dans le PDF 1.3 et les spécifications antérieures. Par conséquent, les fichiers qui utilisent une petite quantité de transparence pourrait voir dans acceptablement les téléspectateurs plus âgés, mais les fichiers qui utilisent largement de transparence pourrait être considérée de manière incorrecte dans un visualiser ancien sans avertissement. Les extensions de transparence sont basés sur les concepts clés de groupes de transparence, les modes de fusion, la forme, et alpha . Le modèle est étroitement aligné avec les caractéristiques d’Adobe Illustrator Version 9. Les modes de fusion ont été basés sur ceux utilisés par Adobe Photoshop à l'époque. Lorsque la spécification PDF 1.4 a été publiée, les formules de calcul des modes de fusion ont été tenus secrètes par Adobe. Ils ont depuis été publiés. Le concept d'un groupe de transparence dans la spécification PDF est indépendante des notions existantes de «groupe» ou «couche» dans des applications telles que Adobe Illustrator. Ces regroupements reflètent les relations logiques entre les objets qui sont significatifs lors de la modification de ces objets, mais ils ne font pas partie du modèle d'imagerie. c) Les éléments interactifs Les fichiers PDF peuvent contenir des éléments interactifs tels que des annotations, des champs de formulaire, vidéo et animation Flash. Rich PDF médias est un terme qui est utilisé pour décrire le contenu interactif qui peut être incorporé ou lié à l’intérieur d'un fichier PDF. Ce contenu doit être produit en utilisant le format de fichier Flash. Lorsqu’Adobe a acheté Macromedia, le joyau de la société était de Flash et le Flash player a été incorporé dans Adobe Acrobat et Adobe Reader, supprimant la nécessité pour les plug-ins tiers tels que Flash, QuickTime ou Windows Media. Malheureusement, cela a provoqué une rupture avec Apple QuickTime vidéo a été interdite à partir de PDF. Rich Media expert Robert Connolly croit cet événement a déclenché la guerre entre Apple et Adobe sur le différend flash iPhone / iPad. Rich Media PDF ne fonctionne pas dans les appareils iOS d'Apple tels que l'iPad, et l’interactivité est limitée. Interactive Forms est un mécanisme pour ajouter des formulaires au format de fichier PDF. PDF supporte actuellement deux méthodes différentes pour l’intégration des formulaires de données et PDF. Les deux formats aujourd'hui coexistent dans la spécification PDF:

 AcroForms (également connu sous le nom de formulaires Acrobat), introduit dans la spécification de format 1.2 PDF et inclus dans toutes les spécifications PDF plus tard.  Adobe XML Forms architecture (XFA) formes, introduites dans la spécification du format PDF 1.5. La spécification XFA ne figure pas dans la spécification PDF, il est seulement référencé comme une option. Adobe XFA Forms ne sont pas compatibles avec AcroForms. 1) AcroForms AcroForms ont été introduits dans le format PDF 1.2. AcroForms permettre l' utilisation d' objets ( par exemple des zones de texte , boutons radio , etc. ) et un peu de code ( par exemple JavaScript ). Outre les types d'action PDF standard, des formulaires interactifs (AcroForms) soumission de soutien, remise à zéro, et l’importation de données. L'action «soumettre» transmet les noms et les valeurs des champs de formulaire interactifs sélectionnés à un localisateur uniforme de ressource spécifiée (URL). Interactive noms et les valeurs des champs de formulaire peuvent être soumis dans l’un des formats suivants, (en fonction des paramètres de Export Format, SubmitPDF de l'action, et des drapeaux XFDF):

 format de formulaire HTML (HTML 4.01 Specification depuis PDF 1.5, HTML 2.0 depuis la version 1.2)  Format Formulaires de données (FDF)  XML Forms Data Format (XFDF) (XML externe Forms Data Format Specification, Version 2.0, supporté depuis PDF 1.5, il a remplacé le format "XML" formulaire de soumission défini dans PDF 1.4)  PDF (le document entier peut être soumis plutôt que des champs individuels et valeurs). (Défini dans PDF 1.4) AcroForms peut garder les valeurs de champ de formulaire dans des fichiers autonomes externes contenant la clé: des paires de valeurs. Les fichiers externes peuvent utiliser Format Forms Data (FDF) et XML Forms Data Format (XFDF) fichiers. Les droits d'utilisation (UR) signatures définissent des droits pour les fichiers de formulaire d'importation de données dans FDF, XFDF et texte (CSV / TSV formats) et les fichiers de données de formulaire d'exportation dans des formats FDF et XFDF. 2) Format Formulaires de données (FDF) Le Format Formulaires de données (FDF) est basé sur PDF, il utilise la même syntaxe et a essentiellement la même structure de fichier, mais il est beaucoup plus simple que PDF, puisque le corps d'un document FDF se compose d'un seul objet requis. Forms Data Format est définie dans la spécification PDF (depuis PDF 1.2). Le Format Forms de données peut être utilisé lors de la présentation des données de formulaire à un serveur, réception de la réponse, et l' incorporation dans la forme interactive. Il peut également être utilisé pour exporter des données de formulaire autonomes fichiers qui peuvent être importés de nouveau dans le formulaire interactif PDF correspondant. À partir de PDF 1.3, FDF peut être utilisé pour définir un conteneur pour les annotations qui sont séparées du document PDF qu'ils appliquent. FDF encapsule généralement des informations telles que les certificats X.509, les demandes de certificats, les paramètres du répertoire, les paramètres du serveur d'horodatage, et les fichiers PDF intégrés pour la transmission réseau. [29] Le FDF utilise le contenu MIME type application / vnd.fdf, l’extension de nom de fichier .fdf et sur Mac OS, il utilise le type de fichier "FDF". [22] Soutien pour l’importation et l’exportation de FDF autonome des fichiers ne sont pas largement mis en œuvre dans le logiciel PDF gratuit ou . Par exemple, il n'y a pas de support import / export dans , , , KPDF ou Sumatra PDF, cependant, Evince, Okular et Poppler remplissage de support dans des PDF AcroForms et la sauvegarde des données remplies à l' intérieur du fichier PDF. Subventions à l'importation pour les fichiers FDF autonomes est mis en œuvre dans Adobe Reader; exportation et le soutien à l'importation (y compris enregistrement des données FDF en PDF) est par exemple mis en œuvre dans et PDF-XChange Viewer Free; sauvegarde des données FDF dans un fichier PDF est également pris en charge dans pdftk.

3) XML Forms Data Format (XFDF) XML Forms Data Format (XFDF) est la version XML de Format Forms de données, mais le XFDF implémente un sous - ensemble de FDF contenant des formes et des annotations. Il n'y a pas XFDF équivalents pour certaines entrées dans le dictionnaire FDF - comme le statut, l’encodage, JavaScript, clés Pages, EmbeddedFDFs, Différences et Target. En outre, XFDF ne permet pas la reproduction, ou plus, de nouvelles pages sur la base des données fournies; comme peut être fait en utilisant un fichier FDF. La spécification XFDF est référencée (mais non inclus) dans la spécification PDF 1.5 (et versions ultérieures). Il est décrit séparément dans XML Forms Data Format Specification. Les PDF 1.4 spécification permis la soumission de formulaire en format XML, mais cela a été remplacé par soumissions au format XFDF dans la spécification PDF 1.5. XFDF conforme à la norme XML. En Novembre 2014, XFDF 3.0 est dans le processus de normalisation ISO / CEI sous le nom officiel ISO / CD 19444-1 - Gestion de documents - des formulaires XML au format de données - Partie 1: XFDF 3.0.

XFDF peut être utilisé de la même manière que DFF; par exemple, les données de formulaire est transmis à un serveur, des modifications sont effectuées, puis renvoyé et les nouvelles données de formulaire est importé sous une forme interactive. Il peut également être utilisé pour exporter des données de formulaire autonomes fichiers qui peuvent être importés de nouveau dans le formulaire interactif PDF correspondant. Un soutien pour l'importation et l'exportation de fichiers XFDF autonomes ne sont pas largement mis en œuvre dans le logiciel PDF gratuit ou freeware. L'importation de XFDF est mis en œuvre dans Adobe Reader 5 et versions ultérieures; l'importation et l'exportation est mis en œuvre en PDF-XChange Viewer Free; intégration des données XFDF sous forme de PDF est mis en œuvre dans pdftk ( toolkit).

4) Adobe XML Forms Architecture (XFA)

Dans le format PDF 1.5, Adobe Systems a introduit un nouveau format propriétaire pour les formulaires, à savoir Adobe XML Forms Architecture (XFA) formes. Le XFA 2.02 est référencé dans la spécification PDF 1.5 (et versions ultérieures), mais est décrit séparément dans Adobe XML Forms Architecture (XFA) Spécification, qui a plusieurs versions. Les spécification XFA ne sont pas inclus dans la norme ISO 32000-1 PDF 1.7 et est uniquement référencé comme une spécification exclusive externe créé par Adobe. XFA n'a pas été normalisée en tant que norme ISO. En 2011 , le Comité de l' ISO (TC 171 / SC 2 / WG 8) a exhorté Adobe Systems à soumettre la spécification XFA pour la normalisation.

Adobe XFA Forms ne sont pas compatibles avec AcroForms. Adobe Reader contient des "fonctionnalités désactivées" pour l’utilisation de XFA Forms, qui activent uniquement lors de l’ouverture d' un document PDF qui a été créé en utilisant la technologie habilitante disponible uniquement à partir d' Adobe. Les formulaires XFA ne sont pas compatibles avec Adobe Reader antérieures à la version 6.

Formulaires XFA peuvent être créés et utilisés sous forme de fichiers PDF ou XDP (XML Data Package) des fichiers. Le format d'une ressource XFA en PDF est décrit par les données Spécification du package XML. Le XDP peut être un document autonome ou il peut à son tour être porté à l’intérieur d’un document PDF. XDP fournit un mécanisme pour l’emballage de composants de forme dans un conteneur XML environnant. Un XDP peut aussi emballer un fichier PDF, ainsi que sous forme de données XML et de modèle. [33] PDF peut contenir des XFA (en format XDP), mais aussi XFA peut contenir PDF. Lorsque le XFA (XML Forms Architecture) grammaires utilisées pour obtenir un formulaire XFA est déplacés d'une application à l’autre, ils doivent être emballés comme un paquet de données XML.

Lorsque le fichier PDF et XFA sont combinés, le résultat est une forme dans laquelle chaque page du formulaire XFA recouvre un fond de PDF. Cette architecture est parfois appelée XFAF (XFA premier plan). L'alternative consiste à exprimer la totalité de la forme, y compris passe- partout, directement dans XFA (sans utiliser PDF, ou seulement en utilisant "Shell PDF" qui est un conteneur pour XFA avec squelette minimal de PDF balisage, ou en utilisant une représentation pré-rendu d'un formulaire XFA statique pages PDF). Elle est parfois appelée pleine XFA.

A partir de PDF 1.5, le contenu du texte des champs de formulaire de texte variable, ainsi que des annotations de balisage peuvent inclure des informations de formatage (information de style). Ces riches chaînes de texte sont des documents XML qui sont conformes aux riches conventions de texte spécifiées pour la spécification XML Forms Architecture 2.02, qui est lui - même un sous - ensemble de la spécification XHTML 1.0, augmentée d'un ensemble restreint d'attributs de style CSS2. En PDF 1.6, PDF prend en charge les riches éléments de texte et les attributs spécifiés dans le XML Forms Architecture (XFA) Spécification, 2.2. En PDF 1.7, PDF prend en charge les riches éléments de texte et les attributs spécifiés dans le XML Forms Architecture (XFA) Spécification, 2.4.

La plupart des processeurs PDF ne gèrent pas le contenu XFA. Lors de la génération d’un shell PDF, il est recommandé d'inclure dans le fichier PDF annoter une image PDF d’une page simple, l’affichage d’un message d'avertissement (par exemple : "Pour voir le contenu complet de ce document, vous avez besoin d’une version plus récente de la visionneuse de PDF.", Etc). Processeurs PDF qui peuvent rendre le contenu XFA doivent soit pas afficher l'image fournie d'avertissement de la page ou le remplacer rapidement avec le contenu dynamique de forme. Des exemples de logiciels PDF avec un certain soutien du XFA rendu comprennent Adobe Reader pour Windows, , MacOS (mais pas Adobe Reader Mobile pour Android ou iOS) ou Nuance PDF Reader.

En 2014, l’ISO TC 171 a voté pour désapprouver XFA ISO 32000-2 («PDF de nouvelle génération»).

d) Structure logique et l'accessibilité Un PDF "marqué" (ISO 32000-1: 2008 14.8) comprend la structure et la sémantique de documents d’information pour permettre l’extraction de texte fiable et l’accessibilité. Techniquement parlant, tagged PDF est une utilisation stylisée du format qui se fonde sur le cadre de la structure logique introduite en PDF 1.3. PDF Tagged définit un ensemble de types standard de structure et les attributs qui permettent le contenu de la page (texte, graphiques et images) à extraire et réutilisés à d’autres fins.

PDF Tagged n'est pas nécessaire dans les cas où un fichier PDF est destiné uniquement pour l’impression. Étant donné que la fonctionnalité est facultative, et que les règles de Tagged PDF comme spécifié dans la norme ISO 32000-1 sont relativement vagues, le soutien à PDF balisé parmi les appareils de consommation, y compris latechnologie d’assistance (AT), est inégale.

Un AIIM projet pour développer un sous - ensemble de la norme ISO-normalisé de PDF spécifiquement ciblées sur l’accessibilité a commencé en 2004, devenant finalement PDF / UA. e) Sécurité et signatures Un fichier PDF peut être chiffré pour la sécurité, ou signé numériquement pour l'authentification.

La sécurité standard fournie par Acrobat PDF se compose de deux méthodes différentes et deux mots de passe différents, le mot de passe de l' utilisateur , qui crypte le fichier et empêche l' ouverture et mot de passe propriétaire , qui spécifie les opérations qui doivent être limités même lorsque le document est déchiffré, qui peuvent inclure: l' impression, la copie de texte et des graphiques sur le document, la modification du document, l' ajout ou la modification des notes de texte et AcroForm champs. Le mot de passe de l’utilisateur (commandes d’ouverture) encrypte le fichier et nécessite un mot de passe de craquage à la défaite, avec difficulté en fonction de la force du mot de passe et la méthode de cryptage - il est potentiellement très sécurisé (en supposant un bon mot de passe et méthode de cryptage sans attaques connues). Le mot de passe propriétaire (opérations de contrôle) ne crypte pas le fichier, et repose plutôt sur le logiciel client à respecter ces restrictions et ne sont pas sécurisées. Un "mot de passe propriétaire» peut être enlevé par de nombreux couramment disponibles "PDF cracking" logiciel, y compris certains services en ligne gratuits. Ainsi, les restrictions d'utilisation qu'un document auteur appose sur un document PDF ne sont pas sécurisés, et ne peuvent pas être assurés une fois que le fichier est distribué; cet avertissement est affiché lors de l’application de telles restrictions en utilisant le logiciel Adobe Acrobat pour créer ou modifier des fichiers PDF.

Même sans enlever le mot de passe, la plupart des lecteurs de PDF sources freeware ou ouvert ignorer les autorisations «protections» et permettent à l'utilisateur d'imprimer ou de faire une copie d'extraits du texte comme si le document n'a pas été limitée par la protection par mot de passe.

Il y a un certain nombre de solutions commerciales, y compris Adobe LiveCycle Rights Management et PDF DRM qui sont des moyens plus robustes de gestion des droits d’information. Non seulement ils peuvent restreindre l’accès aux documents, mais ils ont aussi appliqué de manière fiable les autorisations de manière que le gestionnaire de sécurité standard ne fait pas.

Les droits d'utilisation A partir de PDF 1.5, les droits d'utilisation (UR) signatures sont utilisés pour activer des fonctions interactives supplémentaires qui ne sont pas disponibles par défaut dans une application PDF viewer particulier. La signature permet de valider que les autorisations ont été accordées par une autorité responsable de bonne foi. Par exemple, il peut être utilisé pour permettre à un utilisateur:

 pour enregistrer le document PDF avec une forme modifiée et / ou des données d'annotation  les fichiers de données de formulaire d'importation dans des formats FDF, XFDF et texte (CSV / TSV)  les fichiers de données de formulaire d'exportation dans des formats FDF et XFDF  soumettre des données de formulaire  instancier nouvelles pages à partir des modèles de page nommés  appliquer un numérique signature à existante signature numérique champ de formulaire  créer, supprimer, modifier, copier, importer, des annotations à l'exportation

Par exemple, Adobe Systems accorde des autorisations pour activer des fonctionnalités supplémentaires dans Adobe Reader, en utilisant la clé publique de cryptographie. Vérifie Adobe Reader que la signature utilise un certificat d'un Adobe- autorisé autorité de certification. La spécification PDF 1.5 déclare que d’autres applications PDF viewer sont libres d'utiliser ce même mécanisme pour leurs propres fins.

f) Les pièces jointes

Les fichiers PDF peuvent avoir des pièces jointes de niveau document et niveau de la page, que le lecteur peut accéder et ouvrir ou enregistrer à leur système de fichiers local. Pièces jointes PDF peuvent être ajoutés à des fichiers PDF existants par exemple en utilisant pdftk . Adobe Reader prend en charge les pièces jointes et poppler à base de lecteurs comme Evince ou Okular ont aussi un certain soutien pour les pièces jointes au niveau du document. g) Métadonnées Les fichiers PDF peuvent contenir deux types de métadonnées. Le premier est le Dictionnaire Document d’information, un ensemble de champs clé / valeur tels que l’auteur, titre, sujet, création et mise à jour des dates. Il est stocké dans l'Info option trailer du fichier. Un petit ensemble de champs est défini, et peut être étendue avec des valeurs de texte supplémentaires si nécessaire.

En PDF 1.4, le support a été ajouté pour les métadonnées Streams, en utilisant l’Extensible Metadata Platform (XMP) pour ajouter des métadonnées extensibles basées sur les standards XML tel qu'il est utilisé dans d’autres formats de fichiers. Cela permet à des métadonnées à joindre à un cours d’eau dans le document, comme des informations sur les illustrations embarqués, ainsi que l'ensemble du document (fixation au catalogue de document), en utilisant un schéma extensible.

4. Propriété intellectuelle

Toute personne peut créer des applications qui peuvent lire et écrire des fichiers PDF sans avoir à payer des royalties à Adobe Systems ; Adobe détient des brevets au format PDF, mais les licences de libre- utilisation dans ledéveloppement de logiciels conforme à sa spécification PDF.

5. Questions techniques a) Accessibilité

Les fichiers PDF peuvent être créés spécifiquement pour être accessible aux personnes handicapées. Les formats de fichiers PDF dans l’utilisation à partir de 2014 peuvent inclure des balises (XML), les équivalents de texte, des légendes, des descriptions audio, etc. Tagged PDF est nécessaire dans le PDF / A - spécification 1a. Certains logiciels peuvent produire automatiquement des fichiers PDF balisés, mais cette fonctionnalité n’est pas toujours activée par défaut. Les principaux lecteurs d’écran, y compris JAWS, Window-Eyes , Hal et Kurzweil 1000 et 3000 peuvent lire des fichiers PDF balisés à haute voix, de même que les versions ultérieures des programmes Acrobat et Acrobat Reader. De plus, les fichiers PDF étiquetés peuvent être re-coulaient et amplifiés pour les lecteurs ayant une déficience visuelle. Des problèmes subsistent avec l’ajout de balises au format PDF âgées et celles qui sont générées à partir de documents numérisés. Dans ces cas, les balises d'accessibilité et re-circulant ne sont pas disponibles, et doit être créé manuellement ou avec des techniques OCR. Ces processus sont inaccessibles à certaines personnes handicapées.

L'un des défis importants avec l'accessibilité PDF est que les documents PDF ont trois points de vue distincts, qui, en fonction de la création du document, peuvent être incompatibles entre eux. Les trois vues sont (i) la vue physique, (ii) le point de vue des balises, et (iii) l'affichage du contenu. La vue physique est affichée et imprimé (ce que la plupart des gens considèrent un document PDF). La vue balises est ce que les lecteurs d'écran et d'autres technologies d'assistance utilisent pour offrir une navigation de haute qualité et de l'expérience de lecture pour les utilisateurs handicapés. La vue de contenu est basée sur l'ordre physique des objets dans le contenu courant du PDF et peut être affiché par le logiciel qui ne supporte pas complètement la vue Tags, tels que la fonction refusion dans Reader d'Adobe.

PDF/UA, la norme internationale pour les PDF accessibles sur la base de la norme ISO 32000-1 a été publiée en tant que norme ISO 14289-1 en 2012, et établit le langage normatif pour la technologie PDF accessible.

b) Les virus et les exploits

Pièces jointes PDF transportant des virus ont été découverts en 2001. Le virus, appelé OUTLOOK.PDFWorm ou Peachy, utilise Outlook pour envoyer lui - même comme une pièce jointe à un fichier Adobe PDF. Il a été activé avec Adobe Acrobat, mais pas avec Acrobat Reader.

De temps en temps, de nouvelles vulnérabilités sont découvertes dans diverses versions d'Adobe Reader, il a incité la société à émettre des correctifs de sécurité. D’autres lecteurs PDF sont également sensibles. Un facteur aggravant est qu’un lecteur de PDF peut être configuré pour démarrer automatiquement si une page Web contient un fichier PDF intégré, fournissant un vecteur d'attaque. Si une page Web malveillante contient un fichier PDF infecté qui tire parti d'une vulnérabilité dans le lecteur de PDF, le système peut être compromis même si le navigateur est sécurisé. Certaines de ces vulnérabilités sont le résultat de la norme PDF permettant des documents PDF d'être scriptés avec JavaScript. Désactivation de l’exécution de JavaScript dans le lecteur de PDF peut aider à atténuer ces exploits futurs, même si elle ne protège pas contre les exploits dans d’autres parties du logiciel de visualisation PDF. Les experts en sécurité disent que JavaScript ne soit pas essentiel pour un lecteur PDF, et que la prestation de sécurité qui vient de désactiver JavaScript l’emporte sur les problèmes de compatibilité causés. Une façon d'éviter les exploits de fichiers PDF est d'avoir un service local ou web convertir des fichiers vers un autre format avant le visionnement.

Le 30 Mars 2010 chercheur en sécurité Didier Stevens a rapporté un lecteur Adobe et Foxit Reader exploitent qui exécute un exécutable malveillant si l'utilisateur lui permet de lancer lorsqu'on lui a demandé. c) Restrictions d'utilisation et de surveillance PDF peuvent être crypté de telle sorte que le mot de passe est nécessaire pour afficher ou modifier le contenu. Le PDF de référence définit à la fois le cryptage 40 bits et 128 bits, les deux faisant usage d'un système complexe de RC4 et MD5. Le PDF de référence définit également des moyens que des tiers peuvent définir leurs propres systèmes de cryptage pour PDF.

Les fichiers PDF peuvent également contenir embarqués DRM restrictions qui fournissent des contrôles supplémentaires qui limitent la copie, l’édition ou l’impression. Les restrictions sur la copie, la modification ou l’impression dépendent du logiciel de lecture de leur obéir, de sorte que la sécurité qu'ils offrent est limitée.

Le PDF de référence a des détails techniques pour un aperçu de l’utilisateur final. Comme les fichiers HTML, les fichiers PDF peuvent présenter des informations à un serveur Web. Cela pourrait être utilisé pour suivre l’adresse IP de l'ordinateur client, un processus connu sous le nom téléphoné à la maison. Après la mise à jour 7.0.5 d'Acrobat Reader, l'utilisateur est averti "... via une boîte de dialogue que l'auteur du fichier est l’utilisation de l’audit du fichier, et offert la possibilité de continuer."

Grâce à son serveur LiveCycle Policy produit, Adobe fournit une méthode pour définir des politiques de sécurité sur des documents spécifiques. Cela peut inclure l’exigence d’un utilisateur d'authentifier et de limiter la période au cours de laquelle un document peut être consulté ou la quantité de temps un document peut être ouvert en mode hors connexion. Une fois qu'un document PDF est lié à un serveur de stratégie et une politique spécifique, que la politique peut être modifiée ou révoquée par le propriétaire. Ce contrôle des documents qui sont par ailleurs "dans la nature." Chaque événement ouvrir et fermer le document peut également être suivi par le serveur de stratégie. Serveurs de politique peuvent être mis en place en privé ou Adobe propose un service public par le biais d’Adobe Online Services. Comme avec d’autres formes de DRM, le respect de ces politiques et restrictions peut ou ne peut pas être exécutée par le logiciel de lecture utilisé. d) Paramètres d'affichage par défaut Les documents PDF peuvent contenir des paramètres d'affichage, y compris la mise en page d'affichage de la page et le niveau de zoom. Adobe Reader utilise ces paramètres pour remplacer les paramètres par défaut de l'utilisateur lors de l’ouverture du document.

Le logiciel gratuit Adobe Reader ne peut pas supprimer ces paramètres. 6. Contenu

Un fichier PDF est souvent une combinaison de graphiques vectoriels, du texte et des graphiques bitmap. Les principaux types de contenu dans un fichier PDF sont:

 Texte stocké sous forme de flux de contenu (par exemple, pas de texte)  Les graphiques vectoriels pour des illustrations et des dessins qui se composent de formes et de lignes  Graphiques raster pour les photographies et d'autres types d'images  Objets multimédias dans le document

Dans les versions PDF plus tard, un document PDF peut également soutenir des liens (à l'intérieur document ou une page Web), des formulaires, JavaScript (initialement disponibles comme plugin Acrobat 3.0), ou d'autres types de contenus incorporés qui peuvent être traitées à l'aide de plug-ins.

PDF 1.6 prend en charge les documents 3D interactifs intégrés dans le PDF - dessins 3D peuvent être intégrés en utilisant U3D ou PRC et divers autres formats de données.

Deux fichiers PDF qui ressemblent sur un écran d'ordinateur peuvent être de tailles très différentes. Par exemple, une image raster haute résolution prend plus d'espace qu'une faible résolution un. Typiquement une résolution plus élevée est nécessaire pour l'impression de documents que pour les afficher sur l'écran. D'autres choses qui peuvent augmenter la taille d'un fichier est l'incorporation de polices complètes, en particulier pour les scripts asiatiques, et de stocker du texte sous forme de graphiques.

7. Software

Les visionneuses PDF sont généralement fournies gratuitement, et de nombreuses versions sont disponibles à partir d'une variété de sources.

Il y a beaucoup d’options logicielles pour la création de fichiers PDF, y compris les capacités d'impression de PDF intégré dans mac OS et la plupart des Linux distributions, Libre Office, Microsoft Office 2007 (si mis à jour SP2) et plus tard,

WordPerfect 9, , de nombreux pilotes d'impression PDF pour Microsoft de windows , le pdfTeX système de composition, les DocBook outils PDF, des applications développées autour Ghostscript et Adobe Acrobat lui - même ainsi que Adobe InDesign , Adobe FrameMaker , Adobe Illustrator , Adobe Photoshop . Google suite bureautique en ligne de Google Docs permet également le téléchargement et l’enregistrement au format PDF.

Processeurs d'images raster (RIP) sont utilisés pour convertir des fichiers PDF en un format raster approprié pour l’imagerie sur du papier et d’autres médias dans les imprimantes, les presses numériques de production et de prépresse dans un processus connu sous le nom rastérisation. Rips capable de traiter PDF incluent directement Adobe PDF Print Engine de Adobe Systems et Jaws et le RIP Harlequin de Global Graphics.

a) Montage

Il existe des logiciels spécialisés pour l’édition de fichiers PDF, bien que les choix sont beaucoup plus limitées et souvent plus cher que la création et l' édition standards des formats de documents modifiables. Version 0.46 et plus tard de Inkscape permet l’édition de PDF à travers une étape de traduction intermédiaire impliquant Poppler.

Serif Page Plus peut ouvrir, modifier et enregistrer des documents PDF existants, ainsi que la publication de documents créés dans le package.

Enfocus Pit Stop Pro, un plugin pour Acrobat, permet l'édition manuelle et automatique des fichiers PDF, tandis que le navigateur libre Enfocus permet de modifier la structure de bas niveau d'un PDF.

Dochub, est un outil d'édition de PDF gratuit en ligne qui peut être utilisé sans rien acheter.

b) Annotation

Adobe Acrobat est un exemple de logiciel propriétaire qui permet à l'utilisateur d'annoter, mettez en surbrillance et ajouter des notes à déjà créé des fichiers PDF. Une application disponible en tant que logiciel libre (sous la GNU General Public License) est . Une autre application native sous licence GPL pour l'environnement unix est Xournal. Xournal permet d'annoter dans différentes polices et couleurs, ainsi qu'une règle pour souligner et mettre en évidence les lignes de texte ou paragraphes rapidement. Xournal dispose également d’un outil de reconnaissance de forme pour des carrés, des rectangles et des cercles. Dans Xournal annotations peuvent être déplacés, copiés et collés. Le freeware Foxit Reader, disponible pour , mac OS et Linux, permet aux documents de annoter. Tracker Software PDF- XChange Viewer permet des annotations et des annotations sans restriction dans son alternative freeware. Pomme 's mac OS visionneuse PDF intégrée s', Aperçu, ne permet également annotations tout comme le freeware , cette dernière interaction de support avec LaTeX, SyncTeX et pdfsync et l’intégration avec BibDesk logiciel de gestion de référence. Freeware peut créer un rapport d'annotation qui résume toutes les annotations et les notes on a fait l'ensemble de leur bibliothèque de fichiers PDF.

Pour annotation mobile, iAnnotate PDF (de Branchfire) et GoodReader (d’Aji) permettent l'annotation de fichiers PDF, ainsi que des résumés exportateurs des annotations.

Il existe également des web annotation systèmes qui prennent en charge l’annotation en pdf et d’autres formats de documents, par exemple, A.nnotate, crocodoc, WebNotes.

Dans les cas où sont attendus des fichiers PDF pour avoir toutes les fonctionnalités de documents papier, l’encre annotation est nécessaire. Certains programmes qui acceptent l’entrée d'encre de la souris peuvent ne pas être suffisamment réactifs pour la saisie manuscrite sur une tablette. Les solutions existantes sur le PC incluent PDF Annotator et Qiqqa.

c) Autres

Exemples de logiciels PDF que les services en ligne, y compris Scribd pour la visualisation et le stockage, Pdfvue pour l’édition en ligne, et Zamzar pour la conversion.

En 1993, le Jaws processeur d'image raster de Global Graphics est devenu la première prépresse expédition RIP interprété PDF natif sans conversion vers un autre format. La société a publié une mise à niveau de leur RIP Harlequin avec la même capacité en 1997. Agfa-Gevaert a présenté et livré Apogee, le premier système de flux prépresse basé sur PDF, en 1997.

De nombreux imprimeurs offset commerciales ont accepté la soumission de fichiers PDF prêts à imprimer en tant que source d'impression, en particulier le PDF / X-1a sous - ensemble et les variations de la même chose. La présentation des fichiers PDF prêts à imprimer sont un remplacement pour la nécessité problématique pour recevoir des fichiers de travaux indigènes collectés.

PDF a été sélectionné comme "native" métafichier format pour Mac OS X, en remplaçant le PICT format du début Mac OS classique. Le modèle d'imagerie du Quartz couche graphique est basée sur le modèle commun d’affichage PostScript et PDF, menant au surnom d’affichage PDF. L'application Aperçu peut afficher des fichiers PDF, comme on peut la version 2.0 et ultérieure du Safari navigateur Web. Soutien au niveau du système pour PDF permet aux applications de Mac OS X pour créer des documents PDF automatiquement, à condition qu'ils prennent en charge l'architecture d'impression OS standard. Les fichiers sont ensuite exportés en format PDF 1.3 en fonction de l’en-tête du fichier. Lorsque vous prenez une capture d’écran sous Mac OS X versions 10.0 à 10.3, l'image a également été capturé en format PDF; les versions ultérieures enregistrer des captures d’écran en tant que PNG fichier, bien que ce comportement peut être restitué au format PDF si désiré.

En 2006 PDF a été largement acceptée comme le format standard de travail d'impression à l' Labs Open Development Source Summit Printing. Il est pris en charge comme format de travail d'impression par le Common Unix Printing System et projets d'applications de bureau tels que GNOME, KDE, Firefox, Thunderbird, LibreOffice et OpenOffice sont passés à émettre des travaux d'impression au format PDF.

Certaines imprimantes de bureau prennent également en charge l'impression directe de fichiers PDF, qui peut interpréter les données PDF sans aide extérieure. Actuellement, toutes les imprimantes capables PDF prennent également en charge PostScript, mais la plupart des imprimantes PostScript ne prennent pas en charge l'impression directe de fichiers PDF.

La Free Software Foundation autrefois considéré comme l’un de leurs projets prioritaires pour être " le développement d’un libre, de haute qualité et un ensemble entièrement fonctionnel des bibliothèques et des programmes qui mettent en œuvre le format de fichier PDF et les technologies associées à la norme ISO 32000." En 2011, cependant, le PDF GNU projet a été retiré de la liste des "projets prioritaires" en raison de la maturation de la bibliothèque Poppler, qui a bénéficié d'une plus large utilisation dans des applications telles qu’Evince avec le GNOME environnement de bureau. Poppler est basé sur base de code. Il existe également des bibliothèques de développement disponibles dans le commerce comme indiqué dans la liste des logiciels PDF.

L’Apache PDF Box projet de l’Apache Software Foundation est une source bibliothèque ouverte Java pour travailler avec des documents PDF. PDF Box est sous licence Apache License.