Portable Document Format
Total Page:16
File Type:pdf, Size:1020Kb
Portable Document Format Le Portable Document Format (PDF) est un format de fichier utilisé pour présenter des documents d'une manière indépendante des logiciels d’application, le matériel et les systèmes d’exploitation. Chaque fichier PDF encapsule une description complète d'un document à plat mise en page fixe, y compris le texte, les polices, les graphiques et autres informations nécessaires pour l’afficher. 1. Histoire et normalisation PDF a été développé au début des années 1990 comme un moyen de partager des documents informatiques, y compris la mise en forme de texte et des images en ligne. Il a été parmi un certain nombre de formats concurrents tels que DjVu, Envoy , Digital Paper Common Ground, Farallon Replica et même Adobe propre s ' PostScript Format. Dans ces premières années avant la montée des World Wide Web et HTML documents, PDF était populaire principalement dans l’édition de bureau workflows. Adobe Systems a fait la spécification PDF disponible gratuitement en 1993. PDF était un format propriétaire contrôlé par Adobe, jusqu'à ce qu'il ait été officiellement lancé en tant que standard ouvert le 1er Juillet 2008, et publié par l’Organisation internationale de normalisation ISO 32000-1 : 2008, au moment où le contrôle de la spécification transmis à un comité ISO d'experts du secteur bénévole. En 2008, Adobe a publié une licence de brevet publique à la norme ISO 32000-1 subventionnaires libres de droits de l' homme pour tous les brevets détenus par Adobe qui sont nécessaires pour fabriquer, utiliser, vendre et distribuer PDF implémentations conformes. Cependant, il y a encore des technologies exclusives définies uniquement par Adobe, comme Adobe XML Forms architecture (XFA) et JavaScript extension pour Acrobat, qui sont référencés par la norme ISO 32000-1 comme normative et indispensable pour l'application de la spécification ISO 32000-1. Ces technologies propriétaires ne sont pas standardisées et leur spécification est publiée uniquement sur le site d'Adobe. Beaucoup d'entre eux sont également pas pris en charge par les implémentations populaires tiers de PDF. Ainsi, lorsque les organisations publient des fichiers PDF qui utilisent ces technologies propriétaires, ils présentent des problèmes d'accessibilité pour certains utilisateurs. En 2014, l’ISO TC 171 a voté pour désapprouver XFA ISO 32000-2 («PDF de nouvelle génération»). 2. Fondations techniques Le PDF combine trois technologies: Un sous - ensemble du PostScript langue de la page de description de la programmation, pour générer la mise en page et de graphiques. Une police-enrobage / système de remplacement pour permettre les polices de voyager avec les documents. Un système de stockage structuré de manière à regrouper ces éléments et tout contenu associé dans un seul fichier, avec la compression de données, le cas échéant. PostScript PostScript est un langage de description de fonctionner dans un interpréteur pour générer une image, un processus nécessitant beaucoup de ressources. Il peut gérer les graphiques et la fonctionnalité standard de langages de programmation tels qu’if et les loop commandes. PDF est largement basé sur PostScript, mais simplifiée pour éliminer les fonctions de contrôle de débit comme ceux - ci, tandis que les commandes graphiques telles que lineto rester. Souvent, le code PostScript PDF-like est généré à partir d’un fichier source PostScript. Les commandes graphiques qui sont émis par le code PostScript sont collectées. Tous les fichiers, des graphiques ou des polices à laquelle le document fait également référence sont collectées. Ensuite, tout est compressé dans un fichier unique. Par conséquent, l'ensemble du monde PostScript (polices, mise en page, les mesures) reste intacte. En tant que format de document, PDF présente plusieurs avantages par rapport aux PostScript : PDF contient segmenté et interprété les résultats du code source PostScript, pour la correspondance directe entre les changements aux éléments dans le PDF de description de page et des modifications à l'apparence de la page résultante. PDF (à partir de la version 1.4) prend en charge la transparence graphique ; PostScript ne fait pas. PostScript est un langage de programmation interprété avec un état global implicite, donc les instructions accompagnant la description d'une page peuvent affecter l'apparence d'une page suivante. Par conséquent, toutes les pages précédentes dans un document PostScript doivent être traitées afin de déterminer l'apparence correcte d'une page donnée, alors que chaque page dans un document PDF est affecté par les autres. En conséquence, les téléspectateurs PDF permettent à l'utilisateur de passer rapidement aux dernières pages d'un long document, alors qu'un spectateur PostScript doit traiter toutes les pages de manière séquentielle avant de pouvoir afficher la page de destination (à moins que les PostScript en option Structuring Conventions de documents aient été soigneusement respectés). 3. Présentation technique a) Structure de fichiers Un fichier PDF est un fichier ASCII 7 bits, sauf pour certains éléments qui peuvent avoir un contenu binaire. Un fichier PDF commence par un en- tête contenant le nombre magique et la version du format tel que %PDF-1.7. Le format est un sous - ensemble d'un (Object Structure "Carousel") Format COS. Fichier d'arbre Un COS se compose principalement d’objets, dont il existe huit types: • Booléennes des valeurs, représentant vrai ou faux • Nombres • Cordes, enfermés entre parenthèses ((...)), peuvent contenir des caractères 8 bits. • Noms, en commençant par une barre oblique (/) • Les tableaux, commandés collections d'objets enfermés entre crochets carrés ( [...]) • Dictionnaires, collections d'objets indexés par noms enfermés dans des doubles crochets pointus ( <<...>>) • Streams, contenant généralement de grandes quantités de données, qui peuvent être compressés et binaires • Le null objetEn outre, il peut y avoir des commentaires, introduits par le signe pour cent ( % ). Les commentaires peuvent contenir des caractères 8 bits. Les objets peuvent être soit directe (incorporé dans un autre objet) ou indirecte. Objets indirects sont numérotés avec un numéro d'objet et un numéro de génération et définis entre les obj et endobj mots - clés. Une table d'index, également appelé la table de référence croisée et marqué avec le xrefmot - clé, suit le corps principal et donne le décalage de chaque objet indirect à partir du début du fichier octet. Cette conception permet une efficace accès aléatoire aux objets dans le fichier, et permet également de petites modifications à apporter sans réécrire l'intégralité du fichier (mise à jour incrémentale). Depuis la version PDF 1.5, les objets indirects peuvent également être situés dans les cours d’eau spéciaux appelés flux d’objets. Cette technique réduit la taille des fichiers qui ont un grand nombre de petits objets indirects et est particulièrement utile pour Tagged PDF. A la fin d'un fichier PDF est une remorque introduite avec le trailer mot - clé. Il contient : un dictionnaire un décalage au début de la table de référence croisée (la table en commençant par le xrefmot - clé) et la %%EOF fin de fichier marqueur. Le dictionnaire contient : une référence à l'objet de racine de la structure arborescente, également connu sous le nom catalogue le nombre d'objets indirects dans la table de référence croisée et d'autres informations facultatives. Il existe deux configurations au format PDF: non-linéaire (pas «optimisé») et linéaire ( « optimisé »). Les fichiers PDF non-linéaires consomment moins d’espace disque que leurs homologues linéaires, mais ils sont plus lents à l’accès parce que des parties des données requises pour assembler les pages du document sont dispersés à travers le fichier PDF. Les fichiers PDF linéaires (également appelés "optimisé" ou "web optimisé" fichiers PDF) sont construits d'une manière qui leur permet d'être lu dans un plugin de navigateur Web sans attendre le téléchargement du fichier entier, car elles sont écrites sur le disque dans un linéaire (comme dans l'ordre des pages) mode. Les fichiers PDF peuvent être optimisés en utilisant Adobe Acrobat logiciel ou qpdf. b) Modèle d'imagerie La conception de base de la façon dont les graphiques sont représentés dans le PDF est très similaire à celle de PostScript, à l' exception de l'utilisation de la transparence, qui a été ajouté au format PDF 1.4. Graphiques PDF utilisent un dispositif indépendant du système de coordonnées cartésiennes pour décrire la surface d'une page. Une description de la page PDF peut utiliser une matrice à l’échelle, faire pivoter ou incliner les éléments graphiques. Un concept clé en PDF est celle de l’état des graphiques, qui est un ensemble de paramètres graphiques qui peuvent être modifiés, sauvegardés et restaurés par une description de la page. PDF a (à partir de la version 1.6) 24 propriétés de l’état des graphiques, dont certains des plus importants sont: La matrice de transformation de courant (MC), qui détermine le système de coordonnées Le chemin de détourage L'espace colorimétrique Le constante alpha, qui est un composant essentiel de la transparence 1) Les graphiques vectoriels Comme dans PostScript, des graphiques vectoriels en PDF sont construits avec des chemins. Les chemins sont généralement composés de lignes et de cubes courbes de Bézier , mais peuvent également être construits à partir des lignes de texte. Contrairement à PostScript, PDF ne permet pas un chemin unique pour mélanger le texte décrit avec des lignes et des courbes. Les chemins peuvent être caressés, remplis, ou utilisés pour l'écrêtage. Strokes et les remplissages peuvent utiliser toute couleur définie dans l'état des graphiques, y compris les modèles. PDF prend en charge plusieurs types de modèles. Le plus simple est le motif de carrelage dans lequel une œuvre d'art est spécifiée à tirer à plusieurs reprises. Cela peut être un motif de carreaux de couleur, avec les couleurs spécifiées dans l'objet de motif ou un motif de carrelage décoloré, qui reporte la spécification de couleur au moment où le motif est dessiné.