PDF pour Archiver

En passant

Po ti le,

Imaginez que, du jour au lendemain, vous ne pouvez plus pénétrer dans le bâtiment abritant vos dossiers les plus importants. Dans le monde actuel des affaires et de la politique, les entreprises comme les administrations commencent à s’intéresser de près à leurs processus ainsi qu’aux documents, archivés ou non, qu’ils produisent. Lorsque le principal support était le papier, archiver signifiait conserver du papier. Mais avec la création d’un nombre croissant de documents électroniques, quelle forme prend l’archivage ? Comment préserver de manière homogène une documentation mixte papier/électronique ? Comment éviter d’utiliser des documents papier ? Comment procéder pour qu’ un document ait strictement le même aspect aujourd’hui et dans 30 ans ? Comment assurer une intégrité homogène des archives ? L’apparition de l’ordinateur individuel dans l’entreprise a radicalement changé l’environnement de l’archivage. Jusqu’aux années 1990, la plupart des bureaux employaient encore un service de dactylographie ou de saisie sur traitement de texte, et conservaient leurs documents sur support papier dans des dossiers centralisés. Cependant, dès que l’informatique s’est généralisée la salle de classement centralisé a perdu toute utilité. Désormais, il appartient à chacun de créer, classer et gérer ses propres documents. Les entreprises et les administrations ont ainsi perdu le contrôle de ces documents.

Avantages des archives électroniques 

La mise en place et le suivi permanent d’un système d’archivage électronique présentent de nombreux avantages. Par comparaison avec leur équivalent papier, les archives électroniques offrent un accès beaucoup plus facile à leur contenu, permettent de partager plus efficacement les informations et contribuent davantage à faire circuler le savoir. Désormais, les archives ne sont plus le domaine réservé de quelques personnes ayant une connaissance approfondie du système de classement. Pour permettre à un individu d’accéder aux informations contenues dans des archives électroniques, il suffi t de lui octroyer les droits appropriés. De plus, la forme électronique peut représenter des économies de coût non négligeables dans l’ensemble de la société. En effet, la gestion d’archives sur papier peut représenter un budget important que l’archivage électronique peut considérablement diminuer. Ainsi, le consultant Pricewaterhouse Coopers a publié une étude notoire selon laquelle une entreprise doit embaucher un nouvel archiviste à chaque douzième armoire-classeur qu’elle installe ! L’étude indique en outre que, dans le monde de l’entreprise, une personne passe 5 à 15 % de son temps seulement à lire des informations, mais jusqu’à 50 % à les rechercher.

Conditions requises en matière de pertinence des documents 

Pour constituer des références valables permettant de retracer des actions et des décisions passées, les archives électroniques doivent être gérées de manière à préserver l’intégrité et l’authenticité de leur contenu. Pour cela, il est nécessaire d’adapter le programme de gestion des documents en place, et d’élargir la définition des documents de sorte qu’elle couvre non seulement le support papier, mais également la forme électronique. La création et la gestion d’un archivage électronique doivent être organisées au moyen de règles et de procédures, et d’une planification applicable à l’ensemble de la société. L’archivage doit en outre impérativement respecter les normes établies par l’entreprise.

Dans le domaine de la gestion des documents, la préservation du contenu, du contexte et de la structure des documents a toujours constitué une préoccupation majeure. Luciana Duranti, de l’UBC (University of British Columbia), mène des recherches dans le domaine des documents électroniques en utilisant comme fondement théorique la science diplomatique, dont elle applique les règles pour mesurer la fiabilité et l’authenticité du support électronique. Ses recherches démontrent que les organismes ont intérêt à appliquer les mêmes règles et procédures pour tous les documents, que ceux-ci se présentent sous forme de papier, de fichiers électroniques ou de microfiches. Cette homogénéité de traitement accroît en effet l’authenticité et l’intégrité des documents. Les critères servant à déterminer la pertinence des documents conservés doivent répondre aux besoins commerciaux et juridiques propres à chaque organisme ainsi qu’aux réglementations et impératifs externes. A chaque entreprise ou administration correspondent donc des critères bien particuliers. 

Conditions requises dans le contexte des fichiers PDF 

Pour les responsables de documentation et les archivistes, un document doit être authentique, fiable, complet, intact et exploitable, et les systèmes électroniques permettant de le gérer doivent être aptes à protéger son intégrité dans le temps. Mais que signifient vraiment ces termes, en particulier lorsqu’ ils s’appliquent aux fichiers PDF ?

Authentique : il doit être possible de prouver qu’un document est réellement ce qu’il est censé être, qu’il a bien été créé ou envoyé par la personne prétendant l’avoir créé ou envoyé, et qu’ il a bien été envoyé au moment indiqué. Ces garanties peuvent être fournies par l’emploi de métadonnées, c’est-à-dire de « données concernant les données ». Des métadonnées peuvent être incorporées aux fichiers PDF par un programme. La création, la réception et la transmission des documents doivent être contrôlées afin d’assurer que leurs auteurs sont dûment autorisés et identifiés. Il s’agit généralement d’une fonction du système général de gestion des documents électroniques, mais certains attributs des fichiers PDF, tels que les paramètres de sécurité, sont également conçus pour attester l’authenticité. Les signatures électroniques constituent un autre niveau d’authenticité supplémentaire applicable aux fichiers PDF. Dans les transactions électroniques, un fi chier PDF peut regrouper des données indiquant la personne ayant utilisé le système, à quel moment et pour quelles opérations, ainsi que le résultat de la transaction. Un programmeur astucieux peut utiliser ce type de fi chier PDF pour extraire et conserver le maximum d’éléments de la transaction, et notamment la « présentation visuelle » complète de celle-ci. Cette présentation peut ensuite être restituée à l’utilisateur pour l’inviter à donner sa confirmation. Cela peut améliorer considérablement le score de l’entreprise aux tests d’admissibilité, car le document de la transaction présente celle-ci telle qu’au moment où l’utilisateur l’a confirmée comme étant acceptable.

Fiable : il doit être possible d’avoir la certitude que le contenu d’un document est une représentation précise de la transaction dont il est la preuve. Le document doit être créé et enregistré en temps opportun par une personne directement concernée par l’évènement, ou généré automatiquement par les traitements que l’entreprise applique habituellement pour mener une transaction. Cela s’applique particulièrement aux documents des transactions électroniques. Avec la spécification PDF, un intégrateur de systèmes peut automatiser l’enregistrement au format Adobe PDF de documents numériques directement depuis l’application source, que celle-ci soit une base de données, un programme de traitement de texte ou un tableur.

Complet et intact : il doit être possible de protéger un document contre les modifications indésirables, mais également de surveiller et de suivre les annotations, ajouts et suppressions autorisés. Les règles et procédures de gestion de la documentation doivent préciser les ajouts et annotations pouvant éventuellement être apportés à un document après sa création, les circonstances dans lesquelles ces ajouts et annotations peuvent être autorisés, et les personnes habilitées à les réaliser. En principe, ces modifications affectent les métadonnées intégrées au document, et non le document même. Le système de gestion des documents dans lequel sont stockés les fichiers PDF confère généralement un niveau de sécurité élevé. Pour protéger les fichiers PDF, il est également possible d’utiliser des mots de passe et le cryptage. De plus, il existe des solutions de signature numérique et de PKI (public key infrastructure, infrastructure à clé publique), pour les documents PDF, fournies par des sociétés telles qu’Entrust, Inc. et VeriSign, Inc. Ces produits fonctionnent avec l’application Adobe Acrobat® en tant que plug-ins.

Exploitable : il doit être possible de localiser, d’extraire, de restituer et d’interpréter un document, et de comprendre la suite d’opérations de sa création et de son exploitation, en remontant jusqu’à son origine si nécessaire. Grâce à la très récente fonction d’encapsulation de métadonnées XML dans les fichiers PDF, il est désormais possible de bénéfi cier de métadonnées de qualité « document » qui resteront lisibles et accessibles à long terme. De plus, les fichiers PDF peuvent être soumis à des recherches en texte intégral. Depuis des années, de nombreux fournisseurs de logiciels réputés, tels que Verity, Hummingbird et Convera, intègrent les fichiers PDF à leurs moteurs de recherche en texte intégral. Cela est dû au fait que la spécification et le Kit SDK des fichiers PDF sont publics, et qu’une bibliothèque PDF complète destinée au développement et à l’intégration de logiciels PDF est proposée pour un prix modéré.

Intégrité du système : il doit être possible, pour assurer cette intégrité, de mettre en oeuvre des mesures de contrôle telles que la surveillance des accès, la vérification des utilisateurs, la destruction autorisée, la sécurité et l’atténuation des effets des incidents majeurs. La fiabilité des systèmes est un facteur important d’intégrité, et les applications de gestion de documents excellent en ce domaine car elles sont conçues dans cet esprit. Toujours pour l’intégrité, il est important aussi d’utiliser comme format d’archivage standard un format de fi chier bien documenté. La spécification PDF a été utilisée par une multitude de fournisseurs pour créer des applications uniques contribuant à assurer l’intégrité. L’intégration directe de solutions de signature numérique et de PKI fournies par d’autres éditeurs en est un bon exemple.

Principes de base du format Adobe PDF 

Bien qu’Adobe l’ait créé et continue à le faire évoluer en publiant de nouvelles versions, le format Adobe PDF est une spécification accessible au public. Il est courant de confondre PDF, qui est le format des données, avec Adobe Acrobat, qui désigne l’ensemble de logiciels commercialisé par Adobe pour créer, visualiser et améliorer les documents PDF. En 1993, la première spécification PDF était publiée, parallèlement au lancement des premiers produits Adobe Acrobat. Depuis cette date, Adobe met à la disposition du public, sur le Web, de nouvelles versions de cette spécification. A la date où nous publions le présent document, la dernière version de la spécification PDF est la version 1.4. Toutes les révisions ayant fait l’objet de spécifications publiées sont rétrocompatibles : un ordinateur capable de lire la version 1.4 peut aussi lire la version 1.3, et ainsi de suite. Adobe ayant opté pour la publication de sa spécification PDF, le nombre d’outils de création, d’affichage et de manipulation conçus pour celle-ci par d’autres fournisseurs est de plus en plus important.

L’expression Portable Document Format (Format de document transférable), ou PDF, a été choisie pour illustrer le fait qu’un fi chier répondant à cette spécifi cation peut être affiché et imprimé avec la même fi délité sur n’importe quelle plate-forme (UNIX,® Mac OS, Microsoft® Windows® et plusieurs appareils mobiles). Le document PDF reste identique sur toutes ces plates-formes. Il se compose d’une série de pages dont chacune contient du texte, des spécifi cations de polices, des marges, une mise en page, des éléments graphiques et des couleurs de fond et de texte. La présence de toutes ces informations garantit un rendu d’image précis, à l’écran comme à l’impression. Le fichier peut aussi comporter d’autres éléments tels que des métadonnées, des hyperliens et des champs de formulaire. Pour que la spécification puisse être exploitée par des développeurs tiers, Adobe fournit à la fois le Kit SDK et la bibliothèque Adobe PDF.

Ainsi, il est possible de développer des solutions complètes en dehors de la gamme de produits Acrobat, ou de modifier ces produits par la mise au point de plug-ins internes. Il arrive même que des développeurs n’utilisent la spécification que pour créer leurs propres visualiseurs ou créateurs PDF. Ces documents décrivent chaque aspect du format de fichier et la manière dont il peut être créé, lu et manipulé. En offrant un tel niveau d’assistance, Adobe a encouragé des sources variées à soutenir et à utiliser son format PDF.

 Adobe PDF en tant que format d’archivage

 Il existe pour l’archivage un choix important de formats et de technologies électroniques, notamment ASCII (pour le texte), TIFF, PDF et XML, ainsi que des formats tels que ceux des traitements de texte et des tableurs. Il est reproché à certains de ces formats d’être « propriétaires », et donc de ne pas offrir de garantie quant à leur existence à long terme. Un seul d’entre eux présente, par ses caractéristiques uniques, les conditions nécessaires pour assurer un affichage préservé sur une durée prolongée. PDF représente non seulement les données contenues dans le document, mais également l’aspect précis de ce dernier. Le fi chier peut être affiché sans son application d’origine. En fait, dans dix ans et au-delà, les utilisateurs pourront le visualiser exactement tel qu’il était à sa création. De plus, l’ajout de métadonnées XML au fi chier PDF garantit à la fois la fi délité et l’accessibilité de ce dernier. La spécification PDF étant à la disposition du public, les informations concernant le format de fi chier resteront toujours dans le domaine public. Cela en fait donc un format de choix pour des archives électroniques. Les personnes atteintes d’un handicap peuvent en outre accéder aux informations au moyen de technologies d’assistance. Un mal-voyant, par exemple, peut utiliser un lecteur d’écran d’un fournisseur tel que Freedom Scientifi c, Dolphin Oceanic ou GW Micro pour verbaliser le texte. Pour cela, des balises sont incorporées dans la structure du fichier PDF. Ces balises peuvent être créées automatiquement depuis l’application d’origine, ou être entrées dans le cadre d’un traitement d’adaptation.

De nombreuses sociétés ayant recours à l’archivage électronique appliquent des procédures pour limiter la variété des formats des documents qu’elles reçoivent et conservent. Elles réduisent ainsi le nombre d’investigations portant sur les formats de fichier ainsi que de mécanismes sous-jacents nécessaires. Les archives nationales néerlandaises ont ainsi adopté des formats d’archivage électronique tels que PDF et XML. Le programme australien VERS (Victorian Electronic Record Strategy) utilise XML pour encapsuler les documents PDF avec des métadonnées normalisées. Le Bureau des archives publiques britanniques n’accepte que les formats PostScript, TIFF, SGML et PDF pour les fichiers devant être transférés aux archives. Lorsqu’elles spécifient une technologie ou un format destinés à être employés par une grande variété d’utilisateurs, les organisations exigent de recevoir les fichiers de manière normalisée. Pour assurer la conformité et préparer leur communauté d’utilisateurs, elles doivent déterminer les caractéristiques que doit présenter un fichier PDF pour être estimé correct et satisfaisant pour ses besoins d’archivage. Elles peuvent exiger, par exemple, l’emploi limité de composants additionnels (incorporation de multimédia ou de JavaScript, par exemple), l’incorporation au document des polices utilisées, ou l’insertion par l’auteur ou par le destinataire du document de la totalité des métadonnées.

 Actuellement, certains organismes d’Etat et représentants de l’industrie, ainsi que l’association AIIM International et le NPES/CGATS mènent un mouvement en faveur de la création d’une norme ISO autour du format Adobe PDF. Celle-ci serait particulièrement destinée à l’environnement de l’archivage. Ce nouveau projet, appelé PDF/A, aura de larges répercussions sur la conservation des documents à travers le monde.

Ressources

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s