Métadonnées et Archivage Numérique

En passant

Po ti le,

La création d’archives électroniques nécessite celle de métadonnées. Le terme métadonnées nous vient du monde de l’informatique. Les professionnels de ce secteur utilisent ce concept de « données concernant les données » pour décrire les informations relatives à un objet. Les outils traditionnels de gestion des documents tels que les registres de dossiers, les couvertures de dossiers, les cartes de transfert, les thésaurus et les index fournissent des métadonnées. Ils aident les gestionnaires à contrôler et à gérer les documents. De plus, les outils de gestion de documents procurent d’importantes informations contextuelles concernant les personnes ayant utilisé les documents, l’usage qu’elles en ont fait, et à quel moment. Autrefois, les archivistes fournissaient des métadonnées supplémentaires en créant des index, des listes de dossiers et autres qui aidaient les personnes à localiser les documents et à comprendre leur organisation après leur transfert aux archives. Les métadonnées actuelles sont obtenues plus proactivement, les concepteurs de système cherchant à les extraire dès leur source, soit par un mécanisme automatique, soit par intervention de l’auteur des informations.

Ainsi, l’organisation Dublin Core Metadata Initiative utilise le système RDF (Resource Description Framework), car celui-ci permet aux plans de métadonnées d’être lus par les humains comme analysés par les machines, et de décrire plusieurs objets sans spécifier de détail supplémentaire. La seule exigence du « ciment » sous-jacent, XML, est que tous les espaces de noms doivent être définis. Une fois qu’ils sont défi nis, la personne insérant les métadonnées peut les employer autant que nécessaire. Les éléments de métadonnées de Dublin Core peuvent être inclus dans des fichiers PDF.

 L’exemple de métadonnées suivant, extrait d’un fichier PDF, identifie l’espace de noms Dublin Core

(xmlns=‘http://purl.org/dc/elements/1.1/’) ainsi que trois éléments de métadonnées : créateur,

 <rdf:Description about=’’

xmlns=’http://purl.org/dc/elements/1.1/’

xmlns:dc=’http://purl.org/dc/elements/1.1/’>

<dc:creator>Adobe Systems, Incorporated

<dc:title>Adobe Acrobat Help

<dc:description>Adobe Acrobat</dc:description>

</rdf:Description>

titre et description.

Les fichiers PDF contiennent, notamment, des métadonnées exprimées par les propriétés du document. Toute modification apportée dans la boîte de dialogue Acrobat Document Properties est répercutée dans les métadonnées. Celles-ci étant au format XML, elles peuvent être augmentées et modifiées au moyen de produits d’autres éditeurs. Un examen des métadonnées incluses dans les fichiers PDF met en évidence le fait que la spécification PDF intègre l’approche de l’initiative Dublin Core. Les organismes doivent mettre en place une norme de métadonnées qui leur est propre pour spécifier le type d’information devant décrire l’identité, l’authenticité, le contenu, la structure et le contexte de leurs documents, et les exigences à respecter pour la gestion de ces derniers. Ces informations descriptives normalisées permettent alors de conserver à long terme des documents fiables, significatifs et accessibles qui satisferont les besoins commerciaux et pourront servir de preuves.

Processus d’archivage

Flux de travail de la création à l’archivage

Dans une organisation où l’archivage est réalisé au moyen de dossiers sur papier, le flux de travail se résume à imprimer chaque document et à le classer. Cela suppose, naturellement, l’existence d’une salle de classement centralisée présentant encore suffisamment d’espace et munie d’un plan de classement compréhensible. Dans tout autre cas, l’archive papier n’est accessible qu’à la personne l’ayant classée. Cependant, passer d’un tel système à un archivage entièrement électronique ne se fait pas sans difficultés. Tout d’abord, il est nécessaire de mettre en place un ensemble complet de règles. L’organisme doit avoir une claire notion de ce qu’est un document d’archive, et de sa durée de conservation. Une bonne gestion de documents prévoit notamment la destruction en temps opportun.

 Pour qu’un programme de gestion d’archivage soit efficace, il est nécessaire que des règles et des procédures soient énoncées, que les personnes soient formées à la mise en application de ces règles, et qu’un système de suivi de ces règles et procédures soit instauré et puisse être audité. La plupart des règles et procédures de gestion d’archivage existantes ont été conçues pour les documents sur support papier. Pour se moderniser et commencer à archiver ses documents importants au moyen du format PDF, l’entreprise doit mettre à jour ses règles et procédures de sorte qu’elles soient adaptées à l’emploi accru de l’électronique tout en continuant à assurer la conservation d’informations juridiques et historiques pertinentes permettant de retracer les prises de décisions.

Pour mettre en place un archivage électronique, l’entreprise doit adopter un système de gestion de documents centralisé. Celui-ci doit pouvoir gérer à la fois les documents électroniques « d’origine », ceux convertis (par numérisation) du papier à l’électronique et ceux qui ne seront jamais électroniques (en raison de leur valeur, ou de frais de conversion trop élevés). La conversion au format Adobe PDF de documents qui ont toujours été électroniques peut être réalisée sur ordinateur de bureau, par traitement automatique ou par traitement serveur. Les logiciels Adobe Acrobat et Adobe Acrobat Distiller® Server peuvent, par exemple, exécuter cette opération. Pour convertir un document papier en fi chier électronique, Adobe Acrobat Capture peut être employé pour numériser le document et le convertir au format PDF. Ce logiciel permet de numériser rapidement les archives papier d’une organisation.

 Les fichiers PDF constituent un format d’archivage très pratique, car le texte qu’ils contiennent est accessible par le moteur d’indexation de recherche de texte intégral présent dans la plupart des systèmes de gestion de documents. Il est ainsi possible d’effectuer une recherche dans un document archivé en explorant à la fois ses métadonnées et son texte intégral. Il serait possible, par exemple, de retrouver des notes de service émises pendant une période comprise entre deux dates données et contenant les termes décision et faillite. Même les documents papier numérisés et convertis au format PDF peuvent faire l’objet de recherches. Pour cela, un moteur de reconnaissance optique des caractères doit être employé. Cette technologie identifie l’aspect du texte sur une page, et convertit l’image numérisée en texte reconnaissable.

archiv

Migration des archives aux fins de préservation

Pour assurer la préservation d’informations numériques quelles qu’elles soient, il sera toujours nécessaire d’employer certaines techniques de conservation telles que les contrôles d’intégrité et les sauvegardes de sécurité. En matière de documents électroniques, des méthodes supplémentaires doivent être appliquées pour assurer que ces documents seront exploitables à long terme. Pour cela, deux approches sont possibles : l’émulation et la migration.

 On désigne par « émulation » la reproduction de l’environnement technique requis pour manipuler des objets numériques anciens, par exemple l’exécution d’un programme DOS dans un système d’exploitation Microsoft Windows. La migration consiste à transférer systématiquement les données vers les configurations matérielles et logicielles les plus récentes. Chaque transfert doit être documenté et un contrôle doit assurer que ce transfert est complet. La migration est d’autant plus fi able que tous les documents électroniques se présentent selon un nombre limité de formats normalisés. Le coût de la migration d’un document d’une version à l’autre d’un logiciel peut constituer l’un des principaux postes de dépense associés à la gestion du cycle de vie d’une archive électronique. L’opération peut consister à simplement ouvrir le document et à l’enregistrer dans le nouveau format. L’expérience démontre, cependant, que la migration n’est généralement pas si simple.

 L’ouverture de documents créés dans une version antérieure du logiciel peut entraîner des problèmes de mise en page, de numérotation des titres, de présentation d’objets graphiques, etc. Si ces problèmes sont parfois dus au logiciel, ils peuvent aussi résulter de la manière dont l’utilisateur a employé, ou tenté d’employer, une fonctionnalité du logiciel. Dans un tel cas, un utilisateur peut se voir dans l’obligation de consacrer du temps à reformater le document afin qu’il redevienne identique à l’original. S’il n’existe pas de version papier de l’original et que l’utilisateur ne dispose pas d’une copie de travail du document dans la version antérieure du logiciel, il peut même s’avérer impossible de restituer l’aspect initial. Le coût caché de ces opérations de migration réside dans la main-d’œuvre nécessaire pour veiller à ce que le document conserve son intégrité. C’est la raison pour laquelle tant d’organismes ont opté pour Adobe PDF comme format de conservation de leurs documents électroniques. Un fi chier PDF représente la page imprimée telle quelle et, contrairement à un document enregistré dans un format de traitement de texte, il n’est pas susceptible de changer lorsqu’il est ouvert. La spécification PDF étant accessible au public, votre organisme peut même créer un système de contrôle d’archive numérisant automatiquement les fichiers PDF entrants. Ces contrôles systématiques peuvent identifier les fichiers PDF incorrects, ou les fichiers non conformes à vos normes d’archivage. Vous évitez ainsi de procéder à des contrôles manuels coûteux sur tous les fichiers entrants.

Avenir des archives numériques

Un projet international

Dans le monde entier, la recherche se poursuit pour mettre au point des normes d’archivage numérique à l’épreuve du temps. Le format Adobe PDF occupe une place prépondérante à cet égard. La norme ISO PDF/A est un exemple d’initiative internationale indépendante qui reconnaît que l’intégrité de ce format en fait une norme de choix pour l’archivage électronique. Adobe s’est engagée à maintenir l’accessibilité publique de la norme PDF, et travaille en proche collaboration avec les organismes de normalisation pour que tout le potentiel de cette spécification soit exploité.

Cette facilité d’accès donne aux services d’archivage l’assurance que le format Adobe PDF existera encore pendant de longues années. N’importe qui peut, à n’importe quel moment et au moyen de n’importe quel matériel ou logiciel, créer des programmes d’accès à des archives électroniques. A vrai dire, il existe déjà une vaste communauté de développeurs qui créent des outils pour le format Adobe PDF. Cette communauté grandit chaque année.

Compte tenu des normes internationales, de l’abondance d’outils et de la technologie existant à l’heure actuelle, ainsi que de la nature publique d’Adobe PDF, celui-ci est le format tout indiqué pour les archives électroniques. Avec Adobe PDF, chacun a l’assurance de pouvoir accéder de façon rationnelle et permanente aux archives et aux documents au cours des années à venir.

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s