Organisation des Nations Unies pour l'éducation, la science et la culture
COMMENT PRESERVER L'INFORMATION NUMERIQUE ?

Paris - Une part de plus en plus importante de l'information produite aujourd'hui dans presque tous les domaines de l'activité humaine est numérique et conçue pour être accessible sur ordinateur.

Mais cet énorme trésor d'informations numérisées sera perdu si l'on ne met pas au point des techniques et des politiques spécifiques pour les conserver.

De telles pertes ont déjà eu lieu et cela empirera si rien n'est fait. Le 27 juillet 2001, l'agence Reuters a rapporté le cas du neurobiologiste de l'Université de Californie du Sud, Joseph Miller, qui avait demandé à la NASA de pouvoir consulter certaines données anciennes que les sondes Viking avaient envoyées de Mars au milieu des années 1970. L'Agence spatiale américaine sortit des bandes magnétiques pour ordinateur vieilles de 25 ans qui étaient dans un format illisible. " La NASA avait oublié depuis longtemps ce logiciel ou, selon les mots de M. Miller, " les programmeurs qui le connaissaient étaient morts ".

Joseph Miller cherchait dans ces données des preuves de vie microbienne sur Mars, traces qui avaient été classées à l'origine comme signes d'" activité chimique sans intérêt ". Il dut finalement se contenter des documents imprimés que l'équipe de la NASA de l'époque avait sauvés et qui ne contenaient qu'un tiers des données numériques d'origine.

Préserver des informations scientifiques de valeur, des données de recherche, des productions des médias, des œuvres d'art digital, pour ne citer que quelques uns des domaines concernés, pose clairement de nouveaux problèmes. Si de tels contenus doivent être accessibles dans leur forme originelle, un équipement technique - machine et logiciel d'origine ou compatibles - doit être entretenu en même temps que les fichiers numériques qui contiennent les données. Dans de nombreux cas, les composants multimédia des sites web, y compris les liens Internet, représentent une difficulté supplémentaire en termes de droits et de géographie, car il est souvent difficile de déterminer à quel pays un site web appartient.

L'UNESCO a étudié ces questions en vue de définir un standard qui guiderait en cet âge numérique les projets gouvernementaux de préservation. Au cours de la réunion du Conseil exécutif del'Organisation en mai, les Etats membres ont été d'accord sur la nécessité d'agir rapidement pour sauvegarder le patrimoine numérique. Le débat était très largement inspiré d'un document de travail réalisé pour l'UNESCO par l'ECPA (European Commission onPreservation and Access, une fondation à but non lucratif basée à Amsterdam), document qui a fait le point sur les questions soulevées par la conservation du numérique.

L'ECPA explique que les méthodes traditionnelles de conservation - comme le " dépôt légal ", utilisées par les bibliothèques nationales pour s'assurer que des exemplaires de tout ce qui est imprimé sont conservés - sont difficiles à appliquer au numérique pour diverses raisons, notamment parce que les " publications " du web sont souvent constituées de données stockées dans des serveurs situés dans différentes parties du monde. L'important volume de données concernées pose aussi un problème. On estime que l'Internet contient un milliard de pages dont la durée de vie, comprise entre 44 jours et deux ans, est extrêmement courte.

La conservation de sites web pose des problèmes majeurs. Les sites sont modifiés et mis à jour en permanence et le contenu qui n'est plus d'actualité disparaît souvent sans laisser de trace. Quand des organismes disparaissent ou perdent de l'intérêt, leurs sites web disparaissent aussi ou ne sont plus accessibles. Cela n'arrive pas qu'aux pages personnelles ou aux sites privés, mais aussi à des sites importants et officiels - comme le site de la Maison Blanche, www.whitehouse.gov, qui a été complètement effacé quand George Bush est devenu président.

L'ensemble des discours et des communications officielles de l'administration Clinton a disparu en une nuit. La plupart de ce contenu avait été sauvegardé par la National Archives et Records Administration (NARA), qui a archivé plusieurs versions du site tout au long des années de la présidence Clinton, mais un très grand nombre de liens Internet vers ce contenu hébergé sur d'autres sites ont été rompus.

De façon similaire, les premières éditions en ligne du journal suédois Aftonbladet, l'un des principaux quotidiens suédois, couvrant une période de deux ans et demi du 25 ao?t 1994 au 26 mars 1997 et qui sont en partie différentes des versions imprimées, ont été complètement perdues.

Média le plus démocratique qui ait jamais existé, l'Internet, toujours grandissant, devrait, aux yeux de certains, être conservé comme un tout, car ses pages et ses forums de discussion peuvent être considérés comme un miroir inestimable de la société.

S'assurer que les contenus numériques archivés soient toujours accessibles dans leur forme originelle comporte des problèmes techniques. La part totale de l'information et de l'art produits dans le monde sur des supports traditionnels comme l'imprimé papier, la bande magnétique ou le film, diminue chaque année par rapport au contenu conçu pour l'accès informatique. Logiciels et machines sont remplacés en permanence par des nouvelles versions plus puissantes, qui finissent parêtre incompatibles avec les versions précédentes. Cela signifie qu'en quelques années, du contenu - comprenant souvent du son et des graphiques animés ou des photos, ainsi que des liens vers des sites Internet, et, ou, des bases de données - n'est plus accessible.

La quantité de données qui doit être examinée afin de trier ce qu'il convient de conserver est impressionnante. " La production mondiale annuelle totale d'imprimés, de film, de contenu optique et magnétique nécessiterait environ 1,5 milliards de giga-bits de stockage. C'est l'équivalent de 250 mégabits par personne pour chaque homme, chaque femme et chaque enfant vivant sur Terre ", selon une étude récente de la School of Information Management and Systems de l'Université de Californie de Berkeley (2).

Pour se faire une idée de la somme de données que cela représente, il faut garder à l'esprit que le disque dur du PC classique vendu aujourd'hui a une capacité de 20 à 30 giga-bits (20 à 30 000 mégabits). Selon l'étude de l'Université de Californie, l'ensemble de tout ce qui est imprimé n'atteint pas 0,003 % de tout le stockage de données, qui incluent photos et films, analogue et numérique, le web, les enregistrements son, etc.

La plupart des autres données, c'est-à-dire les données quisont interactives, ne peuvent être conservées simplement en étant imprimées et archivées, elles nécessitent d'être conservées sur un support de stockage numérique, par exemple des CDRoms, dont la durée de vie est inférieure au papier non-acide et aux microfilms.

Les droits d'auteur, y compris le droit d'auteur correspondant au logiciel nécessaire à l'accès aux fichiers numériques, constituent une autre question complexe. L'ECPA souligne qu'un nombre impressionnant de droits peuvent être associés aux sites web qui combinent des contenus de diverses sources et il rappelle qu'un accord sur le principe du " droit de reproduction pour conservation " doit encore être réalisé.

Des initiatives importantes, la plupart dans des pays industrialisés, ont été entreprises pour conserver le patrimoine numérique, et notamment les sites web. Un exemple notable du Sud est la bibliothèque d'Alexandrie, la Bibliotheca Alexandrina en Egypte, qui a récemment reçu l'Internet Archive (IA), une bibliothèque numérique de sites Internet et d'autres oeuvres culturelles sous forme numérique. Elle autorise l'accès libre aux chercheurs, historiens, étudiants et au grand public. Une " Machine à remonter le temps " permet aux chercheurs de naviguer sur les sites web comme ils étaient avant, même si leur contenu n'est plus disponible sur le réseau.

L'IA comprend aussi des archives télévision et film et totalise plus de 100 tera-bits d'information (100 000 000 000 000 de caractères). Partant des archives Internet existantes de laBibliotheca, le bureau du Caire de l'UNESCO réalise un projet pilote dans lequel des contenus numériques en arabe sont conservés, classés et indexés.

La complexité des problèmes rencontrés signifie que toute entreprise de préservation doit associer les producteurs d'information numérique, y compris de logiciels, qui devraient, selon l'ECPA, tenir compte de la conservation au moment où ils conçoivent leurs produits. L'ECPA explique que les jours où la conservation dépendait uniquement des institutions d'archivage appartiennent au passé. L'UNESCO a donc lancé un processus de consultations en vue d'établir des lignes directrices et de proposer les meilleures pratiques afin que nous ne perdions pas le fruit du travail inestimable de scientifiques et d'artistes et que les futurs historiens ne soient pas privés d'informations essentielles sur le monde d'aujourd'hui.

Contact : S. Williams, Bureau d'information du public, Section éditoriale
Tél. 01 45 68 17 06 / e-mail : s.williams@unesco.org



 
Auteur(s) UNESCOPRESSE
Source Feature No.2002-10
Site Web 1 (URL) Site Internet : Université de Californie - Berkeley
Site Web 2 (URL) Site Internet : Report on the preservation of the digital heritage
Date de publication 31 May 2002
© UNESCO 1995-2007 - ID: 4805