Évitez de tout perdre !

La conservation des données répond aux 3 objectifs de sauvegarde pendant le projet, de partage lors de leur publication, et d’archivage à long terme. Leur perte peut passer par leur destruction physique, leur égarement, ou la perte de sens.

Extrait du manuscrit "Proportions que doivent avoir les citernes"

Document 1 : Proportion que doivent avoir les citernes, XVIIIe siècle, sans mention d'auteur

Anaglyphe extrait de l'ouvrage "La photogrammétrie et le calcul électronique pour l'étude des projets de routes"

Document 2 : Anaglyphe extrait de l'ouvrage d'Hugo Casper, La photogrammétrie et le calcul électronique pour l'étude des projets de routes

Papier calque fragmenté, extrait du document "Mémoire descriptif d'une nouvelle machine hydraulique nommée machine paradoxale"

Document 3 : "Machine paradoxale", sans mention d'auteur, circa 1810

Destruction physique

La destruction peut être causée par des facteurs externes ou internes.
Le document 1 présente un exemple de destruction externe : il a pris l’eau et des moisissures se sont développées à sa surface. Sans une restauration, nous risquons de perdre à jamais les informations qu’il contient.

Le document 3 montre une cause de destruction interne. Le papier calque acide sur lequel il a été tracé devient sombre et cassant avec le temps : il est alors difficile d’empêcher son autodestruction à moyen terme. On peut lire la légende, mais le plan qui y est dessiné est devenu complètement illisible. Un mémoire manuscrit conservé avec ce plan nous permet d'avoir quelques informations à son sujet : il s'agit d'une pompe hydraulique nommée "machine paradoxale" fonctionnant sur le principe d'Archimède.

Pour limiter les risques de perte, le principe du “Here, Near, Far” consiste à sauvegarder des copies dans 3 lieux physiques différents, localement et à distance. Idéalement, les procédures de backup et récupération devraient être automatisées.

"Hypotheses come and go but data remain".
Ramon y Cajal, "Neuroanatomiste espagnol", dans son ouvrage Advice for a young investigator, 1897.

Égarement

L’égarement peut faire suite au changement de poste d’un chercheur, la fin d’une thèse, la perte d’une clé USB, une URL cassée, etc. Une étude montre qu’après 20 ans, les données de 80% des articles ne sont plus disponibles faute d’avoir été partagées dès la publication, et parce que les chercheurs n’étaient plus joignables.

Perte de sens

Les données dont le sens est perdu ne sont pas égarées ni détruites, mais c’est leur support, leur format, ou la compréhension des informations qu’elles contiennent qui posent problème.

Les supports ou les moyens pour les lire peuvent devenir obsolètes. Par exemple nous avons retrouvé des disques d’enregistrements audio sur les pieux précontraints qui nécessitent d’utiliser une aiguille spéciale pour leur lecture : ce support demande donc d’identifier le bon matériel et de retrouver une machine en état de marche. Quant à l'anaglyphe (document 2), il nécessite le recours à des lunettes spécifiques pour en distinguer le relief.

Les formats de fichiers peuvent être illisibles même lorsqu’ils sont enregistrés sur un support courant : c’est le cas d’extensions de fichiers utilisées par d’anciens logiciels abandonnés, ou par des logiciels propriétaires auxquels tous n’ont pas accès.

Enfin la compréhension des données même lisibles peut être rendue difficile, par exemple s’il y a des tableaux sans intitulés, des variables inconnues, un manque de contexte, etc.

C’est pourquoi il faut veiller à joindre une description contextuelle aux données (provenance, matériels et logiciels utilisés, etc.) et une description interne (relations entre fichiers, commentaires de code, etc.). Idéalement, ces informations sont reprises dans un data paper (voir Section "As open as possible, as closed as necessary). Il est recommandé de choisir un format de sauvegarde ouvert et pérenne (voir Section "Prenez soin de vos données"). Enfin, à long terme, des organismes d’archivage comme le CINES prévoient un transfert régulier des données sur de nouveaux supports avant leur défaillance.