Logo UL avec lien vers le site de l'Université de Lorraine

Publier ses données de recherche : retour d’expérience de Marine Amouroux


Temps de lecture : 3 minutes

Afin de publier des données de recherche en accès libre, il est nécessaire de les mettre en forme et de les accompagner de métadonnées, c’est-à-dire d’une documentation permettant de les comprendre. L’ensemble des bonnes pratiques à suivre pour faciliter leur visibilité et leur utilité est réunie sous l’acronyme « FAIR » (Facile à trouver, Accessible, Interopérable, Réutilisable). Retour d’expérience sur l’encadrement d’un stagiaire recruté pour faciliter ce processus.

Des données de recherche non-FAIR…

Dans le cadre des travaux de recherche qu’elle mène au CRAN, Marine Amouroux, Ingénieure de Recherche et membre du Réseau des Ambassadeurs Science ouverte, génère des données « complexes » telles que des images incluant des métadonnées (images au format Dicom), des images hyperspectrales au format matriciel à 3 dimensions ou des fichiers légers de type tableurs en grand nombre organisés sous la forme d’une arborescence constituée de dossiers et sous-dossiers. Ces données nécessitent de plus d’être renommées avant d’être publiées sur l’entrepôt national des données de recherche Recherche Data Gouv (RDG).

…qu’il faut rendre FAIR : faciles à trouver, accessibles, interopérables et réutilisables.

Afin d’atteindre l’objectif de rendre ces données « complexes » FAIR, Marine Amouroux a encadré le stage d’un étudiant (Lucas Frenot) en 1ère année de BTS CIEL* au Lycée Henri Loritz de Nancy. Durant les 8 semaines de stage, Lucas Frenot a développé un logiciel pour modifier les métadonnées afin d’assurer l’anonymisation et renommer de manière automatisée les fichiers images au format Dicom. Il a également développé un logiciel permettant de proposer aux chercheurs une interface graphique pour téléverser dans DOREL de manière « intuitive » une arborescence de fichiers organisés en dossiers et sous-dossiers ; enfin, Lucas Frenot a développé un dernier logiciel permettant de lire les fichiers d’images hyper-spectrales c’est-à-dire de récupérer le spectre optique enregistré pour chaque pixel de l’image, sans besoin de passer par un logiciel payant, l’objectif étant de mettre à disposition le logiciel avec les données. Le rapport de stage détaillant les méthodes utilisées pour développer ces logiciels est disponible en accès libre sur la plateforme HAL.

Ce stage a permis d’apporter à Marine Amouroux le soutien technique dont elle avait besoin pour publier les données issues des travaux de recherche, en complément de l’accompagnement apporté par l’atelier de la donnée ADOC Lorraine pour l’utilisation et le dépôt dans RDG.

*BTS CIEL :  Brevet de Technicien Supérieur « Cybersécurité, Informatique et réseaux, Électronique »

Lire le rapport de stage
Découvrir les jeux de données : SpectroLive et 3D images of human skin