[Publication Nature] Le software est partout en science, pourtant il est négligé

 
Publié le 1/07/2024

Le 1er juillet 2024, un article sur le manque de considération pour le "software" a été publié dans la revue Nature Computational Science. Porté par deux historiens des sciences des Archives Henri Poincaré (CNRS, Université de Lorraine, Université de Strasbourg) cet article a été signé par quatorze co-auteurs internationaux, dont des scientifiques computationnels et des experts en sciences humaines.

A l’heure où le monde scientifique et au-delà parle de code, d’algorithme, ou même d’intelligence artificielle, parler de « software » semble une subtilité sémantique de plus. Pourtant, de nombreuses facettes du logiciel, par exemple les questions de licences d'utilisation ou de formats de fichiers, ne font pas partie de la définition du code ou de l'algorithme.

Crise de la reproductibilité et science ouverte
Open science parce que le concept s’inspire entre autres des principes du logiciel libre par l’intermédiaire de leurs licences, un aspect du software pourtant mal compris : il existe une diversité méconnue de licences ouvertes, selon les conditions de réutilisation, et autant de façons différentes d’être “open”. Les malentendus qui en découlent sont à l’origine de la récente controverse à propos d’AlphaFold 3.

Crise de la reproductibilité, parce que reproduire un calcul sur ordinateur est étonnamment difficile et que le même “code”, compilé sur des ordinateurs différents peut donner des résultats différents, parce que chaque “code” dépend d’une multitude de programmes extérieurs.
Le software est partout en science et pourtant il est partout négligé. L’anglicisme “software” et non “logiciel” est utilisé parce que logiciel en français désigne un logiciel comme Excel ou Photoshop et pas le concept).

La question des licences d’utilisation, celle des formats de fichiers, celle de la compilation, de la dépendance de librairies, de l’infrastructure, celle des différentes catégories d’utilisateurs sont autant de problèmes qui deviennent invisibles quand on parle de code. L’article est structuré autour de sept facettes illustrant les questions sociologiques, historiques et épistémiques que le software pose. L’article se conclue par un appel à unir les forces en science computationnelle et en sciences humaines pour mieux comprendre tous ces aspects à travers de nouvelles études de cas pour mettre en lumière la diversité des pratiques scientifiques.

Un exemple concret : l’autocorrection d’Excel.

Pour illustrer ces problématiques, les auteurs prennent l'exemple de l’autocorrection d’Excel. Le gène « Membrane Associated Ring-CH-type finger 1 », abrégé MARCH1, est souvent transformé automatiquement en date par Excel, corrompant ainsi les données. Malgré des alertes publiées dès 2004, ce problème persiste et impacte encore aujourd’hui de nombreuses publications en bioinformatique. Ce cas souligne l'importance d'une attention accrue au software pour comprendre les enjeux invisibles de la pratique scientifique.

Accès à l’article : https://www.nature.com/articles/s43588-024-00651-2