Ortolang, équipement d’excellence en Sciences humaines et sociales

 
Publié le 23/02/2015 - Mis à jour le 9/10/2015
Ortolang : outils et ressources pour un traitement optimisé de la langue.

Avec plusieurs centaines de milliers de requêtes quotidiennes, le Centre national de ressources textuelles et lexicales (CNRTL) s’est imposé comme un outil incontournable des chercheurs travaillant sur la langue française. Le projet Outils et Ressources pour un Traitement Optimisé de la LANGue (ORTOLANG) va plus loin encore en offrant une infrastructure informatique pour sauvegarder et archiver des corpus textuels, audio et vidéo. La première version de la plateforme web vient d’ouvrir ses portes. Si la totalité des fonctionnalités ne sera disponible qu’en 2016, il est d’ores-et-déjà possible de parcourir plusieurs corpus normalisés et enrichis.

« ORTOLANG permet aux chercheurs de gérer facilement les corpus qu’ils produisent, et de les valoriser auprès des industriels comme des autres chercheurs » explique Jean-Marie Pierrel, Professeur au laboratoire d’Analyse et traitement informatique de la langue française (ATILF) et directeur de ce projet. « Les doctorants produisent beaucoup de données qui la plupart du temps ne sont pas sauvegardées ou ne sont pas disponibles dans un format propre à la recherche » poursuit-il. Désormais, tout chercheur qui produit un corpus textuel, audio ou vidéo est en mesure de déposer ses fichiers sur ORTOLANG aussi simplement qu’il le ferait sur un serveur de partage web.

Portrait de Jean-Marie PierrelUne fois les fichiers déposés, les centres de compétences thématiques prennent le relais : quel que soit le type de corpus, des spécialistes conseillent et accompagnent le chercheur dans l’enrichissement et la normalisation des données au regard des recommandations internationales en vigueur. Les outils d’édition en ligne seront disponibles dans la version 2 de l’outil. « Depuis plus de 15 ans, notre laboratoire offre la plus grand base de données textuelle et lexicale sur la langue française. Nous avons participé à l’élaboration des recommandations qui sont aujourd’hui stabilisées », souligne Jean-Marie Pierrel qui s’est entouré d’autres spécialistes pour le traitement des données audio (LLL à Orléans et LPL à Aix-en-Provence) et vidéo (MoDyCo à Paris).

Les corpus publiés peuvent être consultés sur ORTOLANG selon différentes modalités de confidentialité, en fonction de la nature des données concernées. « Les vidéos tournées durant 6 ans dans des familles confrontées à la naissance d’un enfant autiste sont très utiles aux chercheurs mais n’ont pas à être rendues publiques pour des raisons évidentes de respect de la vie privé » illustre Jean-Marie Pierrel. Les contenus sont toujours diffusés sous une licence qui facilite leur exploitation à des fins non commerciales, notamment par les linguistes, mais aussi par les chercheurs d’autres disciplines.

Les entreprises innovantes peuvent  quant-à-elles utiliser ces données dans le cadre de tests techniques, avant de contractualiser un partenariat avec les ayants-droit si une opportunité économique se confirme. « Les applications de reconnaissance vocale ou de recherche sémantique nécessitent des corpus de plusieurs dizaines de millions de mots. A 10 centimes le mot pour un corpus de textes écrits annotés et 1 euro le mot pour de l’audio, les industriels ont besoin de données sur lesquelles travailler pour élaborer de nouveaux services avant d’investir » constate Jean-Marie Pierrel.

L’ensemble des contenus est sécurisé au sein d’une architecture informatique élaborée avec les chercheurs du laboratoire Analyse et Traitement Informatique de la Langue Française du Laboratoire lorrain de recherche en informatique et ses applications et de l’Institut de l’information scientifique et technique. Les contenus les plus sensibles sont archivés de manière pérenne, c’est le cas par exemple d’enregistrements des années 60, très précieux pour observer les évolutions de la langue française.

Malgré ses apparences de simple service en ligne, la mise en place d’ORTOLANG représente un investissement de 2,2 millions d’euros entre 2013 et 2016. « Une dizaine de contractuels ont été recrutés pour mettre en place l’architecture logicielle », quant au fonctionnement futur, « Il est assuré dans le cadre de l’Equipex jusqu’en 2020 et, au delà, c’est la réussite du projet qui en assurera la pérennité » indique Jean-Marie Pierrel. Pour ce dernier, au-delà des intérêts scientifiques et industriels, « ORTOLANG est un outil majeur de valorisation de la langue française » : aujourd’hui, le CNRTL attire déjà presque autant de requêtes en provenance des Etats-Unis qu’en provenance de la France.

Fonctionnement d’ORTOLANG