[Interdisciplinarité] L'analyse de textes dans le domaine médical

 
Publié le 20/12/2022 - Mis à jour le 9/01/2023

Le projet IMPACT LUE OLKi allie les expertises de cinq laboratoires de l’Université de Lorraine pour stimuler les travaux de recherche entre les diverses disciplines concernées par le traitement de la langue. Interview croisée de binômes qui font de l’interdisciplinarité une force pour leurs recherches.

Nous avons rencontré Marianne Clausel, Professeure en mathématique à l’IECL[1] (équipe Probabilités et Statistique) et Mathieu Constant, Professeur en informatique à l’ATILF[2] (équipe Ressources : normalisation, annotation et exploitation), pour en savoir plus sur leurs recherches communes sur l’analyse de textes dans le domaine médical. 

Tour de présentation

Marianne a commencé par faire de l’apprentissage statistique, puis s’est orientée vers l’apprentissage automatique (machine learning). Elle s’intéresse d’une part à l’analyse de phénomènes dynamiques et d’autre part aux dépendances entre objets, notamment les graphes. Elle enseigne en Master MIAGE, TAL et Sciences Cognitives[3].

Mathieu a une formation d’informaticien et s’est ensuite formé à la linguistique via la réalisation de descriptions linguistiques fines sous une forme informatisée, et à base de règles. Il s’intéresse de manière générale à la modélisation de la langue, comme l’identification des expressions polylexicales. Avec la massification des données, il s’est orienté vers les approches statistiques et neuronales. Il enseigne en Licence d’informatique et MIASHS, et en Master TAL et Sciences du langage[4].

Leurs recherches communes

Ils se sont rencontrés au sein du consortium OLKi en 2018, ont identifié des intérêts communs sur les graphes (ici, linguistiques) et l’apprentissage automatique, ont recruté un stagiaire pour commencer à travailler ensemble et ont saisi une opportunité d’explorer de grandes bases de documents, apportées par le Cancéropôle Est. Séduits par la problématique du traitement automatique des langues appliqué au domaine médical, leur collaboration a pris de l’ampleur et intégré de nouveaux partenaires médecins et biologistes avec l’ambition de contribuer au développement de la médecine personnalisée.

Ils confrontent ainsi trois domaines. Premièrement, la partie médicale apporte des données et des questionnements, plus particulièrement sur les facteurs liés à la gravité des tumeurs au cerveau et à l’efficacité des traitements. Deuxièmement, la partie linguistique contribue à la modélisation fine de documents textuels (comptes-rendus patients, publications scientifiques). Enfin, la partie statistique vise à comprendre comment un corpus (ensemble de textes) évolue au cours du temps, et comment des données, de type différent, peuvent être reliées entre elles.

Leur objectif méthodologique à moyen terme est de pouvoir croiser trois types de données de source, nature, structure et granularité différentes. Premièrement, il dispose de la littérature scientifique dans le domaine médical. Ensuite, il leur faut acquérir d’une part des comptes-rendus patients rédigés par des médecins experts avec des termes techniques et précis, et d’autre part, des résultats d’analyses biologiques de patients.

« Petit à petit, nous allons accumuler des données, puis des connaissances, jusqu’à extraire des connaissances de plus en plus fines. » commence Mathieu. Marianne poursuit : « Il y a toute une partie de recherche d’information dans les grandes bases de données bibliographiques, et il y a le deuxième aspect de croiser ces informations issues de la littérature scientifique avec les informations d’autres patients, de vrais individus. »

« A ce jour, nous sommes capables de repérer des entités nommées, i.e. tous les termes, tous les noms de personnes, les dates, tous les éléments importants dans les textes, et de trouver des relations entre elles, par exemple que telle personne a eu telles doses de traitement et pour quoi faire. » relate Mathieu.  « Nous rechercherons des régularités, c’est-à-dire des groupes de patients qui se comportent de la même manière face à une même maladie et/ou un même traitement pour identifier les facteurs communs qui pourraient expliquer leur survie ou leur sensibilité à un traitement ou à un autre. Il y a un fort enjeu d’être à la fois capable de dire quel est le meilleur traitement mais aussi de donner une explication. » explique Marianne.

Toutefois, avant de pouvoir croiser les données, il est nécessaire de collecter, maîtriser et préparer chaque type de données séparément. C’est un travail en cours !

L’interdisciplinarité prend du temps

Les deux chercheurs s’accordent à dire qu’il faut du temps pour acquérir une certaine compréhension du domaine des autres, voire démystifier, et ensuite créer une interface entre ces domaines.

« Certaines personnes se font toute une montagne de l’intelligence artificielle, nous avons dû montrer en pratique ce que nous pouvions faire. La première chose était donc de démystifier cette partie via la visualisation de l’information qui se trouve dans les publications scientifiques sélectionnées par notre partenaire du Cancéropole Est. » se souvient Mathieu. Ce travail a donné lieu à un démonstrateur[5].

Marianne conseille : « C’est important de définir une interface réaliste, de commencer par une petite collaboration. A travers un stagiaire, qui apprend le domaine de l’autre collaborateur, nous voyons la progression et nous comprenons les verrous, nous pouvons donc progresser et surtout comprendre les potentialités de ce que chaque discipline peut apporter à l’autre. »