Le projet Impact LUE OLKi allie les expertises de cinq laboratoires de l’Université de Lorraine pour stimuler les travaux de recherche entre les diverses disciplines concernées par le traitement de la langue. Interviews croisées de binômes qui font de l’interdisciplinarité une force.
Mathilde Dargnat est maîtresse de conférences à l’Université de Lorraine et chercheuse à l’ATILF[1]. Spécialiste de sciences du langage et de langue et littérature françaises, en particulier d’analyse textuelle et d’analyse du discours, elle a d’abord travaillé sur le français québécois populaire et sa représentation dans les textes écrits, et se concentre à présent sur les « petits mots du discours » tels que « bon », « ben », « écoute », « donc », « voilà ». Yannick Toussaint, directeur adjoint du Loria[2], est professeur à Mines Nancy et membre de l’équipe Orpailleur. Sa recherche est tournée vers la fouille de textes, la découverte et la représentation des connaissances.
Ensemble, ils font dialoguer linguistique et informatique pour croiser les théories du discours autour d’intérêts communs, notamment au sein du projet LUE IMPACT OLKi[3] et d’un récent projet ANR, CODIM[4].
Cette collaboration au long cours a démarré dès l’arrivée de Mathilde Dargnat à Nancy, avec des travaux communs avec l’équipe Parole du Loria (maintenant Multispeech). Elle a perduré avec Yannick Toussaint, en intégrant le projet OLKi avec des travaux sur la fouille de textes au niveau discursif. L’objectif de ces recherches était de combiner approches symboliques et numériques pour montrer dans quelle mesure la structure des textes peut être utilisée pour améliorer les tâches de fouille de textes, notamment dans les textes argumentatifs. Chacun a ainsi apporté ses compétences respectives au projet : Yannick Toussaint, dans le domaine du text mining et Mathilde Dargnat sur les théories du discours et de l’argumentation et la description sémantique. « En linguistique, nous allons observer comment est construit le texte argumentatif en le caractérisant et en le décomposant en fragments, afin de définir des types de relations qui contribuent à l’argumentation. », précise Mathilde Dargnat. « L’informatique va quant à elle faire émerger des propriétés pour dégager un modèle, comparer des phénomènes pour en tirer des généralisations. », poursuit Yannick Toussaint. « Nous essayons d’organiser les données, de les structurer, et puis d'en dégager des phénomènes, qui permettent aussi d'éclairer le fonctionnement de la langue. »
Ces travaux ont permis à l’équipe de soulever d’autres questions fondamentales, sur la prédiction de schémas argumentatifs notamment. « Confronter deux disciplines comme la linguistique et l’informatique est très enrichissant, souligne Yannick Toussaint, cela nous permet de projeter un problème dans un autre domaine pour l’éclairer différemment ! »
« Le projet nous a permis de soulever des questions pour faire avancer nos théories respectives, voir si des modèles se dégagent selon les approches, afin de transposer les résultats d’une théorie à une autre. C’est un partenariat très enrichissant car nous avons la même perception des intérêts de la recherche. », souligne Mathilde Dargnat.
Ces collaborations ont débouché sur plusieurs co-encadrements et publications et sur un projet ANR réunissant trois partenaires : l’ATILF (coord. Mathilde Dargnat), le Loria (resp. Yannick Toussaint, équipes Orpailleur, Multispeech et Synalp) et le LLF (resp. Jonathan Ginzburg, Laboratoire de Linguistique Formelle, Paris). Nommé CODIM, pour COmpositionality and DIscourse Markers, ce projet ANR se concentre sur l’étude de la combinaison des marqueurs discursifs. Il repose sur une approche quantitative des associations les plus fréquentes et cible une description des propriétés sémantiques, pragmatiques et prosodiques de ces associations ainsi qu’une réflexion sur les modèles pour les représenter. CODIM démarrera en 2023 et se développera sur 4 ans.
Lire les autres interviews croisées:
- Atomes crochus entre chimie et lexicologie
- Des projets pour étudier les discours de haine en ligne
- L'analyse de textes dans le domaine médical