Logo UL avec lien vers le site de l'Université de Lorraine

[Nouveauté] Corpus OrthoCorpus, dernière version (2025)


Temps de lecture : 3 minutes

Le corpus OrthoCorpus est une ressource linguistique du laboratoire *ATILF.
Il a été constitué et il est tenu à jour par plusieurs membres de l’axe de recherche Lexique, à savoir : Frédérique Brin-Henry, Jessika Cardinali, Evelyne Jacquey, Sandrine Ollinger.
Sa dernière version (n°4) vient de paraitre et elle est en ligne ici dans le catalogue du portail **Ortolang.

Ce corpus comporte 1 253 articles de la revue Rééducation Orthophonique (plus de 6 millions de tokens), parus entre entre 1997 et 2022, et rédigés par  des orthophonistes et d’autres professionnels de la santé ou de l’éducation. Les articles concernent tout l’exercice de l’orthophonie, et comportent des points théoriques sur les pathologies dont s’occupent les orthophonistes, des points sur les traitements et les rééducations, les évaluations, ainsi que des comptes-rendus d’études et quelques témoignages.

Ce corpus regroupe des textes intéressants d’un point de vue synchronique comme diachronique. Il a été constitué à des fins de recherches lexicales, terminologiques et textuelles, et a été utilisé à plusieurs reprises dans des projets de recherche nationaux (cf documentation en page d’accueil). Les métadonnées du corpus ont également fait l’objet d’un travail spécifique. Cette version n° 4 bénéficie de la résolution de problèmes lors de la segmentation en paragraphes, permettant un traitement des données plus pertinent.

OrthoCorpus est disponible dans 2 versions (textes et métadonnées). La première est rédigée au format XML-TEI, la deuxième est directement interrogeable sous TXM. Une version complémentaire appelée CASFINV4, enrichie d’une segmentation en phrases peut être mise à disposition, à la demande.

OrthoCorpus est accessible aux membres de l’ESR, et aux orthophonistes praticiens-chercheurs
et pour des projets de recherche (sur ***demande, adresse de contact).


*ATILF : Analyse et traitement informatique de la langue française, laboratoire spécialisé en sciences du langages.
**Ortolang : Outils et Ressources pour un Traitement Optimisé de la LANGue, est un équipement d’excellence  validé dans le cadre des investissements d’avenir (EQUIPEX-PIA).
Son but est de proposer une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés.
***Référence : ATILF | Analyse et traitement informatique de la langue française
[UMR 7118 UL/CNRS] (2025). OrthoCorpus [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage) – www.ortolang.fr, v4, https://hdl.handle.net/11403/orthocorpus/v4


Orthocorpus, ressource de l'ATILF