Dans le cadre de sa thèse Lorraine Université d’Excellence à l'ATILF et au LORIA, Timothee Mickus a développé le jeu en ligne BlankCrack : blankcrack.atilf.fr
Entretien avec notre doctorant-concepteur de jeu !
A quoi sert ce jeu ?
Ce jeu a pour but de collecter des données linguistiques pour analyser des modèles de traitement automatique de la langue (TAL). Plus précisément, je cherche les mots sur lesquels les modèles existants sont susceptibles de faillir: comme un modèle TAL moderne est essentiellement une machine qui prédit le mot qui suit sachant les mots qui précèdent, on s'attend à ce que des mots contextuellement similaires mais avec des sens différents (par exemple, « mardi » et « mercredi »), soient confondus par ces modèles, et qu’ils fassent de fausses prédictions pour ces mots-là. En effet, si « mardi » et « mercredi » ont toujours les mêmes contextes, alors les modèles TAL devraient ne pas avoir assez d’information pour ne pas confondre l'un avec l'autre dans leurs prédictions. Pour étudier ce phénomène, je souhaite comparer les modèles TAL à ce que des locuteurs natifs feraient dans le même genre de situation.
Explique-nous, le TAL, c'est quoi ?
« TAL » est l'acronyme de Traitement Automatique de la Langue. C'est la sous-discipline de la linguistique qui s'occupe de la formalisation informatique du langage. Ça regroupe, par exemple: la traduction automatique, l'extraction d'information, la reconnaissance vocale, et c'est donc le domaine scientifique derrière des choses aussi variées que les services de traduction instantanée, les moteurs de recherche sur internet, ou des produits comme les assistants vocaux. Derrière la plupart de ces applications, il y a des « modèles de langues », des réseaux de neurones artificiels qui sont calculés à partir de grandes quantités de textes et entraînés à prédire le prochain mot, étant donné un début de phrase. C’est ces modèles que je cherche à étudier avec les données du jeu BlankCrack.
Quel est le principe du jeu ?
Les joueurs (H/F) sont invités à proposer ou résoudre des énigmes. Les énigmes suivent un format particulier : elles contiennent plusieurs phrases à trou et deux mots. Avec le mode « Crackers », les joueurs doivent deviner correctement lequel de ces deux mots a été effacé dans les phrases. Avec le mode « Blankers », les joueurs peuvent soumettre des paires de mots non synonymes, que le système présente avec des phrases à trou aux joueurs Crackers.
Comment jouer ?
Il faut ouvrir un compte ou se connecter au jeu via les réseaux sociaux (Facebook, Twitter & Reddit). Chaque joueur peut choisir le mode jeu, le niveau de difficulté, jouer contre des amis, etc…En mode Crackers, il suffira de cliquer sur le mot choisi et en mode Blankers, il faudra saisir la paire de mot dans un champ de texte.
Peut-on jouer dans toutes les langues ?
Pour l’instant, le jeu est disponible dans cinq langues : français, anglais, italien, espagnol et russe. Nous n’avons pas l’intention d’en rajouter d’autres dans l’immédiat, mais j’ai mis une attention particulière pour m’assurer qu’on puisse rajouter des langues facilement.
Jusqu'à quand pourra-t-on jouer ?
L'idée est de garder le jeu en ligne le plus longtemps possible. Pour que je puisse valoriser ce travail, l'idéal serait d’avoir un nombre conséquent d'annotations d'ici décembre 2021, afin que je puisse démontrer la valeur scientifique de ce travail et le présenter à des conférences.
Pourquoi as-tu besoin de beaucoup de joueurs ?
Plus il y aura de joueurs, plus nous aurons de données, et donc plus nous pourrons tester de manière fine et extensive les modèles TAL. La validité des analyses statistiques que nous conduirons après collecte des données dépend pour l'essentiel du volume de données à notre disposition: trop peu, et nos analyses ne seront pas significatives, statistiquement parlant.
Quelles données sont récoltées ? D’autres scientifiques pourraient-ils les utiliser ?
En un mot, on s’intéresse à des données linguistiques, et non à des données personnelles. Les conditions d'utilisation du site contiennent les informations sur les données récoltées. Pour chaque énigme présentée, le système enregistre uniquement ce qui a une utilité linguistique: la langue (ES, RU, IT, EN, ou FR), la paire de mots, les phrases présentées, le temps pris par l'utilisateur pour répondre, deux identifiants anonymisés pour l'utilisateur qui a créé la paire de mot et celui qui a essayé de résoudre l'énigme. La base de données sera mise à disposition au format tableur (CSV). En accord avec les valeurs du projet OLKi qui finance ma thèse, il est prévu de publier les données dans un entrepôt pour qu’elles soient utilisables par tout un chacun.
>> Pour tout retour d'expérience, écrivez à l'adresse mail dblankcrack@atilf.fr.
Financement : Ce travail a bénéficié d'une aide de l’État, gérée par l'Agence Nationale de la Recherche, au titre du projet Investissements d'Avenir Lorraine Université d'Excellence, portant la référence ANR-15-IDEX-04-LUE.
>> Liens utiles :
- page personnelle de Timothee Mickus
- interview de Timothee Mickus
- le sujet de sa thèse
- le site de Lorraine Université d'Excellence
-----
(English)
As part of his PhD funded by the "Lorraine Université d'Excellence" initiative, Timothee Mickus, a PhD student from the ATILF and LORIA labs, has developed the online game BlankCrack: https://blankcrack.atilf.fr/
Interview with our PhD student / game designer
What is the goal of this game?
The goal of this game is to collect linguistic annotations to analyze Natural Language Processing (NLP) models. More precisely, I’m looking for words which are likely to trick those models: as NLP models are essentially machines that predict the next word, given the beginning of a sentence, you can expect that they won’t be able to distinguish between two words with similar contexts but different meanings (e.g., “Tuesday” and “Wednesday”), and that the models’ predictions should be wrong for such words. If “Tuesday” and “Wednesday” always share the same contexts, then NLP models should not have enough information to properly distinguish the two in their predictions. To study this phenomenon, I want to compare NLP models with what native speakers would do in the same sort of setup.
Please explain, what is NLP ?
“NLP” is the acronym for Natural Language Processing. It is the sub-discipline of linguistics that deals with the computational formalization of language. It encompasses among other things machine translation, information retrieval and speech recognition; and therefore it’s the scientific domains behind things as varied as online machine translation tools, web search engines, or products like virtual assistants. To implement most of these applications, we use “language models”, or artificial neural networks trained on large amounts of data to predict the next word in a sentence. It’s these models that I want to study with the data we collect through BlankCrack.
How does the game work?
Players can either create or solve riddles. Riddles are made according a specific format: they contain a few sentences with one word blanked out each, and two words. When playing as “Crackers”, players have to correctly guess which of these two words has been blanked out of the sentences. When playing as “Blankers”, players submit non-synonymous word pairs, that the system will then use to create riddles for Crackers.
How do you start playing?
To start with, you need to create an account or log in through scial media (Facebook, Twitter or Reddit). Players can choose to play as a Cracker or a Blanker, set a difficulty Ievel, compete against friends, and so on. When playing as a Cracker, you need to click on the word you guess is the right one; when playing as a Blanker, you have to type in your word pairs.
Can you play in any language?
Right now, the game is available in five languages: English, French, Italian, Russian and Spanish. We currently have no plan to add more, but I made sure that adding new languages was as simple a process as possible.
Until when can you play the game?
I intend to have the game available on line as long as possible. Ideally, I’d like to have collected a significant amount of data before December 2021. That would allow me to demonstrate the scientific worth of this work by presenting it to NLP conferences.
Why do you need so many players?
The more players we have, the more data we can collect. That means we will be able to run a finer-grained and deeper analysis of NLP models. Generally speaking, the validity of statistical analyses hinges on the volume of data we can leverage: with too few data, our analyses will not be significant, statistically speaking.
What data are you collecting? Will other scientists have access to it?
In a word, we’re interested in linguistic data, not personal data. The terms of service of the website contain detailed information on what we collect. For each riddle that was presented, the system will only track data with linguistic value: the language of the riddle (ES, RU, IT, EN or FR), the pair of words to guess from, the sentence that were displayed, the time it took for the cracker to make a guess, as well as anonymized identifiers for the user who created the word pair and the user who tried to solve the riddle. The database will be available as a spreadsheet (CSV format). In line with the values of the OLKi project which funds my thesis, I plan to make the data available through a data warehouse service, so that anyone interested can have access it.
Thanks Timothee !
If you have any feedback, feel free to send a mail to dblankcrack@atilf.fr.
Have fun with the game, and please spread the word around you (especially to your Italian, Spanish and/or Russian speaking contacts).
Funding: This work was supported partly by the french PIA project « Lorraine Université d’Excellence », reference ANR-15-IDEX-04-LUE.
Useful links
- Timothee Mickus’ personal website
- a previous interview of Timothee Mickus
- a summary (in French) of his dissertation topic
- Lorraine Université d’Excellence website