CECR-FR Rator
cental | Louvain-la-Neuve
Début: mai 2021 |
Évaluation automatique de la compétence écrite des apprenants du FLE
Le projet CECR-Rator est le fruit de la collaboration entre le Cental et France Éducation International (FEI). Son objectif vise à décrire les compétences écrites des apprenants du FLE et, sur la base de cette description, à développer un algorithme permettant de prédire automatiquement le niveau du Cadre européen commun de référence pour les langues (CECR) de ces productions écrites. Pour atteindre cet objectif ambitieux, la collaboration entre le Cental et FEI vise à entrainer des algorithmes d’intelligence artificielle sur l’ensemble des épreuves écrites du TCF.
A l’issue des observations faites par les partenaires (le CENTAL et FEI) et en nous reposant sur une revue critique de la littérature, nous avons construit notre problématique de recherche pour la décliner en deux volets :
- Décrire de façon généralisée et empirique (à partir de données d’apprenants) les compétences de production des apprenants du FLE
- Mettre au point un système d’IA permettant d’analyser automatiquement ces productions en les reliant à un niveau du CECR
Décrire de façon généralisée et empirique les compétences de production des apprenants du FLE
Ce premier volet de la recherche vise à décrire les compétences écrites des apprenants du FLE à travers leur utilisation de divers phénomènes linguistiques. Plus précisément, nous prévoyons d’établir la distribution de fréquence de ces phénomènes linguistiques sur les six niveaux du CECR (sur le modèle des lexiques du projet CEFRLex). Cela permettra de caractériser le développement de la compétence écrite chez l’apprenant du FLE de manière plus précise.
Mettre au point un système d’IA permettant d’analyser automatiquement ces productions en les associant à un niveau CECR
Ce deuxième volet représentera une avancée scientifique majeure vers l’évaluation automatisée des productions des apprenants du FLE. Il combinera des informations provenant de variables linguistiques et de deep learning afin d’assigner un niveau CECR à n’importe quelle production écrite en français langue étrangère. De plus, nous prévoyons de proposer un diagnostic détaillé du texte analysé en associant un niveau CECR aux phénomènes linguistiques constitutifs de son niveau de compétence (mots, expressions polylexicales, structures syntaxiques, temps et mode des verbes, etc.)
Planification
La direction de ce projet est divisée en différentes étapes étendues sur une durée de 36 mois :
- Etape 1 : Préparation du corpus de production des apprenants du FLE et diffusion d’une section à la communauté scientifique.
- Etape 2 : Annotation automatique des phénomènes linguistique par IA pour décrire la compétence écrite des apprenants du FLE
- Etape 3 : Étude de méthodes pour la normalisation automatisée des textes produits par les apprenants FLE
- Etape 4 : Étude du corpus de FEI en vue d’une description généralisée et empirique des compétences de production des apprenants du FLE
- Etape 5 : Développement d’un prototype de classifieur des productions d’apprenants selon leur niveau CECR
Apports et innovations
Le projet CECR-FR Rator représente une innovation dans le domaine du TAL puisqu’il sera le premier à proposer une description des itinéraires d’acquisition de la compétence écrite chez les apprenants du FLE qui soit entièrement basé sur un large corpus de productions. Par ailleurs, de nombreux phénomènes linguistiques seront pris en compte : lexique (mots et expressions), orthographiques, morphosyntaxiques (maîtrise des accords, utilisation correcte des temps et modes, etc.), syntaxiques (structures grammaticales utilisées) et discursifs (mots liens).
Ce sera également le premier modèle capable de proposer un diagnostic aussi riche et détaillé des difficultés textuelles apparaissant dans les différentes productions analysées.
Il s’agit donc d’une belle collaboration entre les secteurs public et privé qui vise à développer une recherche de pointe sur l'évaluation automatique de la compétence écrite des apprenants du FLE. Une recherche de pointe tant en matière de combinaison de connaissances linguistiques et de méthodes d'IA avancées (deep learning) que de modélisation basée sur un large corpus qui représente différentes langues maternelles, âges, origines, niveaux d'acquisition, etc.
Résultats du projet de recherche
Le premier résultat de recherche significatif reste l’outil FABRA.
FABRA prend la forme d’une boite à outil pour la lisibilité, permettant de calculer un grand nombre de variables utiles pour caractériser la lisibilité des textes en français. L’architecture de lisibilité de FABRA permet d’extraire et calculer automatiquement plus de 400 variables linguistiques pertinentes pouvant être regroupées en quatre grandes familles,: la longueur, le lexique, la syntaxe et le discours.
Nos principales contributions avec FABRA portent sur l’extraction automatique de variables, accompagnée d’une riche description statistique composée de 18 agrégateurs.
En tant qu’outil, FABRA, a été conçu selon une architecture orientée service, qui évite l’installation en local du système et simplifie son intégration dans d’autres projets tels que CECR-FR Rator. Il a le potentiel de soutenir de nouvelles recherches sur l’évaluation de la lisibilité en français.
Équipe
Assistant(e) de recherche : Alice Pintard
Chercheurs postdoctoraux : Dr. David Alfter et Dr. Rodrigo Souza Wilkens
Promoteur : Thomas François
Autres contributeurs : Xiaoou Wang ; Delia Budulan
Partenaires
France Education International
Financement
Mandat d’impulsion scientifique (MIS) du FNRS
Accord de collaboration avec FEI (financement FTAP)
Publications (liées au projet)
Yamaguchi, N., Alfter, D., Sugiyama, K. et François, T. (à paraître) Towards a Verb Profile: distribution of verbal tenses in FFL textbooks and in learner productions. Proceedings of NLP4CALL 2022.
Wilkens, R., Seibert, D., Wang, X. et François, T. (2022). MWE for Essay Scoring English as a Foreign Language. In Proceedings of the READI 2022 workshop.
Wilkens, R., Alfter, D., Wang, X., Pintard, A., Tack, A., Yancey, K. et François, T. FABRA: French Aggregator-Based Readability Assessment toolkit In Proceedings of LREC 2022.
Bibal, A., Cardon, R., Alfter, D., Wilkens, R., Wang, X., François, T. et Watrin, P. (2022). Is Attention Explanation? An Introduction to the Debate In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 3889-3900. May 22-27.
Communications
Online, November 9, 2022, Presentation of the automated rating essay (AES - AUTOMATED ESSAY SCORING - STATE OF THE ART) principles and state of arts by Dr David Alfter - ALTE Coordination Session
Paris, April 21, 2022, Invited workshop at the 57th ALTE Conference
Lecture: "Introducing CEFRLex and its perspectives for automated scoring"
Paris, April 22, 2022, Invited talk at the 57th ALTE Conference
Lecture: "Automated essay scoring: where do you stand and where are we going?" (consulter l’enregistrement ici)