Postée il y a 2 jours
La génération de texte a récemment attiré l'attention de la communauté de la communauté NLP, car de grands modèles de langage pré-entraînés ont démontré une excellente capacité à générer des textes longs, grammaticalement corrects et fluides. Un inconvénient important de ces modèles est que leur adaptation à une nouvelle tâche ou à une nouvelle langue nécessite souvent l'utilisation de données étiquetés qui ne sont pas forcément disponibles et dont la création serait coûteuse et difficile. Cet inconvénient est particulièrement aiguë pour la génération de texte à partir de données [NG24, SNSM+25], mais cela vaut aussi pour les tâches spécifiques à un domaine (par exemple, la santé, la finance), telles que le résumé ou la simplification.
Récemment, des techniques d'apprentissage des préférences telles que DPO (Direct Preference Optimisation, [RSM+ 24, IL24]), Group Relative Policy Optimization (GRPO) ou ORPO (Odds Ratio Preference Optimization, [HLT24]) ont été proposées pour améliorer un modèle de base en s'entraînant sur des données d'argent souvent plus faciles à créer, en particulier pour le traitement multilingue, typiquement en utilisant la traduction automatique) et en améliorant le modèle à l'aide des données de préférence. Cette approche a été appliquée avec succès dans divers domaines, y compris la traduction automatique et le résumé, afin d'améliorer la qualité du du texte en alignant les résultats du modèle sur les préférences humaines [LNN+ 23]. Cependant, l'application de l'apprentissage des préférences à la génération de KG-to-Text et à l'analyse de textes multilingues n'a pas encore été réalisée.
Sujet et programme de travail
L'objectif de cette thèse de doctorat est d'étudier comment ces nouvelles méthodes d'apprentissage des préférences peuvent être exploitées pour faciliter la génération de textes multitâches et multilingues lorsque les données d'apprentissage sont indisponibles.
Plus précisément, la thèse s'appuiera sur les travaux antérieurs du candidat [SG25] et se concentrera sur la génération de textes multilingues à partir de graphes de connaissances, pouvant s'étendre au résumé et/ou à la simplification de texte à texte si le temps le permet.
Le projet de thèse est confronté à plusieurs défis.
Premièrement, il faut identifier et comparer les méthodes de création de données d’apprentissage de niveau argent. Selon les tâches de génération, des techniques telles que la supervision à distance, la traduction automatique pour l’aspect multilingue et l’incitation LLM sont des candidats naturels. Ces différentes méthodes seront explorées et comparées à l’aide de mesures d’évaluation standard pour chacune des tâches de génération de cibles.
Deuxièmement, il faut créer des données de préférence. Comme mentionné ci-dessus, cela nécessite de pouvoir classer les sorties alternatives. À cette fin, nous utiliserons soit les mesures existantes lorsqu’elles sont disponibles (par exemple, SARI pour la simplification de texte
ou METEOR pour la traduction) soit nous concevrons de nouvelles mesures lorsqu’elles ne le sont pas (par exemple, des mesures qui
capturent le degré de préservation du sens entre un graphe de connaissances et un texte). Nous avons exploré ce dernier point dans [SG25] et prévoyons à la fois d'améliorer ces premiers résultats en utilisant par exemple, la formation d'un classeur plutôt que l'apprentissage par représentation et d'étendre à d'autres types d'entrées telles que des données tabulaires ou des graphiques de représentation de signification.
Troisièmement, nous comparerons et évaluerons diverses méthodes d'apprentissage des préférences
sur les tâches de génération ciblées.
Références
[HLT24]Jiwoo Hong, Noah Lee, and James Thorne. ORPO : Monolithic preference optimization without reference model. In Yaser Al-Onaizan, Mohit Bansal, and Yun-Nung Chen, editors, Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pages 11170–11189, Miami, Florida, USA, November 2024. Association for Computational Linguistics.
[IL24]Shawn Im and Yixuan Li. On the generalization of preference learning with dpo, 2024.
[LNN+ 23]Viet Dac Lai, Chien Van Nguyen, Nghia Trung Ngo, Thuat Nguyen, Franck Dernoncourt, Ryan A. Rossi, and Thien Huu Nguyen. Okapi : Instruction-tuned large language models in multiple languages with reinforcement learning from human feedback, 2023.
[LYW23]Zihao Li, Zhuoran Yang, and Mengdi Wang. Reinforcement learning with human feedback : Learning dynamic choices via pessimism, 2023.
[NG24]Anna Nikiforovskaya and Claire Gardent. Evaluating RDF-to-text generation models for English and Russian on out of domain data. In Saad Mahamood, Nguyen Le Minh, and DaphneIppolito, editors, Proceedings of the 17th International Natural Language Generation Conference, pages 134–144, Tokyo, Japan, September 2024. Association for Computational Linguistics.
[RSM+ 24]Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, and Chelsea Finn. Direct preference optimization : Your language model is secretly a reward model, 2024.
[SG25] Yifei Song and Claire Gardent. Mucal : Contrastive alignment for preference-driven kg-to-text generation. Technical report, CNRS/LORIA and EPFL Lausanne, 2025. In submission.
[SNSM+ 25] Yifei Song, Anna Nikiforovskaya, William Soto-Martinez, Evan Chapple, and Claire Gardent. Multilingual verbalisation of knowledge graphs. Technical report, LORIA/CNRS, 2025. In Submission.
Contexte de travail
Le doctorant fera partie du groupe MOSAIC du LORIA. Financé par le cluster ENACT AI, il participera aux événements du projet tout en bénéficiant du riche environnement de recherche fourni à la fois par le grand groupe MOSAIC et le projet ENACT. La publication, la participation et la présentation dans des conférences et des revues de haut niveau sont attendues et seront entièrement soutenues. Le candidat aura également la possibilité de participer à une école d'été et, s'il le souhaite, d'enseigner des cours universitaires (jusqu'à un maximum de 60 heures par an).