Version imprimable |
Search-based and supervised text generation (La génération de texte basée recherche et supervisée) | ||
Fabre, Betty - (2022-09-16) / Université de Rennes 1 - Search-based and supervised text generation Langue : Français Directeur de thèse: Lolive, Damien; Urvoy, Tanguy; Chevelu, Jonathan Laboratoire : IRISA Ecole Doctorale : MATHSTIC Thématique : Informatique | ||
Mots-clés : encodeur-décodeur, triplets RDF, génération de paraphrases, transformer, méthode basée recherche, recherche dans un arbre, bert, gpt, distillation, Apprentissage supervisé (intelligence artificielle), Ressource Description Framework (informatique) Résumé : Les modèles supervisés encodeurs-décodeurs nécessitent de grands datasets alignés pour être entraînés. Les données nécessaires ne sont pas encore disponibles pour plusieurs tâches telles que la verbalisation de triplets RDF ou la génération de paraphrases. D'abord, nous avons exploré la tâche de verbalisation de triplets RDF. Nous avons entraîné des modèles Transformers sur une nouvelle version des données WebNLG et avons étudié plusieurs stratégies de pré-entraînement pour surmonter la petite taille du corpus. Ensuite, nous avons étudié la tâche de génération de paraphrases. Nous avons entraîné des modèles Transformers sur des corpus alignés afin de les comparer directement avec les modèles de la littérature. Une contribution importante de la thèse a été de proposer un cadre expérimental uniforme pour comparer les modèles encodeurs-décodeurs pour la génération de paraphrases. Nous avons également suivi la voie des méthodes alternatives basées recherche pour générer des paraphrases. Pour ce faire, nous avons transformé la tâche de génération de paraphrases en un problème de recherche dans un arbre. Nous avons ensuite développé deux stratégies de recherche: MCPG et PTS et un module de score des paraphrases qui exploite le BERT score, GPT2 et la distance de Levenshtein. Enfin, nous avons mené des expériences de distillation avec le modèle Transformer. Résumé (anglais) : In this thesis, we studied the topic of Search-Based and Supervised Text Generation. Supervised encoder-decoder models require huge aligned datasets to be trained. The necessary data is not yet available for several tasks such as RDF triples verbalization or paraphrase generation. First, we explored the data-to-text task of RDF verbalization. We trained supervised Transformer models on a newly released version of the WebNLG dataset and studied in depth several pre-training strategies to overcome the small size of the aligned corpus. Then, we studied the paraphrase generation task. We have trained Transformer models on aligned corpora to directly compare with the literature model. An important contribution of the thesis was to propose a uniform experimental framework for comparing encoder-decoder models for paraphrase generation. We also followed the path of search-based alternative strategies to generate paraphrases. The main motivation was to provide better control of the generated paraphrase. To do so, we casted the paraphrase generation tasks as a tree-search problem. We then developed two search strategies MCPG, and PTS and a paraphrase scoring module that leverages the BERT score, GPT2, and the Levenshtein distance. Finally, we conducted experiments of data distillation for the Transformer model. Identifiant : rennes1-ori-wf-1-17869 |
Exporter au format XML |