Benchmarking Transformers-based models on French Spoken Language Understanding tasks - Information, Langue Ecrite et Signée Accéder directement au contenu
Communication Dans Un Congrès Année : 2022

Benchmarking Transformers-based models on French Spoken Language Understanding tasks

Etude comparative de modèles Transformers sur une tâche de compréhension de la parole en français

Oralie Cattan
  • Fonction : Auteur
  • PersonId : 1144213
Sahar Ghannay
Christophe Servan
Sophie Rosset

Résumé

In the last five years, the rise of the self-attentional Transformerbased architectures led to state-of-the-art performances over many natural language tasks. Although these approaches are increasingly popular, they require large amounts of data and computational resources. There is still a substantial need for benchmarking methodologies ever upwards on under-resourced languages in data-scarce application conditions. Most pre-trained language models were massively studied using the English language and only a few of them were evaluated on French. In this paper, we propose a unified benchmark, focused on evaluating models quality and their ecological impact on two well-known French spoken language understanding tasks. Especially we benchmark thirteen well-established Transformer-based models on the two available spoken language understanding tasks for French: MEDIA and ATIS-FR. Within this framework, we show that compact models can reach comparable results to bigger ones while their ecological impact is considerably lower. However, this assumption is nuanced and depends on the considered compression method.
Au cours des cinq dernières années, l'essor des architectures basées sur les transformateurs a conduit à des performances de pointe pour de nombreuses tâches en Traitement Automatique des Langues. Bien que ces approches soient de plus en plus populaires, elles nécessitent de grandes quantités de données et de ressources informatiques. Il existe encore un besoin important de méthodologies d'évaluation des performances toujours plus élevées sur des langues sous-équipées dans des conditions d'application où les données sont rares. La plupart des modèles de langage pré-entraînés ont été massivement étudiés en utilisant la langue anglaise et seuls quelques uns d'entre eux ont été évalués sur le français. Dans cet article, nous proposons un benchmark unifié, centré sur l'évaluation de la qualité des modèles et de leur impact écologique sur deux tâches bien connues de compréhension du langage parlé français. En particulier, nous évaluons treize modèles bien établis basés sur le Transformer sur les deux tâches de compréhension du langage parlé disponibles pour le français : MEDIA et ATIS-FR. Dans ce cadre, nous montrons que les modèles compacts peuvent atteindre des résultats comparables à ceux des modèles plus grands, alors que leur impact écologique est considérablement plus faible. Cependant, cette hypothèse est nuancée et dépend de la méthode de compression considérée.
Fichier principal
Vignette du fichier
Cattan_et_al-INTERSPEECH_2022.pdf (145.38 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03715340 , version 1 (06-07-2022)
hal-03715340 , version 2 (19-07-2022)

Identifiants

  • HAL Id : hal-03715340 , version 2

Citer

Oralie Cattan, Sahar Ghannay, Christophe Servan, Sophie Rosset. Benchmarking Transformers-based models on French Spoken Language Understanding tasks. INTERSPEECH 2022, Sep 2022, Incheon, South Korea. ⟨hal-03715340v2⟩
229 Consultations
392 Téléchargements

Partager

Gmail Facebook X LinkedIn More