Dimensions mémorielles de l'interaction écrite humain-machine ˸ une approche cognitive par les modèles mnémoniques pour la détection et la correction des incohérences du système dans les dialogues orientés-tâche - Information, Langue Ecrite et Signée Accéder directement au contenu
Thèse Année : 2022

Memory dimensions of human-computer written interaction ˸ a cognitive approach using mnemonic models for the detection and correction of system inconsistencies in task-oriented dialogues

Dimensions mémorielles de l'interaction écrite humain-machine ˸ une approche cognitive par les modèles mnémoniques pour la détection et la correction des incohérences du système dans les dialogues orientés-tâche

Résumé

In this work, we are interested in the place of task-oriented dialogue systems in both automatic language processing and human-machine interaction. In particular, we focus on the difference in information processing and memory use, from one turn to the next, by humans and machines, during a written chat conversation. After having studied the mechanisms of memory retention and recall in humans during a dialogue, in particular during the accomplishment of a task, we hypothesize that one of the elements that may explain why the performance of machines remains below that of humans, is the ability to possess not only an image of the user, but also an image of oneself, explicitly summoned during the inferences linked to the continuation of the dialogue. This translates into the following three axes for the system. First, by the anticipation, at a given turn of speech, of the next turn of the user. Secondly, by the detection of an inconsistency in one's own utterance, facilitated, as we demonstrate, by the anticipation of the user's next turn as an additional cue. Finally, by predicting the number of remaining turns in the dialogue in order to have a better vision of the dialogue progression, taking into account the potential presence of an incoherence in one's own utterance, this is what we call the dual model of the system, which represents both the user and the image that the system sends to the user. To implement these features, we exploit end-to-end memory networks, a recurrent neural network model that has the specificity not only to handle long dialogue histories (such as an RNN or an LSTM) but also to create reflection jumps, allowing to filter the information contained in both the user's utterance and the dialogue history. In addition, these three reflection jumps serve as a "natural" attention mechanism for the memory network, similar to a transformer decoder. For our study, we enhance a type of memory network called WMM2Seq (sequence-based working memory network) by adding our three features. This model is inspired by cognitive models of memory, presenting the concepts of episodic memory, semantic memory and working memory. It performs well on dialogue response generation tasks on the DSTC2 (human-machine in the restaurant domain) and MultiWOZ (multi-domain created with Wizard of Oz) corpora; these are the corpora we use for our experiments. The three axes mentioned above bring two main contributions to the existing. Firstly, it adds complexity to the intelligence of the dialogue system by providing it with a safeguard (detected inconsistencies). Second, it optimizes both the processing of information in the dialogue (more accurate or richer answers) and the duration of the dialogue. We evaluate the performance of our system with firstly the F1 score for the entities detected in each speech turn, secondly the BLEU score for the fluency of the system utterance and thirdly the joint accuracy for the success of the dialogue. The results obtained show that it would be interesting to direct research towards more cognitive models of memory management in order to reduce the performance gap in a human-machine dialogue.
Dans ce travail, nous nous intéressons à la place des systèmes de dialogue orientés-tâche à la fois dans le traitement automatique des langues, et dans l’interaction humain-machine. Nous nous concentrons plus particulièrement sur la différence de traitement de l’information et de l’utilisation de la mémoire, d’un tour de parole à l’autre, par l’humain et la machine, pendant une conversation écrite de type clavardage. Après avoir étudié les mécanismes de rétention et de rappel mémoriels chez l’humain durant un dialogue, en particulier dans l'accomplissement d'une tâche, nous émettons l’hypothèse qu’un des éléments susceptible d'expliquer que les performances des machines demeurent en deçà de celles des humains, est la capacité à posséder non seulement une image de l’utilisateur, mais également une image de soi, explicitement convoquée pendant les inférences liées à la poursuite du dialogue. Cela se traduit pour le système par les trois axes suivants. Tout d’abord, par l’anticipation, à un tour de parole donné, du tour suivant de l’utilisateur. Ensuite, par la détection d’une incohérence dans son propre énoncé, facilitée, comme nous le démontrons, par l’anticipation du tour suivant de l’utilisateur en tant qu’indice supplémentaire. Enfin, par la prévision du nombre de tours de paroles restants dans le dialogue afin d’avoir une meilleure vision de la progression du dialogue, en prenant en compte la potentielle présence d’une incohérence dans son propre énoncé, c’est que nous appelons le double modèle du système, qui représente à la fois l’utilisateur et l’image que le système renvoie à l’utilisateur. Pour mettre en place ces fonctionnalités, nous exploitons les réseaux de mémoire de bout-en-bout, un modèle de réseau de neurones récurrent qui possède la spécificité non seulement de traiter des historiques de dialogue longs (comme un RNN ou un LSTM) mais également de créer des sauts de réflexion, permettant de filtrer l’information contenue à la fois dans l’énoncé de l’utilisateur et dans celui de l’historique de dialogue. De plus, ces trois sauts de réflexion servent de mécanisme d’attention “naturel” pour le réseau de mémoire, à la manière d’un décodeur de transformeur. Pour notre étude, nous améliorons, en y ajoutant nos trois fonctionnalités, un type de réseau de mémoire appelé WMM2Seq (réseau de mémoire de travail par séquence). Ce modèle s’inspire des modèles cognitifs de la mémoire, en présentant les concepts de mémoire épisodique, de mémoire sémantique et de mémoire de travail. Il obtient des résultats performants sur des tâches de génération de réponse de dialogue sur les corpus DSTC2 (humain-machine dans le domaine de restaurant) et MultiWOZ (multi-domaine créé avec Magicien d’Oz); ce sont les corpus que nous utilisons pour nos expériences. Les trois axes mentionnés précédemment apportent deux contributions principales à l’existant. En premier lieu, ceci complexifie l’intelligence du système de dialogue en le dotant d’un garde-fou (incohérences détectées). En second lieu, cela optimise à la fois le traitement des informations dans le dialogue (réponses plus précises ou plus riches) et la durée de celui-ci. Nous évaluons les performances de notre système avec premièrement la f-mesure pour les entités détectées à chaque tour de parole, deuxièmement de score BLEU pour la fluidité de l’énoncé du système et troisièmement de taux d’exactitude jointe pour la réussite du dialogue. Les résultats obtenus montrent l’intérêt d’orienter les recherches vers des modèles de gestion de la mémoire plus cognitifs afin de réduire l’écart de performance dans un dialogue entre l’humain et la machine.
Fichier principal
Vignette du fichier
99570_SCHAUB_2022_archivage.pdf (2.77 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03647756 , version 1 (20-04-2022)

Identifiants

  • HAL Id : tel-03647756 , version 1

Citer

Léon-Paul Schaub. Dimensions mémorielles de l'interaction écrite humain-machine ˸ une approche cognitive par les modèles mnémoniques pour la détection et la correction des incohérences du système dans les dialogues orientés-tâche. Informatique. Université Paris-Saclay, 2022. Français. ⟨NNT : 2022UPASG023⟩. ⟨tel-03647756⟩
354 Consultations
349 Téléchargements

Partager

Gmail Facebook X LinkedIn More