Accéder directement au contenu Accéder directement à la navigation
Chapitre d'ouvrage

Méthodologie pour la préparation d'une campagne d'annotation manuelle d'expressions référentielles

Résumé : Le contexte de ce travail est l'annotation manuelle des expressions référentielles qui apparaissent dans des textes écrits en français, de différentes périodes et de différents genres textuels. Le but est la constitution du corpus du projet ANR DEMOCRAT, dans lequel sont annotées les expressions référentielles et les chaînes de référence. Nous présentons une série d'expérimentations d'annotation réalisées en 2016 et en 2017, au début du projet, faisant intervenir plusieurs méthodes et plusieurs annotateurs. Les retours d'expériences ainsi collectés ont servi à spécifier la procédure d'annotation du projet, et ont conduit à la mise en oeuvre du corpus, disponible en ligne depuis avril 2019. Parmi les aspects que nous mettons en avant se trouvent d'une part la sélection des expressions à annoter, d'autre part l'utilisationou non-d'un outil de traitement automatique des langues en tant que pré-annotateur. Nous discutons chacun de ces deux aspects en nous appuyant sur les résultats de sessions d'annotation chronométrées : quantité de texte traitée ; calcul de l'accord inter-annotateurs ; impressions et difficultés rencontrées par les annotateurs. Nous soulignons notamment l'aspect « robotique » de certaines facettes de la tâche d'annotation, que nous discutons. Nous concluons avec la rédaction et le test du manuel d'annotation.
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/hal-03287823
Contributeur : Frédéric Landragin <>
Soumis le : jeudi 15 juillet 2021 - 21:35:57
Dernière modification le : mercredi 21 juillet 2021 - 03:31:02

Fichier

21_UGA.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-03287823, version 1

Collections

Citation

Frédéric Landragin. Méthodologie pour la préparation d'une campagne d'annotation manuelle d'expressions référentielles. Cécile Frérot; Mojca Pecman. Des corpus numériques à l'analyse linguistique en langues de spécialité, UGA Editions, pp.37-60, 2021, Collection Langues, gestes, paroles, 978-2-37747-261-1. ⟨hal-03287823⟩

Partager

Métriques

Consultations de la notice

4

Téléchargements de fichiers

2