Domain Adaptation and Model Combination for the Annotation of Multi-source, Multi-domain Texts

Tian Tian

Thèse Année : 2019

Domain Adaptation and Model Combination for the Annotation of Multi-source, Multi-domain Texts

Adaptation au domaine et combinaison de modèles pour l’annotation de textes multi-sources et multi-domaines

(1)

Tian Tian

Fonction : Auteur
PersonId : 175382
IdHAL : tian-tian
IdRef : 241824850

Lattice - Langues, Textes, Traitements informatiques, Cognition - UMR 8094

Résumé

The increasing mass of User-Generated Content (UGC) on the Internet means that people are now willing to comment, edit or share their opinions on different topics. This content is now the main ressource for sentiment analysis on the Internet. Due to abbreviations, noise, spelling errors and all other problems with UGC, traditional Natural Language Processing (NLP) tools, including Named Entity Recognizers and part-of-speech (POS) taggers, perform poorly when compared to their usual results on canonical text (Ritter et al., 2011). This thesis deals with Named Entity Recognition (NER) on some User-Generated Content (UGC). We have created an evaluation dataset including multi-domain and multi-sources texts. We then developed a Conditional Random Fields (CRFs) model trained on User-Generated Content (UGC). In order to improve NER results in this context, we first developed a POS-tagger on UGC and used the predicted POS tags as a feature in the CRFs model. To turn UGC into canonical text, we also developed a normalization model using neural networks to propose a correct form for Non-Standard Words (NSW) in the UGC.

Internet propose aujourd’hui aux utilisateurs de services en ligne de commenter, d’éditer et de partager leurs points de vue sur différents sujets de discussion. Ce type de contenu est maintenant devenu la ressource principale pour les analyses d’opinions sur Internet. Néanmoins, à cause des abréviations, du bruit, des fautes d’orthographe et toutes autres sortes de problèmes, les outils de traitements automatiques des langues, y compris les reconnaisseurs d’entités nommées et les étiqueteurs automatiques morpho-syntaxiques, ont des performances plus faibles que sur les textes bien-formés (Ritter et al., 2011). Cette thèse a pour objet la reconnaissance d’entités nommées sur les contenus générés par les utilisateurs sur Internet. Nous avons établi un corpus d’évaluation avec des textes multi-sources et multi-domaines. Ensuite, nous avons développé un modèle de champs conditionnels aléatoires, entrainé sur un corpus annoté provenant des contenus générés par les utilisateurs. Dans le but d’améliorer les résultats de la reconnaissance d’entités nommées, nous avons d’abord développé un étiqueteur morpho-syntaxique sur les contenus générés par les utilisateurs et nous avons utilisé les étiquettes prédites comme un attribut du modèle des champs conditionels aléatoire. Enfin, pour transformer les contenus générés par les utilisateurs en textes bien-formés, nous avons développé un modèle de normalisation lexicale basé sur des réseaux de neurones pour proposer une forme correcte pour les mots non-standard.

Mots clés

domain adaptation named entity recognition machine learning conditional random fields neural networks

adaptation au domaine reconnaissance des entités nommées apprentissage automatique champs aléatoires conditionnels réseaux de neu- rones

Domaines

Traitement du texte et du document Intelligence artificielle [cs.AI] Linguistique Informatique

Fichier principal

These_Tian_Tian_2019.pdf (2.64 Mo)

Origine : Fichiers produits par l'(les) auteur(s)

Tian Tian : Connectez-vous pour contacter le contributeur

https://hal.science/tel-02473489

Soumis le : lundi 10 février 2020-17:20:40

Dernière modification le : vendredi 19 avril 2024-16:18:57

Archivage à long terme le : lundi 11 mai 2020-16:24:08

Dates et versions

tel-02473489 , version 1 (10-02-2020)

tel-02473489 , version 2 (11-06-2020)

Identifiants

HAL Id : tel-02473489 , version 1

Citer

Tian Tian. Domain Adaptation and Model Combination for the Annotation of Multi-source, Multi-domain Texts. Document and Text Processing. Université Sorbonne Nouvelle - Paris 3, 2019. English. ⟨NNT : ⟩. ⟨tel-02473489v1⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

262 Consultations

457 Téléchargements

Domain Adaptation and Model Combination for the Annotation of Multi-source, Multi-domain Texts

Adaptation au domaine et combinaison de modèles pour l’annotation de textes multi-sources et multi-domaines

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager