Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual Lexical Semantic Similarity

Ivan Vulic; Simon Baker; Edoardo Maria Ponti; Ulla Petti; Ira Leviant; Kelly Wing; Olga Majewska; Eden Bar; Matt Malone; Thierry Poibeau; Roi Reichart; Anna Korhonen

doi:10.1162/coli_a_00391

Article Dans Une Revue Computational Linguistics Année : 2020

Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual Lexical Semantic Similarity

, , , , , , , , , (1) , ,

Ivan Vulic

Fonction : Auteur

Simon Baker

Fonction : Auteur

Edoardo Maria Ponti

Fonction : Auteur

Ulla Petti

Fonction : Auteur

Ira Leviant

Fonction : Auteur

Kelly Wing

Fonction : Auteur

Olga Majewska

Fonction : Auteur

Eden Bar

Fonction : Auteur

Matt Malone

Fonction : Auteur

Thierry Poibeau

Fonction : Auteur
PersonId : 472
IdHAL : thierry-poibeau
ORCID : 0000-0003-3669-4051
IdRef : 069992258

Lattice - Langues, Textes, Traitements informatiques, Cognition - UMR 8094

Roi Reichart

Fonction : Auteur

Anna Korhonen

Fonction : Auteur

Résumé

We introduce Multi-SimLex, a large-scale lexical resource and evaluation benchmark covering datasets for 12 typologically diverse languages, including major languages (e.g., Mandarin Chinese, Spanish, Russian) as well as less-resourced ones (e.g., Welsh, Kiswahili). Each language dataset is annotated for the lexical relation of semantic similarity and contains 1,888 semantically aligned concept pairs, providing a representative coverage of word classes (nouns, verbs, adjectives, adverbs), frequency ranks, similarity intervals, lexical fields, and concreteness levels. Additionally, owing to the alignment of concepts across languages, we provide a suite of 66 cross-lingual semantic similarity datasets. Due to its extensive size and language coverage, Multi-SimLex provides entirely novel opportunities for experimental evaluation and analysis. On its monolingual and cross-lingual benchmarks, we evaluate and analyze a wide array of recent state-of-the-art monolingual and cross-lingual representation models, including static and contextualized word embeddings (such as fastText, M-BERT and XLM), externally informed lexical representations, as well as fully unsupervised and (weakly) supervised cross-lingual word embeddings. We also present a step-by-step dataset creation protocol for creating consistent, Multi-Simlex-style resources for additional languages. We make these contributions -- the public release of Multi-SimLex datasets, their creation protocol, strong baseline results, and in-depth analyses which can be be helpful in guiding future developments in multilingual lexical semantics and representation learning -- available via a website which will encourage community effort in further expansion of Multi-Simlex to many more languages. Such a large-scale semantic resource could inspire significant further advances in NLP across languages.

Mots clés

Linguistic Resource Typology Lexicon Semantics Multilinguality

Domaines

Traitement du texte et du document Intelligence artificielle [cs.AI] Apprentissage [cs.LG] Linguistique Informatique Méthodes et statistiques Linguistique Sciences de l'information et de la communication

Fichier principal

coli_a_00391.pdf (1.06 Mo)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Thierry Poibeau : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02975786

Soumis le : mercredi 30 décembre 2020-13:08:04

Dernière modification le : vendredi 19 avril 2024-16:18:57

Archivage à long terme le : mercredi 31 mars 2021-18:42:52

Dates et versions

hal-02975786 , version 1 (30-12-2020)

Licence

Paternité - Pas d'utilisation commerciale - Pas de modification

Identifiants

HAL Id : hal-02975786 , version 1
ARXIV : 2003.04866
DOI : 10.1162/coli_a_00391

Citer

Ivan Vulic, Simon Baker, Edoardo Maria Ponti, Ulla Petti, Ira Leviant, et al.. Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual Lexical Semantic Similarity. Computational Linguistics, 2020, 46 (4), pp.847-897. ⟨10.1162/coli_a_00391⟩. ⟨hal-02975786⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

ENS-PARIS CNRS UNIV-PARIS3 LATTICE PSL USPC ANR PRAIRIE-IA

145 Consultations

135 Téléchargements

Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual Lexical Semantic Similarity

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Altmetric

Partager