Faut-il réorganiser le lexique arabe ? Proposition pour une catégorisation du lexique arabe dans une perspective de lexicométrie

Résumé : L’approche lexicométrique s’inscrit dans la perspective plus générale de l’approche quantitative de l’étude des textes, à la l’intersection de plusieurs disciplines, notamment la linguistique, l’informatique et la statistique. Cette approche trouve plusieurs applications eu égard aux textes, qu’ils soient pris isolément (préoccupations d’ordre stylistique, didactique, historique, etc.), comparés entre eux (typologies de textes, approche contrastive, etc.), considérés dans leur relation aux auteurs (homogénéité d’auteur, attribution d’auteurs, etc.) ou dans leur relation au temps (séries textuelles chronologiques, spécificité chronologique, etc.). Définie comme étant la science qui étudie l’organisation du vocabulaire dans le discours d’un point de vue quantitatif, la lexicométrie renferme un ensemble de méthodes permettant d’opérer « des réorganisations formelles de la séquence textuelle et des analyses statistiques portant sur le vocabulaire d’un corpus de textes » [Salem 1987 : 315]. Parmi les impératifs méthodologiques que le développement de la lexicométrie a pu imposer à tous les travaux s’inscrivant dans le domaine de la linguistique de corpus en général et des études quantitatives en particulier, c’est la nécessité d’établir et puis de suivre une norme lexicologique de dépouillement au moment du prétraitement des données textuelles du corpus étudié. Mais l’établissement d’une telle norme de lexicologique de dépouillement ne va pas sans susciter des difficultés de nature différente. L’une de ces difficultés est de satisfaire aux exigences parfois contradictoires de la linguistique et de la statistique et pour lesquelles « la norme devrait être acceptable à la fois pour le linguiste, pour ses auxiliaires, et pour le statisticien. Mais leurs exigences sont souvent contradictoires. L’analyse linguistique aboutit à des classements nuancés […], la matière sur laquelle elle opère est éminemment continue […]. La statistique, dans toutes ses applications, ne va pas sans une certaine simplification des catégories ; elle ne pourra entrer en action que quand le continu du langage a été rendu discontinu » [Muller 1992 : 113]. Il faut cependant prendre soin, au moment de l’acte interprétatif, de restituer ces éléments discontinus (unités lexicales, phrasèmes, co-occurrents, codes grammaticaux, …) dans leur cadre textuel, puis dans un cadre plus élargi, le corpus. Outre la rigueur scientifique exigée dans tout travail de recherche quant à la définition des unités utilisés, l’ensemble des choix et décisions formant la norme lexicologique vont pouvoir servir de base à toute étude contrastive lexicométrique. Sans cette harmonisation des critères de dépouillement des textes, base de tout parcours analytique et interprétatif, il serait difficile sinon impossible de pouvoir comparer deux corpus sur la base de leurs indices lexicométriques respectifs, des similitudes/dissimilitudes qui peuvent exister entre eux, ni même pouvoir juger des éventuelles corrélations/dispersions décelées entre les éléments de chacun d’entre eux. Il convient donc de définir pour les études lexicométriques arabes une norme lexicologique comportant les règles qui servent à définir la nature ou les frontières des unités sur lesquelles porteront les décomptes, les lemmes ou les limites, plus ou moins claires, des catégories lexicales auxquelles seront rattachées les formes du texte étudié. C’est une norme de dépouillement incluant la définition, les critères et les règles de chacune des quatre grandes opérations qui composent ce que l’on appelle l’analyse lexicale : il s’agit du processus qui, analysant le texte, va définir les limites des unités de décompte (segmentation), assigner le lemme (lemmatisation) et la catégorie lexicale (catégorisation) à chaque unité en fonction de ses voisins (désambiguïsation). La catégorisation consiste à choisir parmi les différentes catégories lexicales possibles du lemme, la bonne catégorie à assigner à ce dernier en fonction du contexte immédiat ou médiat du mot-forme ; la tâche de l’étape de catégorisation se voit nettement facilitée si l’on procède d’abord à une opération de désambiguïsation. La catégorisation est d’autant plus aisée que les catégories lexicales sont clairement définies et nettement délimitées. Cependant, certains cas d’ambiguïtés mono- et polycatégorielles peuvent venir entacher le bon déroulement de cette entreprise. Mais une bonne catégorisation commence toujours par la définition des catégories lexicales. Le choix des critères de classification est certes important, mais ce qui l’est encore davantage dans cette entreprise de catégorisation, c’est la stabilité d’application de ces mêmes critères de classement. Nous discuterons des principes de catégorisation et de la différence, quant à l’organisation du lexique arabe, entre deux approches différentes : la Tradition grammaticale arabe et la linguistique moderne, soucieuse de systématisation et insistant sur l’analyse de la forme. L’organisation du lexique est basée en lexicométrie sur une opposition très significative : mots lexicaux vs mots-outils. Opposition qui permet d’étudier lexicalité et fonctionnalité d’un texte, d’un corpus, d’un auteur, d’un genre, etc. Nous présenterons, là aussi, les différences entre la Tradition grammaticale arabe et notre réorganisation (surtout dans la grande catégorie des mots-outils) du lexique, imposée par la démarche et la méthodologie lexicométriques et allant de pair avec les exigences du traitement automatique de l’arabe. Nous traiterons également de l’embarras de la classification traditionnelle des éléments du lexique arabe, notamment la division tripartite du discours chère à la Tradition grammaticale arabe. A la suite de quoi, nous finirons par donner notre réorganisation du lexique arabe et les catégories retenues avec leurs codes respectifs dans une perspective de lexicométrie. D’une manière générale, les classes lexicales sont hiérarchisées en quatre niveaux. Sept catégories de base ont été retenues ; cinq catégories de base pour les mots lexicaux et qui représentent des listes ouvertes (Verbes, Noms Primitifs, Noms dérivés, Adjectifs et Noms Composés) et une catégorie de base pour les mots-outils qui est une liste fermée. Comme dans toutes les langues, les Noms Propres constituent en fait une classe à la périphérie du lexique ; pour la nécessité des études lexicométriques, nous les avons retenus et nous en avons fait une catégorie de base. 29 catégories se répartissent entre les 7 catégories de base. Les sous-catégories quant à elles, sont au nombre de 44 dont la part du lion (20 sous-catégories) revient à la catégorie des Particules qui appartient à la catégorie de base des Mots-Outils. Nous avons retenu enfin, 16 sous sous-catégories.
Type de document :
Communication dans un congrès
VIIème Colloque International de la Lexicologie (CIL) sur « Le Lexique entre Langue et Discours », May 2017, Tunis, Tunisie
Liste complète des métadonnées

Littérature citée [37 références]  Voir  Masquer  Télécharger

https://hal-univ-paris3.archives-ouvertes.fr/hal-01534162
Contributeur : Zoubeir Mouelhi <>
Soumis le : mercredi 7 juin 2017 - 12:10:29
Dernière modification le : mardi 13 juin 2017 - 01:11:42
Document(s) archivé(s) le : vendredi 8 septembre 2017 - 12:38:10

Fichier

Mouelhi_faut-il_reorganiser_le...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : hal-01534162, version 1

Collections

Citation

Zoubeïr Mouelhi. Faut-il réorganiser le lexique arabe ? Proposition pour une catégorisation du lexique arabe dans une perspective de lexicométrie. VIIème Colloque International de la Lexicologie (CIL) sur « Le Lexique entre Langue et Discours », May 2017, Tunis, Tunisie. 〈hal-01534162〉

Partager

Métriques

Consultations de la notice

63

Téléchargements de fichiers

45