Concept-based and Relation-based Corpus Navigation: Applications of Natural Language Processing in Digital Humanities

Pablo Ruiz

Résumé

Social sciences and Humanities research is often based on large textual corpora, unfeasi-ble to read in detail. Natural Language Processing (NLP) identifies important concepts and actors in a corpus, and the relations between them, which can provide a useful overview for domain-experts, helping identify corpus areas relevant for their research. To annotate large corpora, we first applied Entity Linking, to identify corpus actors and concepts. The relations between these were determined based on an NLP pipeline, which provides semantic role labeling and syntactic dependencies among other information. Generic NLP tools were used. As the efficacy of NLP methods depends on the corpus, some technological development was undertaken to better adapt to our corpora. Three corpora were analyzed. First, the manuscripts of Jeremy Bentham (a 18th-19th century corpus in political philosophy). Second, the PoliInformatics corpus, about the American financial crisis of 2007. Third, the Earth Negotiations Bulletin (ENB), which covers international climate policy summits, where treaties like the Kyoto Protocol or the Paris Agreements get negotiated. Corpus navigation interfaces were developed. They combine networks, full-text search and structured search based on NLP annotations. As an example, in the ENB corpus UI, negotiation actors having expressed support or opposition about a given issue can be searched. Relation information between actors and concepts is employed, beyond simple term co-occurrence. The UIs were evaluated by domain-experts. We tried to determine whether experts could gain new insight on the corpus by using the applications, e.g if they found new evidence or research ideas. This was attested with the ENB interface, which is a good validation of the work carried out.

La recherche en Sciences humaines et sociales repose souvent sur de grands corpus textuels, impossibles de lire en détail. Le Traitement automatique des langues (TAL) identifie des concepts et des acteurs importants dans un corpus et les relations entre eux, ce qui peut fournir une vue d'ensemble utile pour les experts d'un domaine, les aidant à identifier les zones du corpus pertinentes pour leurs recherches. Pour annoter de grands corpus, nous avons appliqué le liage d’entités (Entity Linking), pour identifier des acteurs et concepts. Les relations entre ceux-ci ont été déterminées sur la base d'une chaîne de traitements TAL, qui étiquette des fonctions sémantiques et syntaxiques. Des outils de TAL génériques ont été utilisés. L’efficacité des méthodes de TAL dépend du corpus, et des développements ont été effectués pour mieux s'adapter à nos corpus. Trois corpus ont été analysés. D'abord, les manuscrits de Jeremy Bentham, un corpus de philosophie politique des 18e et 19e siècles. Ensuite, le corpus PoliInformatics, sur la crise financière américaine de 2007. Enfin, le Bulletin des Négociations de la Terre (ENB), qui couvre les sommets internationaux sur la politique climatique, où des traités comme le Protocole de Kyoto ont été négociés. Des interfaces de navigation de corpus ont été développées, qui combinent les réseaux et la recherche structurée fondée sur des annotations TAL. Par exemple, l’interface ENB permet de voir les acteurs qui ont exprimé de l’opposition sur un sujet. Les relations entre acteurs et concepts sont exploitées, au-delà de la co-occurrence entre termes. Les interfaces ont été évaluées par des experts de domaine. Nous avons tenté de déterminer si les experts peuvent avoir une meilleure compréhension du corpus grâce aux applications, en trouvant des faits nouveaux. Ceci a été attesté avec l'interface ENB, ce qui est une bonne validation du travail effectué.

Concept-based and Relation-based Corpus Navigation: Applications of Natural Language Processing in Digital Humanities

Navigation en corpus fondée sur les concepts et les relations : Applications du Traitement automatique des langues aux Humanités numériques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Relations

Exporter

Partager