Modélisation différentielle du texte, de la linguistique aux algorithmes

Nadine Lucas

Résumé

The "differential modeling of text, linguistic algorithms" memory is about my epistemological position and especially on the interface between modeling in theoretical linguistics and computer modeling. From the start I took the study of corpus and multilingualism as a working basis. The methods used are placed in the tradition of the Prague school (Jakobson, but also the computer) and have a relationship with other research in Japan and the Nordic countries. While most of the work of TAL concerning the syntax or vocabulary, I took the point of view of the analysis of the written speech in its entirety and a relational perspective, endogenous, to find ways of dealing automatically whole texts and text corpus. The first dimension is the original multilingualism designed as normal working hypothesis, not need rollup monolingual practices. The second dimension is the angle of multi-scale vision for analyzing collections and documents with their material formatting, identifying marks that structure texts regardless of language, asking for comments on the grains analysis relevant. The memory contains many examples of applications described in depth with the issues, techniques and illustrations of the results.

Le mémoire " Modélisation différentielle du texte, de la linguistique aux algorithmes " porte sur mon positionnement épistémologique et spécialement sur l'interface entre modélisation en linguistique théorique et modélisation en informatique. Dès le départ j'ai pris l'étude des corpus et le multilinguisme comme base de travail. Les méthodes utilisées se placent dans la filiation de l'école de Prague (Jakobson, mais aussi les informaticiens) et elles ont une parenté avec d'autres recherches au Japon et dans les pays nordiques. Alors que la plupart des travaux du TAL concernent la syntaxe ou le lexique, j'ai pris le point de vue de l'analyse du discours écrit dans son intégralité et d'un point de vue relationnel, endogène, pour trouver les moyens de traiter automatiquement des textes entiers et des corpus de textes. La première dimension originale est le multilinguisme conçu comme hypothèse normale de travail, et non comme nécessité de cumul de pratiques monolingues. La seconde dimension est l'angle de vision multi échelle, qui permet d'analyser les collections et les documents avec leur mise en forme matérielle, en repérant les marques qui structurent les textes indépendamment de la langue, en posant des observations sur les grains d'analyse pertinents. Le mémoire contient de nombreux exemples d'applications, décrits en profondeur, avec les enjeux, les techniques utilisées et des illustrations des résultats obtenus.

Differential modeling of text, linguistic algorithms

Modélisation différentielle du texte, de la linguistique aux algorithmes

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager