Concepts et algorithmes pour la découverte des structures formelles des langues - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 1998

Concepts and Algorithms for Discovering Formal Structures of Languages

Concepts et algorithmes pour la découverte des structures formelles des langues

Hervé Déjean
  • Fonction : Auteur
  • PersonId : 842297

Résumé

This presentation describes a method which allows the uncovering of syntactic structures from untagged corpora (no lexicon, just raw text). It can be considered as a continuation of Zellig Harris distributional work developed in the 50'. Following the distributional hypothesis, only formal criteria are used (no resort to semantics).

The method is based on a simple idea of the language: it is a linear object in which the boundaries (beginning and ending) of the different structures are marked by characteristic elements. The structures so delimited are the simple phrase (non recursive) and the clause, which are both multilingually and formally defined. The phrase Boundaries Indicator (BI) corresponds to morphemes (linked or free), and the clause BI to morphemes and phrases.

From this theoretical structure, we extract the list of all the categories an element can belong to (beginning and ending BI of phrases and clauses). Once structures and categories are identified, we build specified contexts for each category in order to classify all the words of the texts. These contexts are built thanks to prototypical elements which are easily identified from formal criteria (their identification relies on their behaviour related to punctuation marks). We can thus classify a word into several categories. The categorization first deals with clause elements (such as conjunctions, verbal phrases), and then with nominal phrases.

This method allows word categorization and segmentation of the corpus into phrases. These concepts and algorithms were partially tested on several natural languages such as French, German, Turkish, Vietnamese, Swahili.
Que peut-on apprendre sur la structure d'une langue à partir d'un texte écrit dans cette langue, et ceci sans connaissance particulière sur celle-ci et avec l'aide (disons l'utilisation) d'un ordinateur?

Voilà la question à laquelle nous avons essayé de répondre. Cette réponse peut être vue comme une continuation des travaux en analyse distributionnelle développée par Zellig Harris.

L'objectif de ce travail est donc de découvrir les structures formelles d'une langue en étudiant ces régularités formelles contenues dans un corpus

Notre méthode de découverte se base sur une simple conception formelle de la langue: un objet linéaire dans lequel les frontières (de début et de fin) des différentes structures sont indiquées par des éléments caractéristiques. Les structures ainsi identifiées sont le syntagme simple (non récursif), et la proposition, structures à la fois multilingues et formelles. Ces indicateurs de frontières correspondent à des morphèmes (libres ou liés) pour le syntagme, et à des morphèmes ou des syntagmes pour la proposition.

À partir de ces structures théoriques, nous construisons la liste de toutes les catégories qu'un élément (morphème ou mot) peut prendre. Une fois ces structures et catégories recensées, nous construisons des contextes spécifiques à chaque catégorie afin de catégoriser les éléments du texte. Nous obtenons donc un mécanisme permettant d'assigner à un élément plusieurs catégories si cet élément apparaît dans différents contextes. Ces contextes sont construits à l'aide des éléments prototypiques de marqueurs de frontières de structures, identifiables grâce à leur position par rapport à la segmentation physique du texte (en particulier les ponctuations).

Les résultats obtenus permettent la catégorisation des mots du corpus, ainsi qu'une segmentation partielle en syntagmes. La méthode a été appliquée à une dizaine de langues comme le français, l'allemand, le turc, le vietnamien et le swahili.
Fichier principal
Vignette du fichier
these.pdf (1.31 Mo) Télécharger le fichier

Dates et versions

tel-00169572 , version 1 (04-09-2007)

Identifiants

  • HAL Id : tel-00169572 , version 1

Citer

Hervé Déjean. Concepts et algorithmes pour la découverte des structures formelles des langues. Théorie et langage formel [cs.FL]. Université de Caen, 1998. Français. ⟨NNT : ⟩. ⟨tel-00169572⟩
173 Consultations
92 Téléchargements

Partager

Gmail Facebook X LinkedIn More