Inférence grammaticale en situations bruitées - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2009

Inférence grammaticale en situations bruitées

Frédéric Tantini
  • Fonction : Auteur
  • PersonId : 836491

Résumé

Grammatical Inference is concerned with learning formal languages. Formal languages are organised into classes, regular languages being the components of the simplest class. A lot of work has been done studying regular languages and learning algorithms have been successfully developped.

However, a crucial point must be tackled now: noisy data. Some propositions have been made in this direction but we show that none are entirely convincing, even for regular languages. Therefore, as they are the foundations of the Chomsky hierarchy, no element of the hierarchy is learnable from noisy data.

In this work, we propose to study a new class of languages which does not seem to suffer of this drawback: the balls of strings. We
prove that this unusual class, which is in fact already used in works such as spelling correction or nearest neighbor search, is still learnable even from non-statistical noisy data.

Moreover, we introduce the edit correction queries, based on edit distance, and propose an algorithm learning balls of strings with such queries. If the oracle is allowed to answer approximate corrections, we show that simple heuristics are enough to design a robust algorithm, giving further evidence that balls of strings can be learned from noisy data.

Contrary to popular belief, noise is not a curse in grammatical
inference: distance-based languages open new perspectives.
L'inférence grammaticale s'intéresse à l'apprentissage automatique de langages formels. Ces derniers sont organisés en plusieurs classes formant la hiérarchie de Chomsky. Parmi elles, les langages réguliers, reconnus par des automates finis déterministes, forment la classe la plus « simple » à apprendre : l'apprentissage des automates a largement été étudié et a donné naissance à plusieurs algorithmes d'inférence grammaticale.

Toutefois, un problème concernant les données est devenu crucial : celui du bruit. Des propositions d'algorithmes ont vu le jour pour essayer de résoudre ce problème, mais nous montrons que les résultats ne sont toujours pas satisfaisants, y compris pour les langages réguliers. Or, puisqu'ils forment la base de la hiérarchie de Chomsky, ce sont toutes les classes de la hiérarchie qui ne peuvent être apprises en situations bruitées.

Aussi, nous proposons une nouvelle classe de langages qui semble ne pas souffrir de ce handicap : celle des boules de mots. Nous démontrons que cette classe, de prime abord peu orthodoxe mais utilisée dans de nombreuses applications comme la correction orthographique ou la recherche de plus proches voisins, reste identifiable à la limite même lorsque les données d'apprentissage subissent l'influence d'un bruit non statistique.

De plus, nous introduisons les requêtes de correction basées sur la distance d'édition et nous présentons un algorithme d'apprentissage des boules de mots à partir de telles requêtes. Nous montrons expérimentalement que de simples heuristiques a posteriori suffisent à le rendre résistant lorsque l'oracle répond approximativement à de telles requêtes. Ceci justifie encore une
fois la robustesse des boules de mots au bruit.

Contrairement aux idées reçues, le bruit n'est donc pas une malédiction en inférence grammaticale : les langages à base de distance offrent de nouvelles perspectives.

Domaines

Autre [cs.OH]
Fichier principal
Vignette du fichier
these.pdf (2.16 Mo) Télécharger le fichier

Dates et versions

tel-00411616 , version 1 (28-08-2009)

Identifiants

  • HAL Id : tel-00411616 , version 1

Citer

Frédéric Tantini. Inférence grammaticale en situations bruitées. Autre [cs.OH]. Université Jean Monnet - Saint-Etienne, 2009. Français. ⟨NNT : ⟩. ⟨tel-00411616⟩
108 Consultations
107 Téléchargements

Partager

Gmail Facebook X LinkedIn More