Skip to Main content Skip to Navigation
Habilitation à diriger des recherches

Du textuel au numérique : analyse et classification automatiques

Résumé : Dans ce document, je présente les travaux de recherche que j'ai menés après ma thèse, d'abord comme chercheur au LANIA, Mexique, puis pendant mon post-doctorat au Canada au LANCI-UQAM et comme chercheur au ERMETIS, ensuite à l'École Polytechnique de Montréal et finalement au LIA où je suis actuellement responsable de la thématique TALNE.
Un goût personnel pour les méthodes d'apprentissage automatique m'a orienté vers leur utilisation dans le Traitement Automatique de la Langue Naturelle. Je laisserai de côte des aspects psycholinguistiques de la compréhension d'une langue humaine et je vais m'intéresser uniquement à la modélisation de son traitement comme un système à entrée-sortie. L'approche linguistique possède des limitations pour décider de cette appartenance, et en général pour faire face à trois caractéristiques des langages humaines : Ambiguïté.
Je pense que l'approche linguistique n'est pas tout à fait appropriée pour traiter des problèmes qui sont liés à un phénomène sous-jacent des langues humaines : l'incertitude. L'incertitude affecte aussi les réalisations technologiques dérivées du TAL : un système de reconnaissance vocale par exemple, doit faire face à de multiples choix générés par une entrée. Les phrases étranges, mal écrites ou avec une syntaxe pauvre ne posent pas un problème insurmontable à un humain, car les personnes sont capables de choisir l'interprétation des phrases en fonction de leur utilisation courante. L'approche probabiliste fait face à l'incertitude en posant un modèle de langage comme une distribution de probabilité. Il permet de diviser un modèle de langage en plusieurs couches : morphologie, syntaxe, sémantique et ainsi de suite. Tout au long de cette dissertation, j'ai essayé de montrer que les méthodes numériques sont performantes en utilisant une approche pragmatique : les campagnes d'évaluation nationales et internationales. Et au moins, dans les campagnes à portée de ma connaissance, les performances des méthodes numériques surpassent celles des méthodes linguistiques. Au moment de traiter de grandes masses de documents, l'analyse linguistique fine est vite dépassée par la quantité de textes à traiter. On voit des articles et des études portant sur Jean aime Marie et autant sur Marie aime Jean ou encore Marie est aimée par Jean. J'ai découvert tout au long de mes travaux, en particulier ceux consacrés au résumé automatique et au raffinement de requêtes, qu'un système hybride combinant des approches numériques à la base et une analyse linguistique au sommet, donne de meilleures performances que les systèmes pris de façon isolée.
Dans l'introduction je me posais la question de savoir si la linguistique pouvait encore jouer un rôle dans le traitement de la langue naturelle. Enfin, le modèle de sac de mots est une simplification exagérée qui néglige la structure de la phrase, ce qui implique une perte importante d'information. Je reformule alors les deux questions précédentes comme ceci : Les approches linguistiques et les méthodes numériques peuvent-elles jouer un partenariat dans les tâches du TAL? Cela ouvre une voie intéressante aux recherches que je compte entreprendre la conception de systèmes TAL hybrides, notamment pour la génération automatique de texte et pour la compression de phrases.
On peut difficilement envisager de dépasser le plafond auquel les méthodes numériques se heurtent sans faire appel à la finesse des approches linguistiques, mais sans négliger pour autant de les valider et de les tester sur des corpora.
Document type :
Habilitation à diriger des recherches
Complete list of metadata

https://tel.archives-ouvertes.fr/tel-00390068
Contributor : Torres-Moreno Juan-Manuel Connect in order to contact the contributor
Submitted on : Sunday, May 31, 2009 - 11:54:45 AM
Last modification on : Monday, October 19, 2020 - 10:58:48 AM
Long-term archiving on: : Thursday, June 10, 2010 - 8:16:14 PM

Identifiers

  • HAL Id : tel-00390068, version 1

Collections

Citation

Juan-Manuel Torres-Moreno. Du textuel au numérique : analyse et classification automatiques. Interface homme-machine [cs.HC]. Université d'Avignon, 2007. ⟨tel-00390068⟩

Share

Metrics

Record views

355

Files downloads

3246