C. Formel and D. , 7 1.2.1 Partitions, pseudo-partitions et partitions floues

P. Le-clustering, 27 1.6.3 Le clustering par mélange de densités de probabilités 32 1.6.4 Le clustering par grilles, p.45

.. Discussion-sur-l-'algorithme-poboc and P. , 65 2.3.1 Rappel du processus global, p.68

.. Apprentissage-d-'un-ensemble-de-r-`-egles, 80 3.2.1 Le système AQ [123], p.83

.. Motivation-de-l-'approche-par-regroupement, 85 3.3.1 Leprobì eme du choix d'un " bon " sélecteur, p.88

U. Variantes-relativesàrelatives-`-relativesà-l-'algorithme-de-clustering, ´ Evaluation du principe général de décomposition, p.97

.. Extension-du-système-rule-clustàclust-`-clustà-la-logique-du-premier-ordre......-'un-concept, sous-concepts non-disjoints I, p.111

.. Vue-générale-de-la-méthode, 122 4.6.1 Apprentissage d'une clause, p.124

M. Classification-de, 137 5.3.1 Travaux antérieurs, p.139

.. Regroupement-de-mots-pour-la-classification-de-documents, 143 5.4.1 IntroductionàIntroduction`Introductionà la classification de documents 143 5.4.2 Classification supervisée de documents 143 5.4.3 Réduction de la dimension de l'espace de description des documents 146 5, p.152

.. Leprobì-eme-du-choix-d-'un-"-bon-"-sélecteur, 85 3.3.2 Utilisation du clustering dans un contexte supervisé, p.88

.. Introductionàintroduction-`-introductionà-la-classification-de-documents, 143 5.4.2 Classification supervisée de documents 143 5.4.3 Réduction de la dimension de l, p.152

. Cette-technique-d-'ordonnancement, utilisée dans la phase d'initialisation de la méthode ADC, permet de sélectionner ensuite les mots les plus influents dans la description des classes de documents. Les M premiers mots sont retenus pour constituer V (M spécifié par l'utilisateur). 5.5. ´ Etude prospective : applicationàapplication`applicationà l

D. Annexe, Expertise de quelques groupes de documents

. Le-second-texte, privilégie les 1` ere et 2nde personnes du singulier pour exemplifier l'objetétudiéobjetétudié (« Si tu ne m'avais pas aidé, je n'aurais pas pu finiràfinir`finirà temps, ce qui explique la présence importante de JE (8.93% pour 2.99%) et TU (8.65% pour 0.54%)

. Le-texte-portant-sur-le-chinois, onreì eve nettement moins de temps de l'hypothétique que dans le texte 83 ; le texte contient beaucoup d'infinitifs (28% pour 17, 79%), liées aux nombreuses traductions (littérales) du chinois 2 . Les deux textes ont ainsí etéetéécartés principalement en raison de leur objet, et plus spécifiquement des exemples donnés

R. Agarwal, (Almost) automatic semantic feature extraction from technical text, Proceedings of the workshop on Human Language Technology , HLT '94, pp.378-383, 1994.
DOI : 10.3115/1075812.1075899

URL : http://acl.ldc.upenn.edu/H/H94/H94-1075.pdf

. Cleuziou, ? Regroupements non-disjoints de mots pour la classification de documents, Premì ere Conférence en Recherche d'Information et Applications CORIA, pp.41-56, 2004.

E. Paul, G. Stolorz, and . Piatetsky-shapiro, ? Joins that generalize : text classification using Whirl, Proceedings of KDD-98, 4th International Conference on Knowledge Discovery and Data Mining, pp.169-173, 1998.

(. E. Diday, ? Optimisation en classification automatique et reconnaissance de formes. Note Scient. INRIA n?6, 1972.
DOI : 10.1051/ro/197206v300611

(. E. Diday, ? La méthode des nuées dynamiques, Rev. Stat. Appliquées, vol.XIX, issue.2, pp.19-34, 1975.

(. E. Diday, ? Une représentation visuelle des classes empiétantes : Les Pyramides. ? Rapport technique, 1984.

(. J. Dunn, A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters, Journal of Cybernetics, vol.3, issue.3, pp.32-57, 1973.
DOI : 10.1080/01969727308546046

. Estivill-castro, Criteria on Proximity Graphs for Boundary Extraction and Spatial Clustering, Proceedings of the 5th Pacific- Asia Conference on Knowledge Discovery and Data Mining, pp.348-357
DOI : 10.1007/3-540-45357-1_37

. Fisher, Knowledge acquisition via incremental conceptual clustering, Machine Learning, pp.139-172, 1987.
DOI : 10.1007/BF00114265

. Fukuyama, ? A New Method of Choosing the Number of Clusters for the Fuzzy C-means Method, Proc. 5th Fuzzy Syst. Symp, pp.247-250, 1989.

G. Fung, ? A comprehensive overview of basic clustering algorithms, 2001.

. Grefenstette, ? Explorations in automatic thesaurus discovery. ? Kluwer Academic Pub, 1994.
DOI : 10.1007/978-1-4615-2710-7

. Grefenstette, ? The WWW as a Resource for Example-Based MT Tasks, Proc. ASLIB Translating and the Computer 21 Conf, 1999.

. Halkidi, Clustering validity checking methods, ACM SIGMOD Record, vol.31, issue.3, pp.19-27, 2002.
DOI : 10.1145/601858.601862

. Halkidi, Clustering validity assessment: finding the optimal partitioning of a data set, Proceedings 2001 IEEE International Conference on Data Mining, pp.187-194, 2001.
DOI : 10.1109/ICDM.2001.989517

. Harris, ? The form of Information in Science : Analysis of an immunology sublanguage, 1989.
DOI : 10.1007/978-94-009-2837-4

. Hawkins, ? Identification of Outliers, 1980.
DOI : 10.1007/978-94-015-3994-4

. Hofmann, Probabilistic latent semantic indexing, Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval , SIGIR '99, pp.50-57, 1999.
DOI : 10.1145/312624.312649

URL : http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.1.4458

E. W. Holman, Evolutionary and psychological effects in pre-evolutionary classifications, Journal of Classification, vol.213, issue.1, pp.29-39, 1985.
DOI : 10.1007/BF01908062

. Hull, Improving Text Retrieval for the Routing Problem using Latent Semantic Indexing, Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval, pp.282-291, 1994.
DOI : 10.1007/978-1-4471-2099-5_29

URL : http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.133.5960

I. Juan, ? Recherche des tendances thématiques dans les publications scientifiques. définition d'une méthodologie fondée sur la linguistique, Thèse de doctorat, 1997.

(. S. Johnson, Hierarchical clustering schemes, Psychometrika, vol.58, issue.4, pp.241-254, 1967.
DOI : 10.1007/BF02289588

. Lallich-boidin, ? Communication homme-machine et recherche d'information fondée sur le traitement automatique des langues

. Lang, NewsWeeder: Learning to Filter Netnews, Proceedings of the 12th International Conference on Machine Learning, pp.331-339, 1995.
DOI : 10.1016/B978-1-55860-377-6.50048-7

(. D. Lewis, An evaluation of phrasal and clustered representations on a text categorization task, Proceedings of the 15th annual international ACM SIGIR conference on Research and development in information retrieval , SIGIR '92, pp.37-50, 1992.
DOI : 10.1145/133160.133172

. Lin, ? An Information-Theoretic Definition of Similarity, Proceedings of the Fifteenth International Conference on Machine Learning, pp.296-304, 1998.

(. R. Michalski, ? On the quasi-minimal solution of the general covering problem, V International Symposium on Information Processing (FCIP 69), pp.125-128

(. R. Michalski, ? Knowledge acquisition through conceptual clustering : A theoretical framework and an algorithm for partitioning data into conjunctive concepts, 1980.

E. Morin, ? Extraction de liens sémantiques entre termesàtermes`termesà partir de corpus de textes techniques, Thèse de doctorat. IRIN, 1999.

T. R. Ng and . Han, ? Efficient and Effective Clustering Methods for Spatial Data Mining, Proceedings of 20th International Conference on Very Large Data Bases VLDB'94 Jarke (M.) et Zaniolo, pp.144-155, 1994.

. Pellegrini, Static mapping by dual recursive bipartitioning of process architecture graphs, Proceedings of IEEE Scalable High Performance Computing Conference, pp.486-493, 1994.
DOI : 10.1109/SHPCC.1994.296682

(. G. Plotkin, ? A note on inductive generalization, Machine Intelligence, vol.5, 1970.

. Prié, ? Sur la piste de l'indexation conceptuelle de documents : une approche par l'annotation. L'indexation, Document Numérique, pp.11-35, 2000.

(. J. Quinlan, Induction of decision trees, Machine Learning, pp.81-106, 1986.
DOI : 10.1007/BF00116251

URL : http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.167.3624

. Quinlan, Induction of logic programs: FOIL and related systems, New Generation Computing, vol.5, issue.1, pp.287-312, 1995.
DOI : 10.1007/BF03037228

URL : http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.298.7382

. Sebag, Distance induction in first order logic, Proceedings of ILP'97, pp.264-272, 1997.
DOI : 10.1007/3540635149_55

URL : https://hal.archives-ouvertes.fr/hal-00116475

. Sebag, ? Topics in Case-Based Reasonning, chap. A Rulebased Similarity Measure, pp.119-130, 1994.

. Sebastiani, Machine learning in automated text categorization, ACM Computing Surveys, vol.34, issue.1, pp.1-47, 2002.
DOI : 10.1145/505282.505283

URL : http://arxiv.org/abs/cs/0110053

. Smadja, ? Retrieving Collocations from Text : Xtract, Computational Linguistics, vol.19, issue.1, pp.143-177, 1994.

. Sorensen, ? A Method of Establishing Groups of Equal Amplitude in Plant Sociology Based on Similarity of Species Content and Its Application to Analyses of the Vegetation on Danish Commons, Biologiske Skrifter, vol.5, pp.1-34, 1948.

(. J. Sowa, On conceptual structures, Artificial Intelligence, vol.34, issue.3, 1984.
DOI : 10.1016/0004-3702(88)90069-0

-. Sparck, ? Synonymy and Semantic Classification, 1987.

(. G. Toussaint, Comment: Algorithms for computing relative neighbourhood graph, Electronics Letters, vol.16, issue.22, p.860, 1980.
DOI : 10.1049/el:19800611

. Turenne, ? Apprentissage statistique pour l'extraction de conceptsàconcepts`conceptsà partir de textres, 2000.

P. D. Turney, Mining the Web for Synonyms: PMI-IR versus LSA on TOEFL, 12th European Conference on Machine Learning ECML, pp.491-502, 2001.
DOI : 10.1007/3-540-44795-4_42

(. C. Van-rijsbergen, ? Information Retrieval, 1979.

(. R. Wille, ? Restructuring Lattice Theory : an Approach Based on Hierarchies of Concepts, In : Ordered Sets, pp.445-470, 1982.

. Le-regroupement-d-'objets, . Dans-un-cadre-non-supervisé, and . Est-une-tâche-importante-et-difficile-en-apprentissage, Ce processus intervient dans des contextes variés tels que la découverte de connaissances, la simplification dans le représentation ou la description d'un ensemble de données. Nous proposons, dans cetté etude, l'algorithme de clustering PoBOC permettant de structurer un ensemble d'objets en classes non-disjointes. Nous utilisons cette méthode de clustering comme outil de traitement dans deux applications très différentes. ? En apprentissage supervisé