Sur l'utilisation active de la diversité dans la construction d'ensembles de classifieurs. Application à la détection de fumées nocives sur site industriel - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2008

On the usability of diversity when training multiple classifier systems. Application to the detection of hazardous smokes on industrial facilities.

Sur l'utilisation active de la diversité dans la construction d'ensembles de classifieurs. Application à la détection de fumées nocives sur site industriel

Résumé

Discussions about the influence of diversity when designing Multiple Classifier Systems has been an active topic in Machine Learning overs recent years. One possible way of considering the design of Multiple Classifier Systems is to select the ensemble members from a large pool of classifiers focusing on predefined criteria, which is known as the Overproduce and Choose paradigm, also called Ensemble Pruning.

The objective of this PhD Thesis is to study the trade-off between accuracy and diversity which exists in multiple classifier systems and bring some elements of response on the elusive behavior of diversity when using it explicitly in ensemble learning algorithms.

We start by reviewing some well known Machine Learning algorithms and ensemble learning techniques from the literature. We then present in details the concept of diversity and the way it is used by certain ensemble learning algorithms.

We propose a genetic heuristic to design multiple classifier systems by controlling the trade-off between diversity and accuracy when selecting individual classifiers. We compare the proposed genetic selection with several heuristics described in the literature to build multiple classifier systems under the Overproduce and Choose paradigm.

The different observations we draw from several experiments on UCI datasets lead us to propose certain specific conditions where it might be worth using diversity explicitly during the design stage of multiple classifier systems. We also show that effectiveness of the Overproduce and Choose paradigm mainly relies on the stability of a given problem.

The application of our research work concerns the development of a supervised classification system to control atmospheric pollution around industrial complexes. This system is based on the analysis of visual scenes recorded by cameras and aims at detecting dangerous smoke trails rejected by steelworks or chemical factories.
L'influence de la diversité lors de la construction d'ensembles de classifieurs a soulevé de nombreuses discussions au sein de la communauté de l'Apprentissage Automatique ces dernières années.
Une manière particulière de construire un ensemble de classifieurs consiste à sélectionner individuellement les membres de l'ensemble à partir d'un pool de classifieurs en se basant sur des critères prédéfinis.
La littérature fait référence à cette méthode sous le terme de paradigme Surproduction et Sélection, également appelé élagage d'ensemble de classifieurs.

Les travaux présentés dans cette thèse ont pour objectif d'étudier le compromis entre la précision et la diversité existant dans les ensembles de classifieurs. Nous apportons également certains éléments de réponse sur le comportement insaisissable de la diversité lorsqu'elle est utilisée de manière explicite lors de la construction d'un ensemble de classifieurs.

Nous commençons par étudier différents algorithmes d'apprentissage de la littérature. Nous présentons également les algorithmes ensemblistes les plus fréquemment utilisés. Nous définissons ensuite le concept de diversité dans les ensembles de classifieurs ainsi que les différentes méthodes permettant de l'utiliser directement lors de la création de l'ensemble.

Nous proposons un algorithme génétique permettant de construire un ensemble de classifieurs en contrôlant le compromis entre précision et diversité lors de la sélection des membres de l'ensemble. Nous comparons notre algorithme avec différentes heuristiques de sélection proposées dans la littérature pour construire un ensemble de classifieurs selon le paradigme Surproduction et Sélection.

Les différentes conclusions que nous tirons des résultats obtenus pour différents jeux de données de l'UCI Repository nous conduisent à la proposition de conditions spécifiques pour lesquelles l'utilisation de la diversité peut amener à une amélioration des performances de l'ensemble de classifieurs. Nous montrons également que l'efficacité de l'approche Surproduction et Sélection repose en grande partie sur la stabilité inhérente au problème posé.

Nous appliquons finalement nos travaux de recherche au développement d'un système de classification supervisée pour le contrôle de la pollution atmosphérique survenant sur des sites industriels. Ce système est basé sur l'analyse par traitement d'image de scènes à risque enregistrées à l'aide de caméras. Son principal objectif principal est de détecter les rejets de fumées dangereux émis par des usines sidérurgiques et pétro-chimiques.
Fichier principal
Vignette du fichier
theseGacquer.pdf (3.51 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00392616 , version 1 (08-06-2009)

Identifiants

  • HAL Id : tel-00392616 , version 1

Citer

David Gacquer. Sur l'utilisation active de la diversité dans la construction d'ensembles de classifieurs. Application à la détection de fumées nocives sur site industriel. Autre [cs.OH]. Université de Valenciennes et du Hainaut-Cambresis, 2008. Français. ⟨NNT : ⟩. ⟨tel-00392616⟩
165 Consultations
357 Téléchargements

Partager

Gmail Facebook X LinkedIn More