Algorithmes métaheuristiques hybrides pour la sélection de gènes et la classification de données de biopuces - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2008

Hybrid metaheuristics algorithms for gene selection and classification of microarray data

Algorithmes métaheuristiques hybrides pour la sélection de gènes et la classification de données de biopuces

Résumé

DNAmicroarray technologies permit tomeasure simultaneously gene expressions for thousands of genes in a sample and enable to consider molecular cancer diagnosis based on gene expression. Data that are currently available in this field concern a very large number of variables (thousands of gene expressions) relative to a small number of observations (typically under one hundred samples). This thesis deals with the problem of gene selection, which aims to propose a subset of relevant genes in order to build efficient classifiers to recognize different types of tumor. The problem of gene selection is a very hard problem, for which metaheuristics algorithms based on neighbourhood (local search methods) and population (genetic algorithms and memetic algorithms) seem appropriate. In this thesis, we propose several embedded gene selection methods, that combine metaheuristics algorithms with a support vector machine. In these algorithms, the quality of a selected gene subset is evaluated by a linear SVM classifier trained on this subset. Moreover, these algorithms use the relevance measure, given by the linear SVM about each gene, to inform the search process or to build very specialized genetic operators. Experimentations performed on available data sets show very competitive results when compared to the state-ofthe-art works.
Les biopuces permettent de mesurer simultanément l'activité d'un grand nombre de gènes au sein d'échantillons biologiques et de réaliser un diagnostic (reconnaissance tissu sain/tissu cancéreux ou distinction entre différents types de cancer) à partir de ces données. Pour cette tâche de classification, on dispose d'un faible nombre d'échantillons alors que chaque échantillon est décrit par un très grand nombre de gènes. Dans cette thèse, nous nous intéressons à la sélection de gènes qui permet de proposer un sous-ensemble de gènes pertinents afin de construire un classifieur prédisant le type de tumeur qui caractérise un échantillon cellulaire. Le problème de la sélection de gènes est un problème très difficile et les algorithmes métaheuristiques à base de voisinage (méthodes de recherche locale) et à base de populations (algorithmes génétiques et algorithmes mémétiques) semblent bien appropriés pour traiter ce problème. Dans cette thèse, nous proposons plusieurs méthodes de sélection dites intégrées, combinant des algorithmes métaheuristiques avec un séparateur à vaste marge linéaire (SVM). Dans ces algorithmes, la qualité d'un sous-ensemble de gènes sélectionnés est évaluée grâce au classifieur SVM. De plus, nos algorithmes exploitent l'information de pertinence fournie par le classifieur SVM sur les différents gènes pour guider les mécanismes de recherche locale ou pour proposer des opérateurs génétiques spécialisés. Des expérimentations ont été réalisées sur les différents jeux de données disponibles dans la littérature et nos méthodes se révèlent très compétitives par rapport aux travaux existants.
Fichier principal
Vignette du fichier
theseJoseCrispinHERNANDEZ-HERNANDEZ.pdf (1.6 Mo) Télécharger le fichier

Dates et versions

tel-00447684 , version 1 (15-01-2010)

Identifiants

  • HAL Id : tel-00447684 , version 1

Citer

José Crispin Hernandez Hernandez. Algorithmes métaheuristiques hybrides pour la sélection de gènes et la classification de données de biopuces. Informatique [cs]. Université d'Angers, 2008. Français. ⟨NNT : ⟩. ⟨tel-00447684⟩
398 Consultations
1997 Téléchargements

Partager

Gmail Facebook X LinkedIn More