2558 articles  [version française]
Detailed view PhD thesis
Université Pierre et Marie Curie - Paris VI (19/05/2004), Médigue Claudine (Dir.)
Attached file list to this document: 
PS
tel-00008296.ps(140.2 MB)
PDF
tel-00008296.pdf(12.5 MB)
ANNEX
tel-00008296.pdf(6.5 MB)
(Ré)annotation de génomes procaryotes complets - Exploration de groupes de gènes chez les bactéries
Stéphanie Bocs1

La stratégie experte semi-automatique de prédiction de Séquences CoDantes (CDS) d'un chromosome procaryote est fondée sur le modèle statistique des chaînes de Markov. Elle est constituée des stratégies AMIMat pour l'apprentissage de l'hétérogénéité de composition des CDS d'un chromosome et AMIGene pour la reconnaissance et le filtrage des CDS les plus probables. AMIMat permet de construire k matrices de transition à partir de k classes de gènes définies selon l'usage des codons synonymes. La précision d' AMIGene dépend de la qualité des matrices et d'autres paramètres validés automatiquement par rapport à des annotations de référence. Autour de ces stratégies, un processus de réannotation de génome complet a été développé, en interaction avec notre base multigénome PkGDB, qui facilite l'homogénéisation des annotations des banques. Ce processus de (ré)annotation est utilisé dans de nombreux projets : Bacillus, Neisseria, Acinetobacter, Entérobactéries.
1:  UMR 8030 - Génomique métabolique
génome procaryote – chaînes de Markov – analyses multivariées – analyse factorielle des correspondances – centres mobiles – hétérogénéité dans l'usage des codons synonymes des CDS – prédiction de gènes – réannotation – exploration d'îlots génomiques

Prokaryotic complete genome (re)annotation - Exploration of gene groups in bacteria
The semi-automatic expert strategy for predicting CoDing Sequence (CDS) on a prokaryotic chromosome is based on the Markov chain statistical model. It is made up of the strategies AMIMat for the training of the compositional heterogeneity of CDS from a chromosome and AMIGene for the recognition and the filtering of the most probable CDS. AMIMat allows construction of k transition matrices from k gene classes defined according to synonymous codon usage. The AMIGene precision depends on the quality of the matrices and on other parameters automatically validated on reference annotations. A complete genome reannotation process, using these strategies, has been developed, in interaction with our multigenome database PkGDB, which facilitates the homogenisation of the databank annotations. This (re)annotation process is used in many projects: Bacillus, Neisseria, Acinetobacter, Enterobacteria.
prokaryotic genome – Markov chains – multivariate analyses – correspondence analysis – K-means – CDS synonymous codon usage heterogeneity – gene prediction – reannotation – genomic island exploration