Learning under Dependence for Aggregation of Estimators andClassification, with Applications to DNA Analysis

Xiaoyin Li

Résumé

This thesis aims at a systematic introduction to a weak dependence condition, provided by Doukhan and Louhichi (1999), which is more general than the clas- sical frameworks of mixing or associated sequences. The notion is broad enough to include some standard models such as stable Markov models, bilinear models, and more generally, Bernoulli shifts. In some cases no mixing properties can be expected without additional regularity assumption on the distribution of the innovations distribution for which a weak dependence condition can be easily de- rived. We investigate the relationship between weak dependence and mixing for discrete valued processes. We show that weak dependence implies mixing con- ditions under natural assumptions. The results specialize to the case of Markov processes. Several examples of integer valued processes are discussed and their weak dependence properties are investigated by means of a contraction principle.In the second part, we establish rates of convergences in statistical learning for time series forecasting. Using the PAC-Bayesian approach, slow rates of con- vergence d/n for the Gibbs estimator under the absolute loss were given in a previous work Alquier and Wintenberger (2012), where n is the sample size and d the dimension of the set of predictors. Under the same weak dependence conditions, we extend this result to any convex Lipschitz loss function. We also identify a condition on the parameter space that ensures similar rates for the clas- sical penalized ERM procedure. We apply this method for quantile forecasting of the French GDP. Under additional conditions on the loss functions (satisfied by the quadratic loss function) and for uniformly mixing processes, we prove that the Gibbs estimator actually achieves fast rates of convergence d/n. We discuss the optimality of these different rates pointing out references to lower bounds when they are available. In particular, these results bring a generalization of the results of Dalalyan and Tsybakov (2008) on sparse regression estimation to some autoregression.

Dans cette thèse, nous donnons une introduction systématique à la condition dépendance faible, introduit par Doukhan and Louhichi (1999) , qui est plus générale que les cadres classiques de mélange ou de séquences associées. La notion est suffisamment large pour inclure des modèles standards tels que les modèles stables de Markov , les modèles bilinéaires , et plus généralement , les schémas de Bernoulli. Dans certains cas, aucunes des propriétés de mélangeant ne peut s'attendre sans hypothèse de régularité supplémentaire sur la distribution innovations pour lesquelles une condition de dépendance faible peut être facile- ment dérivée. Nous étudions la relation entre dépendance faible et mélangeant pour les processus de valeurs discrètes. Nous montrons que la dépendance faible implique des conditions de mélangeant sous des hypothèses naturelles. Les ré- sultats se spécialisent au cas des processus Markovian. Plusieurs exemples de processus à valeur entier sont examinés et leurs propriétés de dépendance faibles sont étudiés à l'aide d'une contraction principale.Dans la deuxième partie, nous établissons des vitesses de convergences en apprentissage statistique pour les prédictions d'une série chronologique. En util- isant l'approche PAC- bayésienne, les vitesses lentes de convergence d/n pour l'estimateur de Gibbs sous la perte absolue ont été donnés dans un travail précé- dent Alquier and Wintenberger (2012), où n est la taille de l'échantillon et d la dimension de l'ensemble des prédicteurs. Sous les mêmes conditions de dépendance faible, nous étendons ce résultat à une fonction de perte Lipschitz convexe. Nous identifions également une condition sur l'espace des paramètres qui assure des vitesses similaires pour la procédure classique de l'ERM pé- nalisé. Nous appliquons cette méthode pour la prédiction quantile du PIB français. Dans des conditions supplémentaires sur les fonctions de perte ( satis- faites par la fonction de perte quadratique ) et pour les processus uniformément mélangeant, nous montrons que l'estimateur de Gibbs atteint effectivement lesivvitesses rapides de convergence d/n. Nous discutons de l' optimalité de ces dif- férentes vitesses à abaisser les limites en soulignant des références quand elles sont disponibles. En particulier, ces résultats apportent une généralisation des résultats de Dalalyan and Tsybakov (2008) sur l'estimation en régression sparse à certains auto-régression.

Learning under Dependence for Aggregation of Estimators andClassification, with Applications to DNA Analysis

L'apprentissage sous la dépendance pour l'agrégation des estimateurs et classifications, avec applications à ADN

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager