616 articles  [version française]
Detailed view PhD thesis
Université Paris Sud - Paris XI (12/12/2011), Gilles Stoltz (Dir.)
Attached file list to this document: 
PDF
VA_GERCHINOVITZ_SEBASTIEN_12122011.pdf(2 MB)
ANNEX
VA_GERCHINOVITZ_SEBASTIEN_12122011_Annexe.pdf(1.2 MB)
Prédiction de suites individuelles et cadre statistique classique : étude de quelques liens autour de la régression parcimonieuse et des techniques d'agrégation
Sébastien Gerchinovitz1

Cette thèse s'inscrit dans le domaine de l'apprentissage statistique. Le cadre principal est celui de la prévision de suites déterministes arbitraires (ou suites individuelles), qui recouvre des problèmes d'apprentissage séquentiel où l'on ne peut ou ne veut pas faire d'hypothèses de stochasticité sur la suite des données à prévoir. Cela conduit à des méthodes très robustes. Dans ces travaux, on étudie quelques liens étroits entre la théorie de la prévision de suites individuelles et le cadre statistique classique, notamment le modèle de régression avec design aléatoire ou fixe, où les données sont modélisées de façon stochastique. Les apports entre ces deux cadres sont mutuels : certaines méthodes statistiques peuvent être adaptées au cadre séquentiel pour bénéficier de garanties déterministes ; réciproquement, des techniques de suites individuelles permettent de calibrer automatiquement des méthodes statistiques pour obtenir des bornes adaptatives en la variance du bruit. On étudie de tels liens sur plusieurs problèmes voisins : la régression linéaire séquentielle parcimonieuse en grande dimension (avec application au cadre stochastique), la régression linéaire séquentielle sur des boules L1, et l'agrégation de modèles non linéaires dans un cadre de sélection de modèles (régression avec design fixe). Enfin, des techniques stochastiques sont utilisées et développées pour déterminer les vitesses minimax de divers critères de performance séquentielle (regrets interne et swap notamment) en environnement déterministe ou stochastique.
1:  DMA - Département de Mathématiques et Applications
Apprentissage statistique – Prévision séquentielle – Suites individuelles – Agrégation PAC-bayésienne – Pondération exponentielle – Régression parcimonieuse – Grande dimension – Calibration automatique – Vitesses minimax – Regret externe – Regret interne – Sélection de modèles – Apprentissage automatique – Bornes de regret

Prediction of individual sequences and prediction in the statistical framework : some links around sparse regression and aggregation techniques
The topics addressed in this thesis lie in statistical machine learning. Our main framework is the prediction of arbitrary deterministic sequences (or individual sequences). It includes online learning tasks for which we cannot make any stochasticity assumption on the data to be predicted, which requires robust methods. In this work, we analyze several connections between the theory of individual sequences and the classical statistical setting, e.g., the regression model with fixed or random design, where stochastic assumptions are made. These two frameworks benefit from one another: some statistical methods can be adapted to the online learning setting to satisfy deterministic performance guarantees. Conversely, some individual-sequence techniques are useful to tune the parameters of a statistical method and to get risk bounds that are adaptive to the unknown variance. We study such connections for several connected problems: high-dimensional online linear regression under a sparsity scenario (with an application to the stochastic setting), online linear regression on L1-balls, and aggregation of nonlinear models in a model selection framework (regression on a fixed design). We also use and develop stochastic techniques to compute the minimax rates of game-theoretic online measures of performance (e.g., internal and swap regrets) in a deterministic or stochastic environment.
Statistical learning – Online learning – Individual sequences – PAC-Bayesian aggregation – Exponential weighting – Sparse regression – High dimension – Parameter tuning – Minimax rates – External regret – Internal regret – Model selection – Machine learning – Regret bounds