| Fiche détaillée | HDR |
|
|
| Université de Nanterre - Paris X (01/12/2006), Lucien Birgé (Pr.) |
|
|
| Liste des fichiers attachés à ce document : | |||||
|
|
|
| Résumé des Travaux en Statistique et Applications des Statistiques |
|
|
| Stéphan Clémençon1, 2, 3 |
|
|
| Ce rapport présente brièvement l'essentiel de mon activité de recherche depuis ma thèse de doctorat [53], laquelle visait principalement à étendre l'utilisation des progrès récents de l'Analyse Harmonique Algorithmique pour l'estimation non paramétrique adaptative dans le cadre d'observations i.i.d. (tels que l'analyse par ondelettes) à l'estimation statistique pour des données markoviennes. Ainsi qu'il est éxpliqué dans [123], des résultats relatifs aux propriétés de concentration de la mesure (i.e. des inégalités de probabilité et de moments sur certaines classes fonctionnelles, adaptées à l'approximation non linéaire) sont indispensables pour exploiter ces outils d'analyse dans un cadre probabiliste et obtenir des procédures d'estimation statistique dont les vitesses de convergence surpassent celles de méthodes antérieures. Dans [53] (voir également [54], [55] et [56]), une méthode d'analyse fondée sur le renouvellement, la méthode dite 'régénérative' (voir [185]), consistant à diviser les trajectoires d'une chaîne de Markov Harris récurrente en segments asymptotiquement i.i.d., a été largement utilisée pour établir les résultats probabilistes requis, le comportement à long terme des processus markoviens étant régi par des processus de renouvellement (définissant de façon aléatoire les segments de la trajectoire). Une fois l'estimateur construit, il importe alors de pouvoir quantifier l'incertitude inhérente à l'estimation fournie (mesurée par des quantiles spécifiques, la variance ou certaines fonctionnelles appropriées de la distribution de la statistique considérée). A cet égard et au delà de l'extrême simplicité de sa mise en oeuvre (puisqu'il s'agit simplement d'eectuer des tirages i.i.d. dans l'échantillon de départ et recalculer la statistique sur le nouvel échantillon, l'échantillon bootstrap), le bootstrap possède des avantages théoriques majeurs sur l'approximation asymptotique gaussienne (la distribution bootstrap approche automatiquement la structure du second ordre dans le développement d'Edegworth de la distribution de la statistique). Il m'est apparu naturel de considérer le problème de l'extension de la procédure traditionnelle de bootstrap aux données markoviennes. Au travers des travaux réalisés en collaboration avec Patrice Bertail, la méthode régénérative s'est avérée non seulement être un outil d'analyse puissant pour établir des théorèmes limites ou des inégalités, mais aussi pouvoir fournir des méthodes pratiques pour l'estimation statistique: la généralisation du bootstrap proposée consiste à ré-échantillonner un nombre aléatoire de segments de données régénératifs (ou d'approximations de ces derniers) de manière à imiter la structure de renouvellement sous-jacente aux données. Cette approche s'est révélée également pertinente pour de nombreux autres problèmes statistiques. Ainsi la première partie du rapport vise essentiellement à présenter le principe des méthodes statistiques fondées sur le renouvellement pour des chaînes de Markov Harris. La seconde partie du rapport est consacrée à la construction et à l'étude de méthodes statistiques pour apprendre à ordonner des objets, et non plus seulement à les classer (i.e. leur aecter un label), dans un cadre supervisé. Ce problème difficile est d'une importance cruciale dans de nombreux domaines d' application, allant de l'élaboration d'indicateurs pour le diagnostic médical à la recherche d'information (moteurs de recherche) et pose d'ambitieuses questions théoriques et algorithmiques, lesquelles ne sont pas encore résolues de manière satisfaisante. Une approche envisageable consiste à se ramener à la classification de paires d'observations, ainsi que le suggère un critère largement utilisé dans les applications mentionnées ci-dessus (le critère AUC) pour évaluer la pertinence d'un ordre. Dans un travail mené en collaboration avec Gabor Lugosi et Nicolas Vayatis, plusieurs résultats ont été obtenus dans cette direction, requérant l'étude de U-processus: l'aspect novateur du problème résidant dans le fait que l'estimateur naturel du risque a ici la forme d'une U-statistique. Toutefois, dans de nombreuses applications telles que la recherche d'information, seul l'ordre relatif aux objets les plus pertinents importe véritablement et la recherche de critères correspondant à de tels problèmes (dits d'ordre localisé) et d'algorithmes permettant de construire des règles pour obtenir des 'rangements' optimaux à l'égard de ces derniers constitue un enjeu crucial dans ce domaine. Plusieurs développements en ce sens ont été réalisés dans une série de travaux (se poursuivant encore actuellement) en collaboration avec Nicolas Vayatis. Enfin, la troisième partie du rapport reflète mon intérêt pour les applications des concepts probabilistes et des méthodes statistiques. Du fait de ma formation initiale, j'ai été naturellement conduit à considérer tout d'abord des applications en finance. Et bien que les approches historiques ne suscitent généralement pas d'engouement dans ce domaine, j'ai pu me convaincre progressivement du rôle important que pouvaient jouer les méthodes statistiques non paramétriques pour analyser les données massives (de très grande dimension et de caractère 'haute fréquence') disponibles en finance afin de détecter des structures cachées et en tirer partie pour l'évaluation du risque de marché ou la gestion de portefeuille par exemple. Ce point de vue est illustré par la brève présentation des travaux menés en ce sens en collaboration avec Skander Slim dans cette troisième partie. Ces dernières années, j'ai eu l'opportunité de pouvoir rencontrer des mathématiciens appliqués et des scientifiques travaillant dans d'autres domaines, pouvant également bénéficier des avancées de la modélisation probabiliste et des méthodes statistiques. J'ai pu ainsi aborder des applications relatives à la toxicologie, plus précisément au problème de l'évaluation des risque de contamination par voie alimentaire, lors de mon année de délégation auprès de l'Institut National de la Recherche Agronomique au sein de l'unité Metarisk, unité pluridisciplinaire entièrement consacrée à l'analyse du risque alimentaire. J'ai pu par exemple utiliser mes compétences dans le domaine de la modélisation maarkovienne afin de proposer un modèle stochastique décrivant l'évolution temporelle de la quantité de contaminant présente dans l'organisme (de manère à prendre en compte à la fois le phénomène d'accumulation du aux ingestions successives et la pharmacocinétique propre au contaminant régissant le processus d'élimination) et des méthodes d'inférence statistique adéquates lors de travaux en collaboration avec Patrice Bertail et Jessica Tressou. Cette direction de recherche se poursuit actuellement et l'on peut espérer qu'elle permette à terme de fonder des recommandations dans le domaine de la santé publique. Par ailleurs, j'ai la chance de pouvoir travailler actuellement avec Hector de Arazoza, Bertran Auvert, Patrice Bertail, Rachid Lounes et Viet-Chi Tran sur la modélisation stochastique de l'épidémie du virus VIH à partir des données épidémiologiques recensées sur la population de Cuba, lesquelles constituent l'une des bases de données les mieux renseignées sur l'évolution d'une épidémie de ce type. Et bien que ce projet vise essentiellement à obtenir un modèle numérique (permettant d'effectuer des prévisions quant à l'incidence de l'épidémie à court terme, de manière à pouvoir planifier la fabrication de la quantité d'anti-rétroviraux nécéssaire par exemple), il nous a conduit à aborder des questions théoriques ambitieuses, allant de l'existence d'une mesure quasi-stationnaire décrivant l'évolution à long terme de l'épidémie aux problèmes relatifs au caractère incomplet des données épidémiologiques disponibles. Il m'est malheureusement impossible d'évoquer ces questions ici sans risquer de les dénaturer, la présentation des problèmes mathématiques rencontrés dans ce projet mériterait à elle seule un rapport entier. |
|
|
|
|
|
|
|
|
| 1 : | MODAL'X - Modélisation aléatoire de Paris X |
| 2 : | LPMA - Laboratoire de Probabilités et Modèles Aléatoires |
| 3 : | MET@RISK - Méthodologies d'Analyse de Risque Alimentaire |
|
|
|
|
|
|
| MODAL'X, LPMA, Met@risk |
|
|
| Markov chain/process – regenerative process – nonparametric statistics – bootstrap – limit theorems – supervised statistical learning – ranking – applications to biosciences – application to finance |
| Habilitation Report - Mathematical and Applied Statistics |
| The present report surveys the essentials of my research activity since my PhD thesis [53], which was mainly devoted to extend the use of recent advances in Computational Harmonic Analysis (such as wavelet analysis) for adaptive nonparametric estimation methods in the i.i.d. setting to statistical estimation based on Markovian data. As explained at length in [123], certain concentration of measure properties (i.e. deviation probability and moment inequalities over functional classes, specifically tailored for nonlinear approximation) are crucially required for taking advantages of these analytical tools in statistical settings and getting estimation procedures with convergence rates surpassing the ones of older methods. In [53] (see also [54], [55] and [56]), the regenerative method (refer to [185]), consisting in dividing Harris Markov sample paths into asymptotically i.i.d. blocks, has been crucially exploited for establishing the required probabilistic results, the long term behavior of Markov processes being governed by certain renewal processes (the blocks being actually determined by renewal times). But having constructed an estimator, estimation of the accuracy (measured by the variance, particular quantiles or any functional of the distribution function) of the computed statistic is next of crucial importance. In this respect and beyond its practical simplicity (it consists in resampling data by making i.i.d. draws in the original data sample and recompute the statistic from the bootstrap data sample), the bootstrap is known to have major theoretical advantages over asymptotic normal approximation in the i.i.d. setting (it automatically approximates the second order structure in the Edgeworth expansion of the statistic distribution). I then turned naturally to the problem of extending the popular bootstrap procedure to markovian data. Through the works I and Patrice Bertail have jointly carried out, the regenerative method was revealed to be not solely a powerful analytical tool for proving probabilistic limit theorems or inequalities, but also to be of practical use for statistical estimation: our proposed bootstrap generalization is based on the resampling of (a random number of) regeneration data blocks (or of approximation of the latter) so as to mimick the renewal structure of the data. This method has also been shown to be advantageous for many other statistical purposes. And the first part of the report strives to present the principle of regeneration-based statistical methods for Harris Markov chains, as well as some of the various results obtained this way, in a comprehensive manner. The second part of the report is devoted to the problem of learning how to order instances, instead of classifying them only, in a supervised setting. This dicult problem is of practical importance in many areas, ranging from medical diagnosis to information retrieval (IR) and asks challenging theoretical and algorithmic questions, with no entirely satisfactory answers yet. A possible approach to this subject consists in reducing the problem to a pairwise classification problem, as suggested by a popular criterion (namely, the AUC criterion) widely used for evaluating the pertinence of an ordering. In this context some results have been obtained in a joint work with Gabor Lugosi and Nicolas Vayatis, involving the study of U-processes: the major novelty consisting in the fact that here natural estimates of the risk are of the form of a U-statistic. However, in many applications such as IR, only top ranked instances are eectively scanned and a criterion corresponding to such local ranking problems as well as methods for computing optimal ordering rules with respect to the latter are crucially needed. Further developments in this direction have been considered in a (continuing) series of works in collaboration with Nicolas Vayatis. Finally, the last part of the report reflects my interest in practical applications of probabilistic concepts and statistical tools. My personal background lead me to consider first applications in finance. Although historical approaches are not preferred in this domain, I have been progressively convinced that nonparametric statistics could play a major role in analyzing the massive (of very large dimension and high-frequency) financial data for detecting hidden structure in the latter and gaining advantage of the latter in risk assesment or portfolio selection for instance. As an illustration, the works I have carried out with Skander Slim in that direction are described in a word in this third part. Recently, I also happened to meet applied mathematicians or scientists working in other fields, which may naturally interface with applied probability ans statistics. Hence, applications to Toxicology, and in particular to toxic chemicals dietary exposure, has also been one of my concern this last year, which I have spent in the pluridisciplinary research unity Metarisk of the National Research Agronomy Institute, entirely dedicated to dietary risk analysis. I could thus make use of my skills in Markov modelling for proposing a stochastic model describing the temporal evolution of the total body burden of chemical (in a way that both the toxicokinetics and the dietary behavior may be taken into account) and adequate inference methods for the latter in a joint work with P. Bertail and J. Tressou. This line of research is still going on and will hopefully provide practical insight and guidance for dietary contamination control in public health practice. It is also briefly presented in this last part. Besides, I have the great opportunity to work currently on the modelling of the AIDS epidemic with H. de Arazoza, B. Auvert, P. Bertail, R. Lounes and C. Tran based on the cuban epidemic data available, which form one of the most informed database on any HIV epidemic. While such a research project (taking place in the framework of the ACI-NIM "Epidemic Modelling") aims at providing a numerical model (for computing incidence predictions on short horizons for instance, so as to plan the quantity of antiretrovirals required), it also poses very challenging probabilistic and statistical problems, ranging from the proof for the existence of a quasi-stationary distribution describing the long term behavior of the epidemic to the diculties encountered due to the incomplete character of the epidemic data available. Unfortunately, they are not discussed here, presenting the wide variety of mathematical problems arising in this project without denaturing it would have deserved a whole report. |
| Markov chain/process – regenerative process – nonparametric statistics – bootstrap – limit theorems – supervised statistical learning – ranking – applications to biosciences – application to finance |
| tel-00138299, version 1 | |
| http://tel.archives-ouvertes.fr/tel-00138299 | |
| oai:tel.archives-ouvertes.fr:tel-00138299 | |
| Contributeur : Stéphan Clémençon | |
| Soumis le : Jeudi 29 Mars 2007, 13:34:58 | |
| Dernière modification le : Jeudi 29 Mars 2007, 13:37:12 | |