Towards adaptive learning and inference - Applications to hyperparameter tuning and astroparticle physics

Rémi Bardenet

Résumé

Inference and optimization algorithms usually have hyperparameters that require to be tuned in order to achieve efficiency. We consider here different approaches to efficiently automatize the hyperparameter tuning step by learning online the structure of the addressed problem. The first half of this thesis is devoted to the problem of hyperparameter tuning in machine learning, where recent results suggest that with current generation hardware, the optimal allocation of computing time includes more hyperparameter exploration than has been typical in the literature. After presenting and improving the generic sequential model-based optimization (SMBO) framework, we show that SMBO successfully applies to the challenging task of tuning the numerous hyperparameters of deep belief networks, outperforming expert manual tuning. To close the first part, we propose an algorithm that performs tuning {\it across} datasets, further closing the gap between automatized tuners and human experts by mimicking the memory that humans have of past experiments with the same algorithm on different datasets. The second half of this thesis deals with adaptive Markov chain Monte Carlo (MCMC) algorithms, sampling-based algorithms that explore complex probability distributions while self-tuning their internal parameters on the fly. This second part starts by describing the Pierre Auger observatory (henceforth Auger), a large-scale particle physics experiment dedicated to the observation of atmospheric showers triggered by cosmic rays. These showers are wide cascades of elementary particles raining on the surface of Earth, resulting from charged nuclei hitting our atmosphere with the highest energies ever seen. The analysis of Auger data motivated our study of adaptive MCMC, since the latter can cope with the complex and high-dimensional generative models involved in Auger. We derive the first part of the Auger generative model and introduce a procedure to perform inference on shower parameters that requires only this bottom part. Our generative model inherently suffers from permutation invariance, thus leading to {\it label switching}. Label-switching is a common difficulty in MCMC inference which makes marginal inference useless because of redundant modes of the target distribution. After reviewing previously existing solutions to the label switching problem, we propose AMOR, the first adaptive MCMC algorithm with online relabeling. We empirically demonstrate the benefits of adaptivity and show how AMOR satisfyingly applies to the problem of inference in our Auger model. Finally, we prove consistency results for a variant of AMOR. Our proof provides a generic framework for the analysis of other relabeling algorithms and unveils interesting links between relabeling algorithms and vector quantization.

Contributions à l'apprentissage et l'inférence adaptatifs Applications à l'ajustement d'hyperparamètres et à la physique des astroparticules // Les algorithmes d'inférence ou d'optimisation possèdent généralement des hyperparamètres qu'il est nécessaire d'ajuster. Nous nous intéressons ici à l'automatisation de cette étape d'ajustement et considérons différentes méthodes qui y parviennent en apprenant en ligne la structure du problème considéré. La première moitié de cette thèse explore l'ajustement des hyperparamètres en apprentissage artificiel (ou machine learning). De récents travaux suggèrent qu'avec les ressources computationnelles dont nous disposons aujourd'hui, l'allocation du temps de calcul devrait favoriser davantage l'exploration des hyperparamètres. Après avoir présenté et amélioré le cadre générique de l'optimisation séquentielle à base de modèles (SMBO, pour sequential model-based optimization), nous montrons que SMBO s'applique avec succès au difficile ajustement des hyperparamètres de réseaux de neurones profonds, en surpassant l'ajustement manuel d'experts. En conclusion de la première partie, nous proposons un algorithme collaboratif d'ajustement des hyperparamètres, qui mime la mémoire qu'ont les humains d'expériences passées à ajuster le même algorithme sur d'autres données. La seconde moitié de cette thèse porte sur les algorithmes MCMC adaptatifs. Les algorithmes MCMC (pour Monte Carlo Markov chain) sont des algorithmes d'échantillonnage qui explorent des distributions de probabilité complexes en ajustant leurs paramètres internes en ligne. Cette seconde partie s'ouvre sur la description de l'observatoire Pierre Auger, une expérience de physique des particules à grande échelle dédiée à l'observation des gerbes atmosphériques initiées par les rayons cosmiques. Ces gerbes sont de larges cascades de particules élémentaires qui arrosent la surface de la Terre, et qui résultent du choc avec notre atmosphère de noyaux chargés possédant les énergies les plus élevées jamais rencontrées. L'analyse des données de l'expérience Auger a motivé notre étude des algorithmes MCMC adaptatifs. En effet, ces derniers sont particulièrement efficaces lorsqu'il s'agit d'inférer les paramètres de modèles génératifs complexes et de grande dimension comme on en rencontre dans Auger. Nous proposons ici une première partie du modèle génératif d'Auger et introduisons une procédure d'inférence des paramètres individuels de chaque gerbe qui ne requiert que ce premier modèle. Ensuite, nous remarquons que l'inférence bayésienne dans notre modèle est sujette à un problème d'identifiabilité des composantes connu sous le nom de label-switching, qui provient d'une invariance du modèle à certaines permutations. Le label-switching est une difficulté commune en méthodologie MCMC, qui rend l'inférence marginale difficile à cause de modes redondants de la loi a posteriori. Après avoir présenté les solutions existantes à ce problème, nous proposons AMOR, le premier algorithme MCMC adaptatif doté d'un réétiquetage (relabeling) en ligne qui résout le label-switching. Nous illustrons empiriquement les bénéfices de l'adaptativité et montrons qu'AMOR s'applique de façon satisfaisante à l'inférence dans notre modèle d'Auger. Finalement, nous prouvons des résultats théoriques de consistance pour une variante d'AMOR. Nos preuves posent les bases d'un cadre générique pour l'analyse des algorithmes de réétiquetage. Elles mettent également en lumière des liens intéressants entre le réétiquetage et la quantification vectorielle.

Towards adaptive learning and inference - Applications to hyperparameter tuning and astroparticle physics

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager