Sparse linear model with quadratic interactions - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2022

Sparse linear model with quadratic interactions

Modèle linéaire parcimonieux avec interactions quadratiques

Florent Bascou
  • Fonction : Auteur
  • PersonId : 1244435
  • IdRef : 266105351

Résumé

We present an estimator for the high-dimensional fitting of a linear model with quadratic interactions. As such a model has a very large number of features, its estimation raises many statistical and computational challenges. Thus, its estimation has motivated a lot of work over the last two decades, and remains a challenge in many applications. From a statistical point of view, one of the challenges is to be able to select the features, to facilitate the interpretability of the model. Moreover, since the added interaction features can be highly correlated, an adapted regularization must be able to take them into account. We then propose to adapt the Elastic Net estimator, to take into account the potential correlations thanks to the l2 penalty, and to obtain a parsimonious model using the l1 penalty. Moreover, a common approach used in the literature, to favor main effects while reducing the number of interactions to be considered, is the heredity assumption. This assumption allows the inclusion of an interaction only if and when the associated main effects are selected in the model. Thus, it leads to parsimonious models, easier to interpret, while reducing the number of interactions to be visited and the computational cost. However, it does not allow the exploration of interaction variables whose main effects are not selected, although these variables may be relevant to consider. We therefore propose to emancipate ourselves from this structural heredity assumption, and to penalize interactions more than main effects, in order to favor the latter and interpretability. It is also known that penalized estimators such as Elastic Net bias the coefficients by ag- gressively shrinking them towards zero. A consequence is the selection of additional features to compensate for the loss of amplitude of the penalized coefficients, which affects the calibration of the hyperparameters during cross-validation. A simple solution is then to select the features by the Elastic Net, then to estimate these coefficients by the Least Squares estimator, for each hyperparameter. However, if the features are highly correlated, the Least Squares step may fail. Therefore, we choose to adapt a debiasing method allowing to obtain simultaneously the Elastic Net coefficients and their debiased version. A first challenge of this work is to develop an algorithm that does not require to store the interaction matrix, which could exceed the memory capacity of a computer. To do this, we adapt a coordinate descent algorithm, allowing to build the columns of this matrix on- the-fly. Although this step avoids storage, it adds extra computations to each step of the algorithm, thus increasing its computation time. Moreover, knowing that our estimator is parsimonious, these computations may be all the more useless as many interaction coefficients are zero, and thus unnecessarily updated. A second issue is then to propose an algorithm that remains computationally efficient, despite the large number of interactions to consider and this computational overhead. Therefore, to exploit the parsimony of the estimator and to reduce the number of interaction coefficients to be updated, we adapt an active set algorithm. Second, we adapt the Anderson acceleration, which allows us to speed up the coordinate descent algorithms for solving LASSO type problems. Finally, the performance of our estimator is illustrated on simulated and real data, and compared with state-of-the-art methods.
Nous présentons un estimateur pour l'ajustement, en grande dimension, d'un modèle linéaire avec interactions quadratiques. Un tel modèle ayant un très grand nombre de variables, son estimation soulève de nombreux défis statistiques et numériques. Ainsi, son estimation a motivé de nombreux travaux ces deux dernières décennies, et reste un enjeu dans de nombreuses applications. Statistiquement, un des enjeux est de pouvoir faire de la sélection de variables, pour faciliter l'interprétabilité du modèle. De plus, les variables d'interactions ajoutées pouvant être fortement corrélées, une régularisation adaptée doit permettre de les prendre en compte. On propose alors d'adapter l'estimateur ElasticNet, pour prendre en compte les potentielles corrélations via la pénalité L2 et obtenir un modèle parcimonieux via la pénalité L1. Aussi, une approche communément utilisée dans la littérature, pour favoriser les effets principaux tout en réduisant le nombre d'interactions à considérer, est l'hypothèse d'hérédité. Cette hypothèse n'autorise à inclure une interaction que si et seulement si les effets principaux associés sont sélectionnés dans le modèle. Ainsi, elle mène à des modèles parcimonieux, plus faciles à interpréter, tout en réduisant le nombre d'interactions à visiter et le coût computationnel. Cependant, elle ne permet pas d'explorer les variables d'interactions dont les effets principaux ne sont pas sélectionnés, alors que ces variables peuvent être pertinentes à considérer. Aussi, on propose de s'affranchir de cette hypothèse structurelle d'hérédité, et de pénaliser davantage les interactions que les effets simples, pour favoriser ces dernières et l'interprétabilité. Aussi, on sait que les estimateurs pénalisés tels que l'ElasticNet biaisent les coefficients en les réduisant agressivement vers zéro. Une conséquence est la sélection de variables supplémentaires pour compenser la perte d'amplitude des coefficients pénalisés, affectant la calibration des hyperparamètres lors de la validation croisée. Une solution simple est alors de sélectionner les variables par l'ElasticNet, puis d'estimer ces coefficients par l'estimateur des moindres carrés, pour chaque hyperparamètre. Cependant, si les variables sont fortement corrélées, l'étape des moindres carrés peut échouer. Aussi, on choisit d'adapter une méthode de débiaisage permettant d'obtenir simultanément les coefficients de l'ElasticNet et leur version débiaisée. Un premier enjeu de ce travail est de développer un algorithme qui ne requiert pas de stocker la matrice des interactions, qui peut dépasser la capacité mémoire d'un ordinateur. Pour ce faire, on adapte un algorithme de descente par coordonnées, permettant de construire les colonnes de cette matrice à la volée sans les stocker, mais ajoute des calculs supplémentaires à chaque mise-à-jour d'un coefficient d'interactions, augmentant les temps de calculs. Aussi, sachant que notre estimateur est parcimonieux, ces calculs peuvent être d'autant plus inutiles que beaucoup de coefficients d'interactions sont nuls, et donc inutilement mis à jour. Un second enjeu est de proposer un algorithme qui reste efficace, malgré le grand nombre d'interactions à considérer et ce surcoût de calculs. Par conséquent, afin d'exploiter la parcimonie de l'estimateur et de réduire le nombre de coefficients d'interactions à mettre à jour, on adapte un algorithme d'ensembles actifs. Enfin, on adapte l'accélération d'Anderson, qui permet d'accélérer les algorithmes de descente par coordonnées pour les problèmes type lasso. Finalement, les performances de notre estimateur sont illustrées aussi bien sur données simulées que sur données réelles, et comparées avec des méthodes de l'état de l'art.
Fichier principal
Vignette du fichier
BASCOU_2022_archivage.pdf (5.54 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04058087 , version 1 (04-04-2023)

Identifiants

  • HAL Id : tel-04058087 , version 1

Citer

Florent Bascou. Sparse linear model with quadratic interactions. Data Structures and Algorithms [cs.DS]. Université de Montpellier, 2022. English. ⟨NNT : 2022UMONS037⟩. ⟨tel-04058087⟩
57 Consultations
29 Téléchargements

Partager

Gmail Facebook X LinkedIn More