Skip to Main content Skip to Navigation
Theses

Learning Deep Representations : Toward a better new understanding of the deep learning paradigm

Résumé : Depuis 2006, les algorithmes d’apprentissage profond qui s’appuient sur des modèles comprenant plusieurs couches de représentations ont pu surpasser l’état de l’art dans plusieurs domaines. Les modèles profonds peuvent être très efficaces en termes du nombre de paramètres nécessaires pour représenter des opérations complexes. Bien que l’entraînement des modèles profonds ait été traditionnellement considéré comme un problème difficile, une approche réussie a été d’utiliser une étape de pré-entraînement couche par couche, non supervisée, pour initialiser des modèles profonds supervisés. Tout d’abord, l’apprentissage non-supervisé présente de nombreux avantages par rapport à la généralisation car il repose uniquement sur des données non étiquetées qu’il est facile de trouver. Deuxièmement, la possibilité d’apprendre des représentations couche par couche, au lieu de toutes les couches à la fois, améliore encore la généralisation et réduit les temps de calcul. Cependant, l’apprentissage profond pose encore beaucoup de questions relatives à la consistance de l’apprentissage couche par couche, avec de nombreuses couches, et à la difficulté d’évaluer la performance, de sélectionner les modèles et d’optimiser la performance des couches. Dans cette thèse, nous examinons d’abord les limites de la justification variationnelle actuelle pour l’apprentissage couche par couche qui ne se généralise pas bien à de nombreuses couches et demandons si une méthode couche par couche peut jamais être vraiment consistante. Nous constatons que l’apprentissage couche par couche peut en effet être consistant et peut conduire à des modèles génératifs profonds optimaux. Pour ce faire, nous introduisons la borne supérieure de la meilleure probabilité marginale latente (BLM upper bound), un nouveau critère qui représente la log-vraisemblance maximale d’un modèle génératif profond quand les couches supérieures ne sont pas connues. Nous prouvons que la maximisation de ce critère pour chaque couche conduit à une architecture profonde optimale, à condition que le reste de l’entraînement se passe bien. Bien que ce critère ne puisse pas être calculé de manière exacte, nous montrons qu’il peut être maximisé efficacement par des auto-encodeurs quand l’encodeur du modèle est autorisé à être aussi riche que possible. Cela donne une nouvelle justification pour empiler les modèles entraînés pour reproduire leur entrée et donne de meilleurs résultats que l’approche variationnelle. En outre, nous donnons une approximation calculable de la BLM upper bound et montrons qu’elle peut être utilisée pour estimer avec précision la log-vraisemblance finale des modèles. Nous proposons une nouvelle méthode pour la sélection de modèles couche par couche pour les modèles profonds, et un nouveau critère pour déterminer si l’ajout de couches est justifié. Quant à la difficulté d’entraîner chaque couche, nous étudions aussi l’impact des métriques et de la paramétrisation sur la procédure de descente de gradient couramment utilisée pour la maximisation de la vraisemblance. Nous montrons que la descente de gradient est implicitement liée à la métrique de l’espace sous-jacent et que la métrique Euclidienne peut souvent être un choix inadapté car elle introduit une dépendance sur la paramétrisation et peut entraîner une violation de la symétrie. Pour pallier ce problème, nous étudions les avantages du gradient naturel et montrons qu’il peut être utilisé pour restaurer la symétrie, mais avec un coût de calcul élevé. Nous proposons donc qu’une paramétrisation centrée peut rétablir la symétrie avec une très faible surcharge computationnelle.
Document type :
Theses
Complete list of metadatas

Cited literature [221 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-00842447
Contributor : Abes Star :  Contact
Submitted on : Monday, July 8, 2013 - 3:42:12 PM
Last modification on : Wednesday, June 24, 2020 - 2:30:05 PM
Document(s) archivé(s) le : Wednesday, October 9, 2013 - 4:23:29 AM

Identifiers

  • HAL Id : tel-00842447, version 1

Collections

Citation

Ludovic Arnold. Learning Deep Representations : Toward a better new understanding of the deep learning paradigm. Other [cs.OH]. Université Paris Sud - Paris XI, 2013. English. ⟨NNT : 2013PA112103⟩. ⟨tel-00842447⟩

Share

Metrics

Record views

2758

Files downloads

22125