Représentations de phrases interprétables avec autoencodeurs variationnels et attention

Ghazi Felhi

Résumé

In this thesis, we develop methods to enhance the interpretability of recent representation learning techniques in natural language processing (NLP) while accounting for the unavailability of annotated data. We choose to leverage Variational Autoencoders (VAEs) due to their efficiency in relating observations to latent generative factors and their effectiveness in data-efficient learning and interpretable representation learning. As a first contribution, we identify and remove unnecessary components in the functioning scheme of semi-supervised VAEs making them faster, smaller and easier to design. Our second and main contribution is to use VAEs and Transformers to build two models with inductive bias to separate information in latent representations into understandable concepts without annotated data. The first model, Attention-Driven VAE (ADVAE), is able to separately represent and control information about syntactic roles in sentences. The second model, QKVAE, uses separate latent variables to form keys and values for its Transformer decoder and is able to separate syntactic and semantic information in its neural representations. In transfer experiments, QKVAE has competitive performance compared to supervised models and equivalent performance to a supervised model using 50K annotated samples. Additionally, QKVAE displays improved syntactic role disentanglement capabilities compared to ADVAE. Overall, we demonstrate that it is possible to enhance the interpretability of state-of-the-art deep learning architectures for language modeling with unannotated data in situations where text data is abundant but annotations are scarce.

Dans cette thèse, nous développons des méthodes pour améliorer l'interprétabilité de techniques récentes d'apprentissage de représentation en traitement automatique de langues (TAL) en prenant en compte la difficulté d'obtention de données annotées. Nous utilisons des Auto-Encodeurs Variationnels (VAE) afin d'apprendre avec peu de données des représentations interprétables. Pour notre première contribution, nous identifions et supprimons des composants inutiles du fonctionnement des VAE Semi-Supervisés, améliorant ainsi leur vitesse de calcul et facilitant leur conception. Notre deuxième et principale contribution consiste à utiliser des VAE et des Transformers pour construire deux modèles qui permettent de séparer l'information dans les représentations latentes en concepts interprétables sans données annotées. Le premier modèle, ADVAE, est capable de représenter et de contrôler séparément des informations sur les rôles syntaxiques dans les phrases. Le second modèle, QKVAE, utilise des variables latentes séparées pour former des clés et des valeurs pour son décodeur Transformer et est capable de séparer les informations syntaxiques et sémantiques dans ses représentations neuronales. Dans des expériences de transfert, QKVAE a une performance compétitive par rapport aux modèles supervisés et une performance équivalente à un modèle supervisé utilisant 50 000 échantillons annotés. De plus, QKVAE montre une capacité améliorée de désenchevêtrement des rôles syntaxiques par rapport à ADVAE. De manière générale, notre travail montre qu'il est possible d'améliorer l'interprétabilité des architectures de pointe utilisées pour les modèles de langage avec des données non annotées.

Représentations de phrases interprétables avec autoencodeurs variationnels et attention

Interpretable sentence representation with variational autoencoders and attention

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager