Compressive Cross-Language Text Summarization

Elvys Linhares Pontes

Résumé

The popularization of social networks and digital documents has caused a rapid increase of the information available on the Internet. However, this huge amount of data cannot be handled manually. Natural Language Processing (NLP) deals with interactions between computers and human languages in order to process and analyze natural language data. NLP techniques incorporate a variety of methods, including linguistics, statistics or machine learning, to extract entities, relationships or understand a document. In this thesis, among several existing NLP applications, we are interested in cross-language text summarization which produces a summary in a language different from the language of the source documents. We also look at other NLP tasks (word encoding representation, semantic similarity, sentence and multi-sentence compression) to generate more stable and informative cross-lingual summaries. Most NLP applications, including text summarization, relies on a similarity measure to analyze and to compare the meaning of words, chunks, sentences and texts. A way to analyze similarity is to generate a representation for sentences that takes into account their sense. The meaning of sentences is defined by several elements, such as the context of words and expressions, word order and previous information. Simple metrics, such as cosine metric and Euclidean distance, provide a measure of similarity between two sentences; however, they put aside the order of words or multi-words. To overcome these limitations, we propose a neural network model that combines recurrent and convolutional neural networks to estimate the semantic similarity of a pair of sentences (or texts) from both the local and general contexts of words. On a supervised task, our model predicts more accurate similarity scores than baselines by taking greater account of the local and the general meanings of not only words, but also multi-word expressions. In order to remove redundancies and non-relevant information of similar sentences, we propose a multi-sentence compression method that abbreviates and fuses them in a correct and short sentence that contains the main information. First, we model clusters of similar sentences as word graphs. Then, we apply an integer linear programming model that guides the compression of these clusters based on a list of keywords. We look for a path in the word graph that has a good cohesion and contains the maximum of keywords. Through a series of experiments, we show that our approach outperforms baselines by generating more informative and correct compressions for French, Portuguese and Spanish languages. Finally, we combine these previous methods to build a cross-language text summarization system. Our system is an {English, French, Portuguese, Spanish}-to-{English, French} cross-language text summarization framework that examines the information in source and target languages to identify the most relevant sentences. Inspired by the compressive text summarization studies in monolingual analysis, we adapt our multi-sentence compression method for this problem to just keep the main information. Our system proves to be a good alternative to compress redundant parts and to preserve relevant information, without losing grammatical quality. Experimental analysis of {English, French, Portuguese, Spanish}-to-{English, French} cross-lingual summaries indicate that our approach significantly outperforms the state of the art for all these languages. Besides, we apply cross-language summarization and discuss its role in two applications: microblog contextualization and spech-to-text summarization. In the last case, our method still achieves better and more stable scores, even for transcript documents that have grammatical errors and missing information.

La popularisation des réseaux sociaux et des documents numériques a entraîné une augmentation rapide de l'information disponible sur Internet. Cependant, cette énorme quantité de données ne peut pas être traitée manuellement. Le Traitement Automatique du Langage Naturel (TALN) traite des interactions entre les ordinateurs et les langues humaines afin de traiter et d'analyser les données en langue naturelle. Les techniques de TALN incorporent une variété de méthodes, comprenant la linguistique, les statistiques ou l'apprentissage automatique dans le but d’extraire des entités, des relations ou comprendre un document. Dans cette thèse, parmi plusieurs applications TALN existantes, nous nous intéressons dans cette thèse au résumé translingue de textes, autrement dit à la production de résumés dans une langue différente de celle des documents sources. Nous analysons également d'autres tâches du TALN (la représentation des mots, la similarité sémantique ou encore la compression de phrases et de groupes de phrases) pour générer des résumés translingues plus stables et informatifs. La plupart des applications du TALN, y compris le résumé de texte, reposent sur une mesure de similarité pour analyser et comparer le sens des mots, des multi-mots, des phrases et des textes. Une façon d'analyser les similitudes consiste à générer une représentation des phrases qui tient compte de leur sens. Le sens des phrases est défini par plusieurs éléments, tels que le contexte des mots et des expressions, l'ordre des mots et les informations précédentes. Des mesures simples, comme la mesure cosinus et la distance euclidienne, fournissent une mesure de similarité entre deux phrases ; cependant, elles mettent de côté l'ordre des mots ou les multi-mots. Pour surmonter ces limites, nous proposons un modèle de réseau de neurones qui combine des réseaux de neurones récurrents et convolutifs pour estimer la similarité sémantique d'une paire de phrases dans le contexte local et général des mots. Sur une tâche supervisée, notre modèle prédit des scores de similarité plus précis que des lignes de base en tenant davantage compte de la signification locale et générale non seulement des mots, mais aussi des expressions à mots multiples. Afin d'éliminer les redondances et les informations non pertinentes de phrases similaires, nous proposons une méthode de compression de multi-phrases qui les fusionne en une phrase courte et contenant les informations principales. Tout d'abord, nous utilisons des graphes de mots pour modéliser les groupes de phrases similaires. Ensuite, nous appliquons un modèle de programmation linéaire en nombres entiers qui guide la compression de ces groupes à partir d'une liste de mots-clés. Nous cherchons ainsi un chemin dans le graphe de mots qui a une bonne cohésion et qui contient le maximum de mots-clés. Grâce à une série d'expériences, nous montrons que notre approche surpasse de l'état de l'art en générant des compressions plus informatives et plus correctes pour les langues française, portugaise et espagnole. Enfin, nous combinons ces méthodes précédentes pour construire un système de résumé translingue de textes. Notre système est un système de résumé translingue {anglais, français, portugais, espagnol} vers {anglais, français} qui examine l'information à la fois dans les langues source et cible, afin d’identifier les phrases les plus pertinentes. Inspirés par les méthodes de résumé de texte par compression en analyse monolingue, nous adaptons notre méthode de compression de multi-phrases pour ce problème afin de ne conserver que l'information principale. Notre système s'avère être performant pour compresser l'information redondante et pour préserver l'information pertinente, en améliorant les scores d'informativité sans perdre la qualité grammaticale. L'analyse expérimentale des résumés interlinguistiques de {anglais, français, portugais, espagnol} vers {anglais, français} indique que notre approche surpasse l'état de l'art pour toutes ces langues. De plus, nous appliquons un résumé translingue et discutons de son rôle dans deux applications : la contextualisation de microblogs et le résumé de transcriptions automatiques de vidéo. Dans ce dernier cas, notre méthode permet d'obtenir de meilleurs résultats et plus stables, et ce, même pour les documents de transcription qui comportent des erreurs grammaticales et informations manquantes.

Compressive Cross-Language Text Summarization

Résumé Translingue de Textes par Compression

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager