Modélisation et développement d'un observatoire générique pour la collecte et l'analyse de données massives

Annabelle Gillet

Résumé

Big Data fascinate, both because of the value they hold that can provide a significant advantage in decision-making, and because of the challenges that their exploitation represents. These challenges are present at several levels of analytics workflows. At the level of the creation of software architectures, the volume and the velocity require at least enough performance to handle the ingestion and storage of data. The data variety has also an impact, as several new storage systems have emerged, each one corresponding to a specific need. The polystores are systems that integrate this diversity, to gain flexibility compared to the data warehouses, now too rigid. However, this diversification comes at a cost, that of the difficulty of taking into consideration the various data models in analyzes.This thesis is placed in this context, and proposes the Lambda+ Architecture, a architecture pattern that improves the Lambda Architecture to make it suitable for processing of Big Data while supporting simultaneously the correctness and the real-time properties. The category theory is used as formal basis to study the conservation of properties and opens new perspectives for software architectures that rely on compositions of components. The second contribution is the Tensor Data Model, a pivot model that act as an overlay to polystores. Based on tensors, it adds the notion of schema to them, to benefit from data manipulation operators on top of tensorial operators, as well from a strong type safety and schema inference systems, with good performance. Each one of these contributions benefit from an implementation, and the are gathered into an observatory that aims to analyze social data from Twitter and to make the results available for business experts.

Les données massives fascinent, aussi bien grâce à la valeur qu'elles recèlent pouvant apporter un avantage significatif lors de la prise de décision, qu'à cause des défis que leur exploitation représente. Ces défis sont présents à plusieurs niveaux de la chaîne d'analyse des données. Au niveau de la création des architectures logicielles, le volume et la vélocité requièrent au minimum des performances suffisantes pour ingérer et stocker les données. La variété des données a aussi un impact, puisqu'une multitude de nouveaux systèmes de stockage ont vu le jour, chacun correspondant à un besoin spécifique. Les polystores sont des systèmes intégrant cette diversité, afin de gagner en flexibilité par rapport aux data warehouses, désormais trop rigides. Cette diversification vient toutefois avec un coût, celui de la difficulté à prendre en charge les différents modèles de données lors des analyses.Cette thèse se place dans ce contexte, en proposant la Lambda+ Architecture, un patron d'architecture qui améliore la Lambda Architecture pour l'adapter aux données massives et supporter simultanément l'exactitude des traitements et les calculs en temps réel. La théorie des catégories sert de base formelle pour étudier la conservation des propriétés et ouvre de nouvelles perspectives pour les architectures logicielles qui reposent sur des composition de composants. La seconde contribution est le Tensor Data Model, un modèle pivot agissant comme une surcouche aux polystores. Basé sur les tenseurs, il leur ajoute la notion de schéma, afin de bénéficier d'opérateurs de manipulation de données en plus des opérateurs tensoriels, ainsi que d'un système de sûreté du typage et d'inférence de schéma, en plus de performances satisfaisantes. Chacune de ces contributions bénéficient d'une implémentation, et son regroupées dans un observatoire visant à analyser des données sociales issues de Twitter et à mettre les résultats à disposition d'experts métier.

Modelling and development of a generic observatory to harvest and analyze big data

Modélisation et développement d'un observatoire générique pour la collecte et l'analyse de données massives

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager