Fouille de motifs : formalisation et unification - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2018

التنقيب عن الأنماط : صياغة و توحيد

Pattern Mining: Formalisation and Unification

Fouille de motifs : formalisation et unification

Slimane Oulad-Naoui
  • Fonction : Auteur
  • PersonId : 1030347

Résumé

خلال العقدين الماضيين تم إنجاز عمل جبار في ما يتعلق بالجوانب الخوارزمية للتنقيب على الأنماط المتكررة مما أدى إلى ظهور عدد هائل من الخوارزميات و البرمجيات ذات الصلة، كل منها يدعي التفوق. في حين أنه من المعروف أن تطوير رؤى نظرية توحيدية يعد من المسائل المهمة المفتوحة للبحث في مجال التنقيب في البيانات. وعليه فإن المحفز الرئيسي لعملنا هذا هو إنشاء إطارعالي المستوى في هذا المجال و الذي سيفضي إلى رؤية موحدة للمقاربات المقترحة لحد الآن. من أبرز مميّزات النموذج المقترح هوأنه يزاوج في الآن نفسه و بطريقة ذاتية بين الجانب الكيفي و الكمي لهذه المسألة الحيوية، و التي تمّت في السابق معالجتها دائما بصفة منفصلة. سنقوم بتكييف المشكلة قيد الدراسة على شكل نموذج يعتمد السلاسل الصورية. بعد ترميز الأنماط على شكل كلمات مستقات من أبجدية مرتبة، سنعبر عن المسألة بسلسلة صورية تعمل في شبه حلقة التعداد $ (N,+ ,\mtimes ,0, 1 )$ و التي يمثل مجالها الأنماط في حين تعبر معاملاتها عن دواعم هذه الأخيرة. هدفنا ثلاثي : أولا، إدراج إطار نظري واضح و موحّد قابل للتمدد و الذي يمكننا من إعادة تكوين مقاربات التنقيب عن الأنماط المتكررة. ثانيا، إثبات علاقة ملائمة بين تحديد الآلية ذات الأوزان الممثلة لقاعدة البيانات و إستخراج الأنماط المتكررة. أخيرا ، تحقيق و تقييم النموذج المقترح ببرنامج أسميناه وافي. النتائج المتحصل عليها تبرهن صحة نظرة نموذجنا المعتمدة.
Over the last two decades, a great deal of work has been devoted to the algorithmic aspects of the Frequent Pattern (FP) mining problem, leading to a phenomenal number of algorithms and associated implementations, each of which claims supremacy. Meanwhile, it is generally well agreed that developing a unifying theory is one of the most important issues in data mining research. Hence, our primary motivation for this work is to introduce a high level formalism for this basic problem, which induces a unified vision of the algorithmic approaches presented so far. The key distinctive feature of the introduced model is that it combines, in one fashion, both the qualitative and the quantitative aspects of this basic problem, which were previously handled separately. In this thesis, we propose a new model for the FP-mining task based on formal series. In fact, we encode the patterns as words over a sorted alphabet and express this problem by a formal series over the counting semiring $(\N,+,\times,0,1)$, whose range represents the patterns, and the coefficients are their supports. The aim is threefold: first, to define a clear, unified and extensible theoretical framework through which we can state the main FP-approaches. Second, to prove a convenient connection between the determinization of the acyclic weighted automaton that represents a transaction dataset and the computation of the associated collection of FP. Finally, to devise a first implementation, baptized \WAFI ~(for Weighted Automata Frequent Itemset mining algorithm), of our model by means of weighted automata, which we evaluate against representative leading algorithms. The obtained results show the suitability of our formalism.
Durant les deux dernières décennies, un travail considérable a été consacré aux aspects algorithmiques de la fouille de motifs fréquents, ce qui a donné naissance à un nombre phénoménal d'algorithmes et d'implémentations associées où chacun prétend la prééminence. Parallèlement, il est généralement admis par la communauté que le développement d'une théorie unificatrice est une des questions ouvertes et les plus intéressantes dans la sphère de recherche en fouille de données. Aussi, la première motivation de notre travail dans cette thèse est l'introduction d'un formalisme de haut niveau pour ce problème fondamental, qui induit une vision unifiée des approches algorithmiques développées jusque-là. Un des traits remarquables de notre modèle est qu'il prend en charge de manière intrinsèque les aspects à la fois qualitatifs et quantitatifs de ce problème basique, traités antérieurement toujours de manière séparée. En effet, nous formalisons ce problème à l'aide d'un modèle reposant sur les séries formelles. Après avoir encodé les motifs comme des mots sur un alphabet ordonné, nous exprimons ce problème par une série formelle sur le semi-anneau de comptage $(\N,+,\times,0,1)$, dont l'étendu représente les motifs et les coefficients sont leurs supports. L'objectif est triple : primo, la définition d'un cadre théorique clair, unifié et extensible à travers lequel nous pouvons reproduire les principales approches de fouille de motifs fréquents de l'état de l'art; secundo, la preuve d'un lien approprié entre la determinisation de l'automate à multiplicité représentant une base de transactions et le calcul de la collection associée de motifs fréquents; finalement, la mise en œuvre et l'évaluation d'une première implémentation, via des automates à multiplicités, de notre formalisme que nous baptisons \WAFI ~(pour Weighted Automata Frequent Itemset mining algorithm). Les résultats obtenus montrent le bien fondé et l'adéquation de notre modèle.
Fichier principal
Vignette du fichier
ma these finale.pdf (1.19 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

tel-01760242 , version 1 (06-04-2018)
tel-01760242 , version 2 (04-06-2018)

Licence

Copyright (Tous droits réservés)

Identifiants

  • HAL Id : tel-01760242 , version 2

Citer

Slimane Oulad-Naoui. Fouille de motifs : formalisation et unification. Informatique [cs]. UATL (Algeria), 2018. Français. ⟨NNT : ⟩. ⟨tel-01760242v2⟩
334 Consultations
458 Téléchargements

Partager

Gmail Facebook X LinkedIn More