Analysis of depth of digital trees built on general sources
Analyse de la profondeur des arbres digitaux construits sur des sources générales
Résumé
This thesis performs probabilistic analyses of the depth of digital trees [tries and
digital search trees (dst)] when they are built on words emitted by a general source. This study
is related to compression algorithms of Lempel-Ziv type which are based on the use of digital
trees (tries or dst). The complexity of algorithms which use these data structures are related
to the shape of these trees, and we are here interested by the probabilistic behaviour of an
important parameter, the typical depth, or depth. We introduce a new point of view on general
sources, and we then focus on the model of dynamical sources. The source intervenes in the
analysis via its tameness, and we define precise notions of tameness which are new. The thesis
deals with methods in analytic combinatorics, and we introduce (Dirichlet) generating functions,
which characterize the behaviour of the tree (trie or dst) when it is built on the source. As
the source is a dynamical source, we perform a dynamical analysis, which mixes in an original
setting methods from analytic combinatorics and methods from dynamical system theory (namely
transfer operators, and their spectral properties). We also use many objects and methods from
classical analytic combinatorics, as Poisson, Laplace, and Mellin transforms, that we mix in a
new way. We also provide an unified point of view on the analysis of the two types of digital
trees (tries and dst), whereas the classical analyses are dedicated to one of the precise types of
trees. Finally, we prove that, for the two types of digital trees, for a large class of sources, the
typical depth follows an asymptiotic gaussian law, with an optimal speed of convergence.
Cette thèse effectue des analyses probabilistes de la profondeur des arbres digitaux
[tries et arbres digitaux de recherche (dst)] quand ils sont construits sur des mots émis par une
source générale. Cette étude est liée à des algorithmes de compression de type Lempel-Ziv
qui sont basés sur l’utilisation d’arbres digitaux (tries or dst). La complexité des algorithmes
qui utilisent ces structures de données sont liés à la forme de ces arbres, et nous sommes ici
intéressés par le comportement probabiliste d’un paramètre important, la profondeur typique ou
la profondeur. Nous introduisons un nouveau point de vue sur les sources générales et nous nous
concentrons alors sur le modèle des sources dynamiques. La source intervient dans l’analyse
par sa “tameness”, et nous définissons des notions précises de “tameness” qui sont nouvelles.
La thèse utilise des méthodes de combinatoire analytique et nous introduisons des fonctions
génératrices (de type Dirichlet), qui caractérisent le comportement de l’arbre (trie ou dst) quand
il est construit sur la source. Comme la source est une source dynamique, nous effectuons
une analyse dynamique, qui mélange de manière originale des méthodes de la combinatoire
analytique et des méthodes de la théorie des systèmes dynamiques (i.e. les opérateurs de transfert
et leurs propriétés spectrales). Nous utilisons également de nombreux objets et méthodes de la
combinatoire analytique classique, comme les transformées de Poisson, Laplace, et Mellin, que
nous mélangeons d’une nouvelle façon. Nous fournissons également un point de vue unifié sur
l’analyse des deux types d’arbres digitaux, alors que les analyses classiques sont dédiées à un
type précis d’arbres. Enfin, nous montrons que, pour les deux types d’arbres digitaux, pour une
large classe de sources, la profondeur typique suit asymptotiquement une loi gaussienne, avec
une vitesse de convergence optimale.
Loading...