On the ranking property and underlying dynamics of complex systems

Weibing Deng

Résumé

Ranking procedures are widely used to describe the phenomena in many differentfields of social and natural sciences, e.g., sociology, economics, linguistics, demography,physics, biology, etc. In this dissertation, we dedicated to study the ranking propertiesand underlying dynamics embedded in complex systems. In particular, we focused onthe scores/prizes ranking in sports systems and the words/characters usage ranking inhuman languages. The aim is to understand the mechanisms behind these issues byusing the methods of statistical physics, Bayesian statistics and agent-based modeling.The concrete results concern the following aspects.We took up an interesting topic on the scores/prizes ranking in sports systems, andanalyzed 40 data samples in 12 different sports fields. We found the striking similaritiesin different sports, i.e., the distributions of scores/prizes follow the universal powerlaws. We also showed that the data yielded the Pareto principle extensively observedin many social systems: 20% of the players accumulate 80% of the scores and money.For the tennis head-to-head data, we revealed that when two players compete, theprobability that the higher-ranked player will win is related to the rank difference ofthe two opponents. In order to understand the origins of the universal scaling, weproposed an agent-based model, which can simulate the competitions of players indifferent matches, and results from our simulations are consistent with the empiricalfindings. Extensive simulation studies indicate that the model is quite robust withrespect to the modifications of some parameters.Zipf’s law is the major regularity of statistical linguistics that served as a prototypefor the rank-frequency relations and scaling laws in natural sciences. We investigatedseveral English texts, clarified the valid range of Zipf’s law, and found this valid rangeincreases upon mixing different texts. Based on the latent semantic analysis, we proposeda probabilistic model, in which we assumed that the words are drawn into thetext with random probabilities, while their apriori density relates, via Bayesian statistics,to the general features of mental lexicon of the author who produced the text. Ourmodel explained the Zipf’s law together with the limits of its validity, its generalizationto high and low frequencies and hapax legomena. In another work, we specified the rank-frequency relations for Chinese characters. We chose to study the short texts first, since for the sake of the rank-frequency analysis,long texts are just mixtures of shorter, thematically homogenous pieces. Our resultsshowed that the Zipf’s law for Chinese characters perfectly holds for sufficiently shorttexts (few thousand different characters), and the scenario of its validity is similar tothat for short English texts. We argued long Chinese texts display a two-layer, hierarchicstructure: power-law rank-frequency characters (first layer) and the exponentialones (second layer). The previous results on the invalidity of the Zipf’s law for longtexts are accounted for by showing that in between of the Zipfian range and the regionof very rare characters (hapax legomena) there emerges a range of ranks, wherethe rank-frequency relation is approximately exponential. From comparative analysisof rank-frequency relations for Chinese and English, we suggested the characters playfor Chinese writers the same role as the words for those writing within alphabeticalsystems.

Des procédures de classement sont largement utilisées pour décrire les phénomènes observés dans de nombreux domaines des sciences sociales et naturelles, par exemple la sociologie, l’économie, la linguistique, la démographie, la physique, la biologie, etc.Dans cette thèse, nous nous sommes attachés à l’étude des propriétés de classement et des dynamiques sous-jacentes intégrées dans les systèmes complexes. En particulier,nous nous sommes concentrés sur les classements par score ou par prix dans les systèmes sportifs et les classements d’utilisation des mots ou caractères dans les langues humaines. Le but est de comprendre les mécanismes sous-jacents à ces questions en utilisant les méthodes de la physique statistique, de la statistique bayésienne et de la modélisation multi-agents. Les résultats concrets concernent les aspects suivants.Nous avons tout d’abord traité une étude sur les classements par score/prix dans les systèmes sportifs et analysé 40 échantillons de données dans 12 disciplines sportives différentes. Nous avons trouvé des similitudes frappantes dans différents sports, à savoir le fait que la répartition des résultats/prix suit les lois puissance universelles.Nous avons également montré que le principe de Pareto est largement respecté dans de nombreux systèmes sociaux: ainsi 20% des joueurs accumulent 80% des scores et de l’argent. Les données concernant les matchs de tennis en individuels nous ont révélé que lorsque deux joueurs s’affrontent, la probabilité que le joueur de rang supérieur gagne est liée à la différence de rang des deux adversaires. Afin de comprendre les origines de la mise à l’échelle universelle, nous avons proposé un modèle multi-agents,qui peut simuler les matchs de joueurs à travers différentes compétitions. Les résultats de nos simulations sont cohérents avec les résultats empiriques. L’extension du domaine d’étude de la simulation indique que le modèle est assez robuste par rapport aux modifications de certains paramètres. La loi de Zipf est le comportement le plus régulièrement observé dans la linguistique statistique. Elle a dès lors servi de prototype pour les relations entre rang d’apparitions et fréquence d’apparitions (relations rang-fréquence dans la suite du texte) et les lois d’échelle dans les sciences naturelles. Nous avons étudié plusieurs textes, précisé le domaine de validité de la loi de Zipf, et trouvé que la plage de validité augmente lors du mélange de différents textes. Basé sur l’analyse sémantique latente, nous avons proposé un modèle probabiliste, dans lequel nous avons supposé que les mots sont ajoutés au texte avec des probabilités aléatoires, tandis que leur densité a priori est liée, via la statistique bayésienne, aux caractéristiques générales du lexique mental de l’auteur de ce même texte. Notre modèle explique la loi de Zipf ainsi que ses limites de validité, et la généralise aux hautes et basses fréquences et au hapax legomena.Dans une autre étude, nous avons précisé les relations rang-fréquence pour les caractères chinois. Nous avons choisi d’étudier des textes courts en premier, car pour le bien de l’analyse rang fréquence, les longs textes ne sont que des mélanges de textes plus courts, thématiquement homogènes. Nos résultats ont montré que la loi de Zipf appliqués aux caractères chinois tient parfaitement pour des textes assez courts (quelques milliers de caractères différents). Le même domaine de validité est observé pour les textes courts anglais. Nous avons soutenu que les longs textes chinois montrent une structure hiérarchique à deux couches: des caractères dont la fréquence d’apparition suit une loi puissance (première couche) et des caractères dont l’apparition suit une loi exponentielle (deuxième couche)...

On the ranking property and underlying dynamics of complex systems

Sur la propriété classement et dynamique sous-jacente des systèmes complexes

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager