A bayesian approach for Uplift modeling : application on biased data

Mina Rafla

Résumé

Uplift modeling aims to estimate the incremental impact of a treatment, such as a marketing campaign or a drug, on an individual's behavior. These approaches are very useful in several applications such as personalized medicine and advertising, as it allows targeting the specific proportion of a population on which the treatment will have the greatest impact. Uplift modeling is a challenging task because data are partially known (for an individual, responses to alternative treatments cannot be observed).This thesis is a contribution to the field of uplift modelling. It was carried out in collaboration with the French telecommunications company \textit{Orange}.In particular, this work addresses three main challenges:1- The parameterization problem for existing uplift modeling algorithms.2- Data bias in uplift modeling.3- The high dimensionality problem in uplift modeling.We achieve this by proposing a parameter-free Bayesian approach that can be applied to a variety of uplift algorithms. Using this approach we first propose a Bayesian uplift discretization approach that can be used as a data preprocessing approach. We then extend it to the case of feature selection. We show that both the variable transformation and feature selection approaches we propose are powerful and important for the case of uplift modelling.We then propose a new user-parameter-free Bayesian decision tree, baptized UB-DT. UB-DT transforms the decision tree learning problem into an optimization problem, where the goal is to find the decision tree that is most likely given the data. In addition, we extend UB-DT to the case of random forests and demonstrate its performance through experimental evaluations.To address the challenge of selection bias, we designed a simulation study to intentionally generate non-random assignment bias in uplift datasets. This allowed us to rigorously test both our methods and existing state-of-the-art solutions against this type of bias.Finally, we conducted comprehensive evaluations of our proposed techniques using real-world telecom datasets. Each method was evaluated both in isolation and in combination.

La modélisation de l'uplift vise à estimer l'impact incrémental d'un traitement, tel qu'une campagne marketing ou un médicament, sur le comportement d'un individu. Ces approches sont très utiles dans de nombreuses applications, comme la médecine personnalisée et la publicité, car elles permettent de cibler la proportion spécifique d'une population sur laquelle le traitement aura le plus grand impact. La modélisation de l'uplift est une tâche ardue car les données sont partiellement connues (pour un individu, les réponses aux traitements alternatifs ne peuvent pas être observées).Cette thèse est une contribution au domaine de la modélisation de l'uplift. Elle a été réalisée en collaboration avec la société française de télécommunications \textit{Orange}.Plus précisément, ce travail traite de trois défis majeurs :1- La paramétrisation des algorithmes existants de modélisation de l'uplift.2- Le biais des données de l'uplift.3- La haute dimensionalité des données de l'uplift.Nous surmontons ces défis en proposant une approche bayésienne sans paramètre pouvant être appliquée à une variété d'algorithmes d'uplift. Grâce à cette méthode, nous introduisons d'abord une approche de discrétisation bayésienne de l'uplift utilisable pour le prétraitement des données. Nous l'étendons ensuite à la sélection des variables. Nous démontrons que les méthodes de transformation de variables et de sélection de variables que nous proposons sont efficaces pour la modélisation de l'uplift.Par la suite, nous présentons un nouvel arbre de décision bayésien sans paramètre utilisateur, que nous appelons UB-DT. UB-DT transforme le problème d'apprentissage de l'arbre de décision en un problème d'optimisation, avec pour objectif de trouver l'arbre de décision le plus probable étant donné les données. De plus, nous étendons UB-DT aux forêts aléatoires et démontrons sa performance par des évaluations expérimentales.Pour traiter le défi du biais de sélection, nous avons élaboré une étude de simulation pour générer délibérément un biais de non-affectation aléatoire dans les jeux de données d'uplift. Ceci nous a permis de tester rigoureusement nos méthodes ainsi que les solutions existantes de pointe face à ce type de biais.Finalement, nous avons réalisé des évaluations approfondies de nos techniques proposées en utilisant des jeux de données télécom réels. Chaque méthode a été évaluée individuellement et en combinaison.

A bayesian approach for Uplift modeling : application on biased data

Une approche bayésienne pour la modélisation de l'Uplift : application sur des données biaisées

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager