Estimation of the Mincerian Wage Model Addressing its Specification and Different Econometric Issues

Sajjad Haider Bhatti

Résumé

In the present doctoral thesis, we estimated Mincer's (1974) semi logarithmic wage function for the French and Pakistani labour force data. This model is considered as a standard tool in order to estimate the relationship between earnings/wages and different contributory factors. Despite of its vide and extensive use, simple estimation of the Mincerian model is biased because of different econometric problems. The main sources of bias noted in the literature are endogeneity of schooling, measurement error, and sample selectivity. We have tackled the endogeneity and measurement error biases via instrumental variables two stage least squares approach for which we have proposed two new instrumental variables. The first instrumental variable is defined as "the average years of schooling in the family of the concerned individual" and the second instrumental variable is defined as "the average years of schooling in the country, of particular age group, of particular gender, at the particular time when an individual had joined the labour force". Schooling is found to be endogenous for the both countries. Comparing two said instruments we have selected second instrument to be more appropriate. We have applied the Heckman (1979) two-step procedure to eliminate possible sample selection bias which found to be significantly positive for the both countries which means that in the both countries, people who decided not to participate in labour force as wage worker would have earned less than participants if they had decided to work as wage earner. We have estimated a specification that tackled endogeneity and sample selectivity problems together as we found in respect to present literature relative scarcity of such studies all over the globe in general and absence of such studies for France and Pakistan, in particular. Differences in coefficients proved worth of such specification. We have also estimated model semi-parametrically, but contrary to general norm in the context of the Mincerian model, our semi-parametric estimation contained non-parametric component from first-stage schooling equation instead of non-parametric component from selection equation. For both countries, we have found parametric model to be more appropriate. We found errors to be heteroscedastic for the data from both countries and then applied adaptive estimation to control adverse effects of heteroscedasticity. Comparing simple and adaptive estimations, we prefer adaptive specification of parametric model for both countries. Finally, we have applied quantile regression on the selected model from mean regression. Quantile regression exposed that different explanatory factors influence differently in different parts of the wage distribution of the two countries. For both Pakistan and France, it would be the first study that corrected both sample selectivity and endogeneity in single specification in quantile regression framework.

Dans cette thèse, notre cadre d'analyse repose sur l'estimation de la fonction de gain proposée par Mincer (1974). Le but est de reprendre la spécification de ce modèle en s'intéressant aux problèmes d'estimation liés. Le but est aussi une comparaison pour les marchés du travail français et pakistanais en utilisant une spécification plus robuste. Le modèle de Mincer est un point central, dans le cadre de la théorie du capital humain ; la relation entre les gains salariaux d'un individu, ses principales caractéristiques et les autres facteurs jouent un rôle complexe dans le processus de détermination du salaire sur le marché du travail. Toutefois, suivant une nombreuse littérature, la simple estimation du modèle de Mincer est biaisée, ceci en raison de différents problèmes. Les sources principales des biais notés dans la littérature sont l'endogénéité de la scolarité, l'erreur de mesure, et les aléas de sélection des individus dans l'échantillon des salariés. Généralement, dans la littérature concernée, le biais causé par l'endogénéité et l'erreur de mesure est contrôlé en utilisant méthode d'estimation en deux étapes avec variables instrumentales 'IV2SLS'. Dans la présente thèse deux nouvelles variables instrumentales sont proposées dans une application de type IV2SLS. La première est définie comme " les années moyennes de scolarité dans la famille d'appartenance de l'individu concerné" et la seconde variable instrumentale est définie comme " les années de scolarité moyenne, pour la population en âge de travailler, dans l'économie concernée ". Cela en référence à l'année où l'individu était entré sur le marché du travail et en référence à son groupe d'âge au moment de cette entrée, mesure distincte suivant le sexe de l'individu. D'après l'analyse menée dans cette thèse, la seconde variable instrumentale apparaît être la plus appropriée, cela puisqu'elle possède un faible effet direct sur la variable de réponse par rapport à la première variable instrumentale proposée. Par ailleurs, la définition de cette variable instrumentale est plus robuste que la première variable instrumentale. Pour les deux pays l'éducation mesurée par les années d'études, se trouve être endogène selon les conclusions du test d'Hausman (1978). Pour éliminer une autre source potentielle de biais, dans l'estimation du modèle de Mincer, i.e. le biais de sélection, la classique méthode à deux étapes de correction proposée par Heckman (1979) a été appliquée. Par cette méthode le biais de sélection a été trouvé positif et statistiquement significatif pour les deux pays. Cela signifie que, dans les deux pays, les personnes qui se sont retirées du marché du travail auraient gagné moins que les participants effectifs, si elles avaient décidé de rejoindre la population active en tant que travailleur salarié. Dans la littérature relative à l'estimation du modèle de Mincer, nous avons noté qu'il y a très peu d'études qui corrigent les deux sources de biais simultanément et aucune étude de cette nature n'existe pas pour la France ou le Pakistan. Par ailleurs, les changements dans les coefficients bruts, puisque non corrigés de la plupart des facteurs explicatifs, concluent dans des directions différentes suivant que sont appliquées les corrections pour l'endogénéité de scolarité ou des corrections relatives au biais de sélection d'échantillons dans les spécifications séparées. Donc, en réponse, nous estimons ici une seule spécification corrigeant de manière simultanée le biais de sélection de l'échantillon et le biais d'endogénéité de l'éducation. Nous avons également noté, toujours d'après la littérature, que la robustesse des hypothèses du modèle linéaire utilisé pour estimer le modèle de Mincer a rarement été discutée et testée. Certaines des études se sont intéressées aux questions d'hétéroscédasticité de cohérence des erreurs types, mais les études qui ont formellement testé la présence d'hétéroscédasticité dans le terme d'erreur du modèle de Mincer sont très rares et n'existent pas, à notre connaissance, pour les deux pays que nous prenons en compte ici. Nous avons donc testé formellement la validité de l'hypothèse d'homoscédasticité, cela en appliquant le test de White (1980). Pour les deux modèles, basés sur les données françaises et les données pakistanaises respectivement, les erreurs sont jugées comme hétéroscédastiques. Donc, afin d'éviter les effets de l'hétéroscédasticité des erreurs sur le processus d'estimation, nous avons réalisé une estimation adaptative du modèle de Mincer. L'application de l'estimation adaptative, construite pour limiter l'effet sévère de l'hétéroscédasticité, a aidé à produire une estimation plus efficace, plus fiable et plus représentative des impacts que possèdent les différentes variables explicatives du processus de détermination des salaires dans les marchés du travail de ces deux pays. En général, dans le cadre du modèle de Mincer, une estimation semi-paramétrique contient elle-même une composante non paramétrique qui provient de l'équation de sélection. Mais notre estimation semi-paramétrique est différente, dans le sens qu'elle contient une composante non paramétrique provenant de l'équation de scolarité ; cette dernière est obtenue, en première étape, de l'estimation en doubles moindres carrés avec variables instrumentales 'IV2SLS'. À notre connaissance, c'est la première étude semi-paramétrique qui porte sur l'estimation non paramétrique de l'équation de scolarité. Basées sur la performance globale des modèles paramétrique et semi-paramétrique, nous avons constaté que, pour la France, les deux formes d'estimation apparaissent bien spécifiées. Toujours dans l'idée de maintenir la facilité d'estimation, le modèle paramétrique a été sélectionné afin d'être le plus approprié pour les données françaises. Pour l'analyse du Pakistan, nous avons conclu que le modèle semi-paramétrique produit des résultats en désaccord avec l'agrément général au Pakistan, mais aussi en rapport à la littérature internationale pour certaines des variables. Ainsi, la performance globale du modèle semi-paramétrique n'est pas très différente du celle du modèle paramétrique. Donc, comme pour les données françaises, pour les données pakistanaises, nous avons aussi choisi le modèle paramétrique comme le plus robuste qu'afin d'estimer les impacts exercés par les différents facteurs explicatifs sur le processus de la détermination des salaires. Pour les deux pays, après avoir comparé les versions simples et adaptatives du modèle paramétrique et du modèle semi-paramétrique, nous avons trouvé que le modèle paramétrique dans la spécification adaptative est plus performant dans l'objectif d'estimer les impacts des différents facteurs contributifs au processus de détermination des salaires. Enfin, nous avons estimé le modèle de Mincer dans une forme paramétrique choisie de ces estimations, comme le plus approprié en rapport à la forme semi-paramétrique, et à partir de l'analyse de régression en moyenne, comme pour le modèle de régression par quantile. Pour la France et le Pakistan, à notre connaissance, ce travail serait aussi la première étude qui analyse les deux principales sources du biais simultanément (biais de la sélection et biais de l'endogénéité de l'éducation) dans le cadre de la régression par quantile. La méthode de régression par quantile a révélé que la plupart des variables explicatives influencent les gains salariaux, ceci différemment suivant les différentes parties de la distribution des salaires, pour les deux marchés du travail considérés.

Estimation of the Mincerian Wage Model Addressing its Specification and Different Econometric Issues

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager