L’endogénéité est une notion statistique clé. Grâce à elle, le statisticien sait si les résultats qu’il produit sont sans biais ou non. Lien entre niveau d’abstention et score du Front National, identification des leviers de la satisfaction des clients, rôle du nombre d’écrans sur le nombre d’entrées pour un nouveau film, autant de questions qu’on ne peut analyser correctement si on ne tient pas compte de l’endogénéité des données.
Supposons que l’on veuille prédire le nombre d’entrées que va réaliser un film pour sa première semaine en salles. On dispose de données sur le nombre d’entrées réalisées par un échantillon de films en première semaine, ainsi que sur le nombre de salles où il a été projeté. Un modèle simple consiste à dire que le nombre d’entrées est égal à un multiple du nombre de salles :
nombre entrées= a + b* (nombre de salles)
Notre but est d’estimer les paramètres a et b. Une fois qu’on aura estimé ces paramètres, pour tout nouveau film pour lequel on connaît le nombre de salles où il va être projeté, on pourra prévoir son nombre d’entrées.
Les paramètres a et b peuvent être estimés par une régression linéaire :
nombre entrées= a + b* (nombre de salles) + u
u représente tout ce qu’on n’a pas mis dans le modèle : dans le langage de la modélisation, c’est une perturbation, un aléa ou un résidu. a et b seront estimés en minimisant la somme des u au carré.
Ce modèle est bien sûr très simplifié :
– La relation n’est peut-être pas linéaire entre les deux variables. On pourrait écrire le modèle avec le logarithme des variables, ou toute autre transformation.
– D’autres variables impactent certainement le nombre d’entrées : la nationalité du film, son genre, la publicité faite en amont de la sortie, les critiques, le bouche à oreille….
Mais peu importe. Pour le sujet qui nous occupe, ce modèle est tout à fait suffisant.
Le point fondamental de ce modèle est qu’il s’intéresse uniquement à la relation entre nombre d’entrées et nombre de salles (et éventuellement d’autres variables). Peu importe le processus qui a amené au choix du nombre de salles : ce processus n’est pas modélisé et n’est pas pertinent pour notre modèle. Le nombre de salles est une donnée, et nous estimons le nombre d’entrées conditionnellement au nombre de salles. Notre modèle est donc un modèle « conditionnel ».
Dans un grand dessein modélisateur, on pourrait s’intéresser au processus qui a produit le nombre d’entrées et le nombre de salles. On aurait ainsi un couple de variable (nombre entrées, nombre salles) et on modéliserait ce couple de variables en fonction d’autres caractéristiques du film, par exemple celles mentionnées plus haut, et que l’on va toutes regrouper sous le nom de Z. Pour cela, on s’intéresserait à la probabilité d’observer une valeur (nombre entrées, nombre salles), en fonction des valeurs de Z :
PZ(nombre entrées, nombre salles)
Cette probabilité peut se décomposer selon la formule de Bayes :
PZ(nombre entrées, nombre salles) = PZ(nombre entrées | nombre salles) PZ(nombre salles)
Cette décomposition nous dit que la probabilité du couple (nombre entrée, nombre salles) est égale au produit :
– De la probabilité conditionnelle du nombre d’entrées, conditionnellement au nombre de salles,
– Et de la probabilité du nombre de salles.
Le premier terme de cette décomposition PZ(nombre entrées | nombre salles) est précisément notre modèle initial. Nous avons modélisé cette probabilité conditionnelle en fonction de deux paramètres a et b. On peut donc réécrire l’équation précédente comme ceci :
PZ(nombre entrées, nombre salles) = P(nombre entrées | nombre salles, a, b) PZ(nombre salles)
Intéressons-nous maintenant à la modélisation du nombre de salles. Ce nombre de salles va être décidé par le distributeur du film, en fonction d’un certain nombre de critères : la nationalité du film, son genre, la publicité faite en amont de la sortie, les critiques, le bouche à oreille….Bref, en fonction de nos variables Z.
Mais pas seulement. Le nombre anticipé de personnes intéressées par le film va probablement jouer un rôle dans la décision du distributeur. Notre modèle (nombre d’entrées, nombre de salles) devient :
nombre entrées= a + b* (nombre de salles) + c * Z + u
nombre salles = c + d* (nombre d’entrées) + e * Z + v
En remplaçant le nombre d’entrées dans la seconde équation par sa valeur dans la première, et en supposant que d*b est différent de 1, on obtient :
Nombre salles = (c + d*a)/(1 – d*b) + (d*c + e)/(1 – d*b) * Z + w
Et donc, notre décomposition de la probabilité du couple (nombre entrée, nombre salles) devient :
PZ(nombre entrées, nombre salles | Z) = P(nombre entrées | nombre salles, Z, a, b, c) P(nombre salles | Z, a, b, c, d, e)
C’est là qu’est le nœud du problème. Nous nous intéressons au paramètre b, qui est l’élasticité du nombre d’entrées au nombre de salles. Plus ce coefficient est grand, plus la rentabilité du film sera élevée : il est donc crucial de bien l’estimer. Nous pensions pouvoir tranquillement l’estimer à partir du modèle conditionnel du nombre d’entrées sachant le nombre de salles.
L’équation précédente montre que, en faisant cela, nous mettons de côté une partie de l’information que les données disponibles nous donnent sur ce paramètre b : nous ne tenons aucun compte de l’information apportée, sur b, par l’observation de la relation entre le nombre de salles et les variables Z.
Dans le jargon des statisticiens, le nombre de salles n’est pas exogène pour le paramètre b.
On dira, plus simplement, que la variable nombre de salles est endogène dans le modèle :
Nombre entrées= a + b* (Nombre de salles) + c * Z + u
L’endogénéité d’une variable dans un modèle conditionnel se traduit par le fait que le modélisateur n’utilise pas toute l’information à sa disposition pour estimer les paramètres du modèle. Deux conséquences possibles :
– Les paramètres sont estimés moins précisément que si on tenait compte de toute l’information à notre disposition. Les écarts-types associés aux estimations vont être plus larges.
– Bien plus grave, les estimations obtenues sont biaisées.
Il est fréquent qu’un problème d’endogénéité se traduise par un biais dans l’estimation d’un modèle. Ce biais peut être sévère et donc conduire à des décisions erronées de politique économique, marketing ou industrielle, comme on va le voir dans le paragraphe suivant.
Avant cela, que le lecteur nous permette quelques réflexions personnelles.
L’endogénéité est un problème crucial dès que l’on modélise des données. Un des articles fondateurs sur le sujet, Exogeneity, est paru dans la revue Econometrica en 1983. L’un de ces auteurs, Robert Engel, a reçu le prix Nobel d’économie en 2003, pour un ensemble de travaux dont le point central est la compréhension de l’endogénéité. Il est frappant de constater combien cette question centrale est ignorée dans la pratique des études marketing, quand des questions mineures comme la multicolinéarité reçoivent tant d’attention. Personne n’a jamais obtenu le prix Nobel pour avoir étudié la multicolinéarité…Un dernier point : l’endogénéité est une notion complexe et difficile à appréhender pour le non statisticien. Pourtant, elle est cruciale si on veut que l’analyse des données conduise à de bonnes décisions. Illustration supplémentaire de la raison d’être de SLPV analytics: “Nothing is more practical than a good theory “ (Vapnik, préface à The Nature of Statistical Learning Theory).
Déterminants du nombre d’entrées au cinéma
Notre modèle simplifié ci-dessus est inspiré de l’article d’Anita Elberse et Jehoshua Eliashberg, paru en 2003 dans Marketing Science « Demand and Supply Dynamics for Sequentially Released Products in International Markets: The Case of Motion Pictures ».
Les auteurs modélisent simultanément le chiffre d’affaires réalisé par un film pendant sa première semaine d’exploitation et le nombre d’écrans alloués par les distributeurs. Le tableau ci-dessous est un extrait de leurs résultats.
Modélisation du logarithme du chiffre d’affaires
Sans tenir compte de l’endogénéité | En tenant compte de l’endogénéité | |
Logarithme du nombre d’écrans |
0,74 (0,03) |
0,81 (0,04) |
Logarithme des dépenses de publicité |
0,58 (0,07) |
0,20 (0,07) |
Logarithme des notes des critiques |
0,55 (0,01) |
0,75 (0,03) |
Comme on modélise le logarithme des variables, les coefficients estimés s’interprètent directement comme des élasticités : une augmentation de 1% du nombre d’écrans se traduit par une augmentation de 0,74% ou 0,81% du chiffre d’affaires.
Comme nous l’avons montré précédemment, dans ce modèle, le nombre d’écrans est une variable endogène. Estimer le modèle sans tenir compte de l’endogénéité se traduit par un mauvais diagnostic sur deux variables clés : on surestime l’impact des dépenses de publicité (élasticité de 0,20 et non de 0,58), et on sous-estime l’impact des critiques (élasticité de 0,75 et non de 0,55).
Impact du passage aux 35 heures sur la productivité
Notre second exemple provient d’un cours d’économétrie linéaire de l’ENSAE, dont le polycopié est librement accessible sur le Web. Son auteur est Bruno Crépon. Dans un exemple d’application, il s’intéresse à l’effet de la réduction du temps de travail sur la production, à facteurs de production (effectif et capital de l’entreprise) inchangés. Ses résultats sont les suivants :
Sans tenir compte de l’endogénéité | En tenant compte de l’endogénéité | |
Influence du passage aux 35h |
-0,036 (0,003) |
-0,161 (0,039) |
L’estimation sans tenir compte de l’endogénéité indique que la production à facteurs constants n’a diminué que de 3,6% après passage aux 35 heures, ce qui impliquerait une forte augmentation de la productivité (puisque les heures travaillées ont diminué de 10,3%). En fait, en éliminant le biais dû à l’endogénéité de la variable, on obtient une diminution de 16,1% de la production à facteurs constants, ce qui correspond à une diminution de la productivité.
Lien entre vote Front National et abstention
Le dernier exemple vient de notre article sur lien entre le vote Front National et l’abstention, aux législatives de 2012 en France. L’article explique en détail comment cette modélisation a été réalisée et nous n’y revenons pas ici. Intéressons-nous simplement à l’effet de deux variables sur le vote Front National, en pourcentage des inscrits :
Sans tenir compte de l’endogénéité | En tenant compte de l’endogénéité | |
Pourcentage d’abstention – petites communes |
0,078 (0,005) |
0,450 (0,022) |
Pourcentage d’abstention – autres communes |
0,192 (0,009) |
0,517 (0,021) |
Revenu médian par unité de consommation – petites communes |
0,171 (0,065) |
-0,653 (0,086) |
Revenu médian par unité de consommation – grandes communes |
-1,211 (0,184) |
-1,806 (0,228) |
Si on ne tient pas compte de l’endogénéité, on trouve une association légèrement positive entre vote Front National et taux d’abstention : 1% d’abstention supplémentaire se traduit par 0,07% (dans les petites communes) ou 0,2% de plus pour le FN. En réalité, ces pourcentages sont de 0,4 et 0,6%, soit un avantage bien plus conséquent pour ce parti d’un grand nombre d’abstentionnistes. L’effet est encore plus spectaculaire si on s’intéresse à l’influence du revenu médian par unité de consommation sur le vote FN. Les indicateurs biaisés, qui ne prennent pas en compte l’endogénéité, indiquerait un effet positif dans les petites communes (plus le revenu s’élève, plus on vote Front National), alors que l’effet est en fait significativement négatif.
On voit bien, avec ces trois exemples, les erreurs de diagnostic majeures qui résulterait d’un mauvais choix de méthode d’analyse des données et d’une non prise en compte de l’endogénéité.
Comme d’habitude quand il s’agit de statistiques, on ne peut pas avoir « le beurre et l’argent du beurre » : le trade off entre biais et précision est toujours à l’œuvre. L’élimination du biais se traduit par une moins grande précision des estimations.
Cela se voit particulièrement dans les exemples 2 et 3 ci-dessus. Dans le cas de la modélisation de l’impact des 35 heures, l’écart-type du coefficient est multiplié par 10 (de 0,003 à 0,039). Ceci est équivalent à une taille d’échantillon divisée par 100 !
Pour la modélisation du vote FN, les écart-types du coefficient estimé du taux d’abstention sont multipliés par 3 ou 4.
Les exemples présentés précédemment rentrent tous les trois dans le cadre du modèle linéaire. Dans ce cas, la condition nécessaire et suffisante pour qu’une variable explicative soit exogène s’écrit très simplement.
Un modèle linéaire s’écrit sous la forme :
y = a + b*x + u
u est le résidu : c’est-à-dire tout ce qu’on n’a pas mis dans le modèle. La variable x sera exogène si elle n’est pas corrélée avec le résidu. De manière plus savante, les statisticiens diront que l’espérance conditionnelle de u sachant x est égale à 0 : E(u|x)=0.
Cette propriété est très intéressante, car :
– Elle permet de tester si une variable est ou non exogène,
– Elle donne des pistes pour estimer un modèle avec des variables explicatives endogènes. Les trois modèles présentés précédemment ont été estimés par la méthode des variables instrumentales, qui consiste à estimer le modèle en construisant des variables corrélées avec x, mais non corrélées avec u. On parle aussi de méthode des doubles moindre carrés.
Parmi les 4 modélisations ci-dessous, une seule ne pose pas de problème d’endogénéité. Laquelle ?
Un intervalle peut en cacher un autre
Régression linéaire
Tous les manuels d’économétrie vont aborder la question de l’endogénéité. La référence de l’article d’Econometrica est :
R. Engle, D. Hendry, J. Richard (1983) : Exogeneity – Econometrica, 51, 277–304.
Un autre article crucial dans la compréhension des tests statistiques d’endogénéité est :
J.A. Hausman (1978): Specification Tests in Econometrics – Econometrica, Vol. 46, No. 6 (Nov., 1978), pp. 1251-1271
Enfin, les références des exemples donnés dans cet article sont:
B. Crépon (2005) : Econométrie linéaire – polycopié du CREST
A. Elberse, J. Eliashberg (2003): Demand and Supply Dynamics for Sequentially Released Products in International Markets: The Case of Motion Pictures – Marketing Science,Vol. 22, No. 3, 329–354