Au lendemain des élections municipales de mars 2014, marquées à la fois par un taux record d’abstention (plus de 36%) et une forte poussée du Front National (11 mairies remportées), le lien entre ces deux données a fait l’objet de nombreuses réflexions et articles (voir ici ou là, par exemple) : le score du Front National a-t-il été renforcé par le fait que les électeurs de partis de gouvernement se sont moins déplacés ? Ou au contraire, comme le soutiennent les dirigeants de ce parti, l’abstention concernant d’abord les citoyens « hors système », le Front National est-il spontanément défavorisé quand l’abstention est élevée ?
Il semble assez simple de répondre à cette question : regardons les scores d’abstention et du Front National dans une série de communes, et une corrélation entre les deux nous donnera la réponse. Et bien non : la réponse n’est pas si simple. La corrélation que l’on calcule dans ce cas est biaisée.
Comment une simple corrélation pourrait-elle être biaisée ? A cause d’un phénomène fondamental en statistique, l’endogénéité. Les deux questions qui terminent notre premier paragraphe ci-dessus sont en fait mal posées. Elles cherchent un lien de causalité abstention vers vote Front National, là où, vraisemblablement, la décision d’un électeur est une décision simultanée : soit je m’abstiens, soit je vote Front National.
L’endogénéité est une notion complexe – le lecteur intéressé pourra se reporter à notre article -, mais pas nouvelle. On a pu montrer, par exemple, que l’impact des dépenses publicitaires sur le nombre d’entrées pour la première semaine d’un film en salles est beaucoup moins important que ce que dirait une simple corrélation. Ou encore, que l’impact des 35 heures sur l’augmentation de la productivité est surestimé si on ne tient pas compte de l’endogénéité.
Dans notre article, nous estimons un modèle reliant abstention et score du Front National, sur l’ensemble des communes française aux législatives de 2012. L’estimation du modèle par des techniques du type corrélation – donc biaisées – donne un lien positif, mais de faible ampleur entre les deux : 1% d’abstention supplémentaire est associé avec 0,1% et 0,2% de plus pour le FN.
Si on tient compte de l’endogénéité, c’est 3 fois plus : environ 0,5% de plus pour le FN s’il y a 1% d’abstention supplémentaire. Ces chiffres permettent de mesurer l’ampleur de l’erreur de diagnostic si les mauvais outils d’analyse dont utilisés.
Deux derniers points :
Une autre raison du manque de pertinence des simples analyses de corrélation est qu’elles ne tiennent pas compte de l’hétérogénéité des situations des communes concernées. Notre modèle mesure l’impact de plus d’une dizaine de caractéristiques des communes sur le vote Front National. Nous y reviendrons dans le prochain blog.
Et enfin, l’endogénéité est aussi présente dans de nombreuses analyses marketing. Décider du lancement d’un produit, comprendre comment se structure la fidélité des clients, autant d’analyses qui peuvent être biaisées par une mauvaise prise en compte de l’endogénéité. La connaissance experte de la théorie statistique a ainsi un impact direct sur l’opérationnalité des décisions prises.