Les sondages politiques traversent une mauvaise passe : ils n’ont pas vu venir la victoire du Brexit, n’ont pas anticipé le triomphe de Trump et n’auraient pas prédit correctement le résultat des primaires LR et PS de fin 2016-début 2017. Même si la critique est parfois approximative, et pas toujours justifiée (j’y reviendrai dans un prochain blog), on ne peut pas nier que la succession Brexit/Tump/Primaires est embarrassante pour la profession. Et on peut ajouter à cela le fiasco des élections législatives anglaises de 2015.
Notons cependant que, même si les sondages sont décriés, l’appétit du grand public (et pas seulement des médias) ne se dément pas. Le graphique ci-dessous, issu de Google Trends, indique l’évolution du nombre de requêtes comprenant le mot sondages en France sur les 12 derniers mois. Comme souvent, il y a un décalage entre le déclaratif et le comportement…
La principale difficulté à laquelle font face les sondeurs est bien connue des statisticiens : c’est la non réponse. Tout le monde n’accepte pas de répondre aux enquêtes. Et quand cette non réponse est corrélée avec la variable que l’on cherche à mesurer, l’échantillon que l’on obtient est biaisé (les statisticiens parlent d’échantillonnage endogène).
C’est exactement ce qu’il se passe dans les sondages politiques. Les électeurs du centre répondent plus aux enquêtes que ceux qui votent pour les partis extrêmes. Dans les données brutes, Marine Le Pen est sous-estimée et Emmanuel Macron est trop haut. Il faut donc faire un redressement.
Il n’y a rien de honteux dans ce genre de redressement. Pas de cuisine, ni de tambouille. Le développement de méthodes pour traiter du biais d’endogénéité a valu à leurs auteurs le prix Nobel d’économie. Les instituts ne mettent pas en œuvre les méthodes les plus sophistiquées préconisées dans ce cadre, mais leurs pratiques sont simples à comprendre et n’ont rien de répréhensible sur le plan statistique.
L’idée est simple : on demande aux interviewés pour qui ils ont voté à un ou des scrutins précédents. La comparaison entre le déclaratif de l’enquête et le comportement réel (tel qu’il ressort des résultats de l’élection prise en référence) permet de redresser l’échantillon. Cela peut sembler aussi basique qu’une règle de 3. Supposons que Marine Le Pen soit mesurée à 15% dans les intentions de vote brutes et que 12% des interviewés indiquent avoir voté pour elle au premier tour de l’élection présidentielle. Comme son score à l’époque a été en fait de 18%, on peut considérer que le vrai score de la présidente du Front National sera de 15*18/12=22,5.
L’exemple ci-dessus est bien sûr très simplifié. On peut avoir plusieurs élections de référence et redresser sur le premier ou le second tour. Il faut aussi combiner cela avec le redressement plus habituel sur les comportements socio-démographiques. C’est là que l’expertise du sondeur rentre en jeu. Expertise, et donc forcément subjectivité. Là non plus, rien de choquant à ce qu’une procédure statistique soit combinée avec un dire d’expert pour produire une prévision : après tout, le seul juge de paix est l’adéquation entre la prévision et le résultat réel.
Même si, sur le fond, cette procédure d’estimation ne semble pas dénuée de fondement théorique, son côté empirique est une vraie difficulté. Qui donne prise aux complotistes de tout bord, dont Nate Silver s’est malheureusement fait l’écho dans un tweet récent (alors qu’une explication rationnelle peut très bien être donnée au phénomène qu’il relève).
C’est pour cette raison que, en association avec Opinionway , et particulièrement Bruno Jeanbart (dont vous trouverez le blog sur le sujet ici) , nous avons développé une méthode alternative d’exploitation des données des sondages. Cette méthode alternative repose sur deux ingrédients :
– Tout d’abord, une modélisation économétrique des intentions de vote, en fonction des caractéristiques des interviewés (sexe, âge, csp, diplôme, type d’habitat, locataire/propriétaire, région d’habitation) et de leur vote passé (aux présidentielles 2012 et éventuellement aux régionales de 2015). Cette modélisation est réalisée sur les données collectées par Opinionway pour le Presitrack. Les résultats présentés ici reposent sur les données du 30 mars au 13 avril, soit plus de 4000 personnes certaines d’aller voter.
– Une projection de ce modèle sur toutes les communes de France, en utilisant les données de l’Insee ou du ministère de l’intérieur, disponibles sur l’Open Data ou le site de l’Insee.
Le principe de cette méthode est très semblable à l’idée du redressement des données brutes, telle que décrite plus haut. Elle apporte deux éléments supplémentaires : (i) la prise en compte de plus de critères de redressement, grâce à la modélisation économétrique (ii) une estimation à un niveau géographique fin, basée sur des données de cadrage incontestables.
De manière intéressante, la subjectivité du statisticien ne peut pas être totalement absente de notre procédure, comme pour le redressement classique. La modélisation donne en effet des résultats sensiblement différents suivant que l’on intègre ou non les données de vote passé sur les régionales 2015. Le statisticien théoricien dirait qu’il faut les intégrer : la variable de vote sur les régionales est très significative dans la modélisation. Mais le statisticien d’enquête, qui connaît la fragilité de la mémorisation, particulièrement sur un scrutin peu mobilisateur comme les régionales, peut avoir des doutes sur la robustesse des données collectées sur ce point particulier. Notre procédure étant expérimentale, il est difficile de trancher : seule la comparaison avec le résultat final permettra de savoir ce qu’il fallait faire. Ma préférence personnelle va au modèle avec les régionales.
Le premier résultat intéressant de ce travail est une projection localisée, au niveau des départements et des régions, des résultats du sondage d’Opinionway. Vous trouverez ici une visualisation de ces résultats, réalisées grâce au logiciel Tableau.
Un second résultat important de la modélisation est bien sûr l’estimation nationale. L’avantage de notre procédure est de permettre une probabilisation des résultats : quel type de second tour a quelle probabilité de se produire.
– Dans une modélisation intégrant le vote aux régionales (scénario 1 de notre visualisation), la probabilité d’un second tour Marine Le Pen/Emmanuel Macron est de 67%. Vient ensuite un possible duel Marine Le Pen/François Fillon, à 32%. Le 1% restant étant un second tour Emmanuel Macron/François Fillon.
– Si on ne tient pas compte du vote aux régionales dans la modélisation (scénario 2), les choses sont différentes : 84% pour un second tour Emmanuel Macron/François Fillon, 14% Marine Le Pen/Emmanuel Macron et 2% Marine Le Pen/François Fillon.
Grande incertitude donc, ce que reflètent à vrai dire tous les sondages. En parallèle, nous avons commencé à appliquer la même procédure pour les législatives : on y reviendra prochainement dans ce blog.
Antoine Moreau
20/04/2017