Opinionway et SLPV analytics ont mis au point un modèle d’estimation des résultats des élections législatives, dont les premières projections ont été publiées la semaine dernière dans Les Echos. Ce modèle se situe dans le prolongement du travail réalisé pour la présidentielle.
Il résulte d’un travail d’analyse et de réflexion, que nous avons entamé avec Bruno Jeanbart à l’occasion des départementales de 2015. Comme souvent dans ce genre de travail, la méthode utilisée a radicalement changé depuis ce que nous avions fait pour les départementales et les régionales. Nous l’avons vraiment stabilisée pour les primaires LR et PS de fin 2016, début 2017.
A l’occasion des primaires LR, nous avons testé le modèle pour estimer les résultats finaux, à partir des résultats dépouillés des premiers bureaux de vote. Nous avons supposé que les 2000 plus petits bureaux de vote étaient les premiers dépouillés. Sur ces bureaux de vote, François Fillon était largement devant (42,3%), Alain Juppé obtenait 25,4% des voix et Nicolas Sarkozy 25,1%. Cela correspond aux résultats qui ont été diffusés à 20h30. Notre modèle d’estimation des résultats nationaux donnait 41% – 27% – 20%. A 20h30, notre modèle confirmait donc que François Fillon était au-dessus des 40%, et que Nicolas Sarkozy était distancé.
Nous l’avons testé à nouveau à l’occasion du premier tour de la présidentielle. Sur la base du sondage Jour du Vote d’Opinionway, à 19h, notre modèle donnait la bonne hiérarchie des 4 principaux candidats (y compris l’ordre Fillon/Mélenchon, mais 30 années de pratique de la statistique me disent que c’est un coup de chance), avec un écart moyen de 0,6% par rapport au résultat final.
Les résultats globaux du modèle n’ont qu’un intérêt limité, dans la mesure où ils confirment les résultats de sondages qui étaient, en l’espèce, en ligne avec les scores réels. Mais cette convergence nous encourage à penser que les projections locales de la modélisation sont, elles aussi, correctes.
Rappelons brièvement le fonctionnement du modèle :
– Tout d’abord, une modélisation économétrique des intentions de vote, en fonction des caractéristiques des interviewés (sexe, âge, csp, diplôme, type d’habitat, locataire/propriétaire, région d’habitation, le fait d’habiter une grande agglomération) et de leur vote passé (aux présidentielles 2012 et éventuellement aux régionales de 2015).
– Une projection de ce modèle sur toutes les communes de France, en utilisant les données de l’Insee ou du ministère de l’intérieur, disponibles sur l’Open Data ou le site de l’Insee.
Pour les législatives, nous avons ajouté dans le modèle le vote au premier tour de la présidentielle : les données par bureau ont été très rapidement mise à disposition sur l’Open Data. Il y a aussi un élément spécifique aux législatives : la mesure de l’effet « sortant ». Un député sortant a un avantage par rapport à un nouveau candidat, et il faut en tenir compte. J’y reviens un peu plus loin.
Je ne sais pas s’il s’agit de Big Data, mais ce sont des calculs très lourds. Si on fait l’estimation du modèle sur les 36 000 communes de France (c’est ce que nous avons tenté un peu inconsciemment au départ), il faut environ 5 jours entre le début de la procédure de modélisation et sa fin. Nous avons réalisé une typologie des communes, emboîtée dans les circonscriptions, qui a permis de réduire à environ 6000 le nombre de regroupements sur lesquels nous faisons la projection du modèle d’intention de vote. Même comme cela, il faut environ une journée pour produire la projection. Cela dit, si on se contente de refaire tourner le modèle sur de nouvelles données de sondage sans modifier les variables explicatives du modèle, il ne faut que 5’.
Comme pour toute approche scientifique, il y aurait de multiples réserves/critiques/améliorations à apporter à la procédure retenue. L’Obs, dans un article récent consacré à la parution dans Les Echos, en cite 4. Je n’ai pas eu la chance d’être contacté pour expliquer la méthode employée, et, personnellement, ces 4 réserves ne me semblent pas vraiment pertinentes. Passons-les en revue :
– Les deux premières sont identiques : la nouveauté d’En Marche ! et le paysage politique bouleversé. Un ingrédient essentiel de la modélisation est la qualité des données en entrée du modèle. Les sondages des instituts de sondage, et en particulier ceux d’Opinionway, se sont révélés tout à fait précis à l’occasion de l’élection présidentielle, alors même que la nouveauté du candidat d’En Marche ! et le bouleversement du paysage politique se posaient déjà. Notre projection pour les législatives se basent sur des sondages d’intention de vote semblables à ceux de la présidentielle. Il n’y a pas de raison de les rejeter d’emblée, même s’ils seront évidemment plus précis quand les noms des candidats seront connus.
– La fin du cumul des mandats, qui va pousser certains sortants à ne pas se représenter. Je ne suis pas sûr de saisir l’objection. Opinionway a fait tout un travail de recherche sur les sortants, qui nous a permis d’en identifier la quasi-totalité. Nous les prenons en compte dans le modèle. En revanche, la prise en compte de l’effet sortant dans la modélisation est certainement un aspect à discuter. J’y reviens plus loin.
– Combien de triangulaires. Le nombre de triangulaires est précisément un des résultats de la modélisation. Nos hypothèses, rappelées dans la méthodologie publiée, sont les suivantes : (i) un taux d’abstention identique, circonscription par circonscription, à celui de 2012. (ii) un candidat pour chacune des grandes familles politiques : Front de gauche, Parti Socialiste, En Marche !, LR/UDI, FN. Notre projection calcule, pour chaque circonscription, le score qu’obtiendrait chaque candidat, ce qui permet ensuite d’en déduire la configuration du second tour. Aucune des deux hypothèses que nous faisons ne me semble avoir un impact décisif sur les projections présentées. Aucun élément rationnel à ce stade ne permet de prévoir une abstention moins élevée que celle de 2012, ce qui pourrait effectivement produire plus de triangulaires que le nombre relativement faible que nous projetons. Seule une hypothétique alliance globale entre le Parti Socialiste et le Front de Gauche, ou entre le Parti Socialiste et En Marche ! pourrait avoir un impact significatif sur nos résultats.
Deux points d’amélioration de la modélisation me semblent beaucoup plus critiques, et ce sont ceux sur lesquels nous allons faire porter nos efforts d’ici le premier tour des législatives :
– Comme je l’expliquais dans le blog sur la présidentielle, des modélisations avec des variables explicatives différentes donnent des résultats différents. Rien d’anormal à cela : l’œil de l’expert permet de faire le tri entre les modèles, et cela a fonctionné pour la présidentielle. Il serait évidemment plus confortable d’avoir une réponse scientifique au problème. La réponse standard du statisticien serait de ne retenir dans le modèle que les variables significatives. Celle de l’adepte du Big Data serait de mettre toutes les variables dans la marmite et d’attendre que la vérité en sorte. Ces deux approches se heurtent au principe empirique de parcimonie : plus on met de variables dans une modélisation, plus on a de chances d’expliquer un phénomène. Mais plus aussi on va instiller de la variance qui va dégrader le pouvoir prédictif du modèle.
– Le second point est bien sûr la mesure de l’effet « sortant ». Celui-ci peut être estimé quantitativement à partir des élections passées. Nous l’avons fait pour 4 élections : 1993, 2002, 2007 et 2012. Plusieurs types de modélisation ont été testées (effet additif ou multiplicatif, effet différencié selon le niveau géographique,..). L’effet n’est pas le même selon l’année et la famille politique. Des améliorations techniques restent possibles et il sera intéressant de voir si elles permettent d’affiner significativement les résultats.
Un dernier point, sur lequel je n’insisterai jamais assez. Ce n’est pas la machine seule qui sort la prévision. Par exemple, l’effet sortant est différent selon les années. L’appréciation de la situation politique nous a conduit à retenir l’effet mesuré en 1993 pour le Parti Socialiste (parti pour lequel l’effet sortant est bien plus important cette année-là que les autres années), et celui mesuré en 2012 pour les autres partis. C’est la combinaison de l’approche quantitative et de l’expertise du secteur qui fait le bon modèle.
Antoine Moreau
08/05/2017