The Signal and the Noise: Why So Many Predictions Fail – but Some Don’t

Tous les aspirants data scientists, et même les autres, devraient lire ce livre. Qui peut écrire de manière aussi définitive sur le sujet, si ce n’est celui qui a prédit avec tant de succès aussi bien des élections que des matchs de baseball ? Et le résultat est à la hauteur des attentes: un livre très documenté (75 pages de référence dans mon édition Kindle, pour un texte de 453 pages), érudit (on y parle baseball, poker, échecs, mais aussi du climat, de l’économie, des tremblements de terre…), et en même temps clair, concis, intelligent et divertissant.

Alors, pourquoi ces prévisions échouent-elles, ou pas? Une sélection toute personnelle des raisons de succès :

–       Avoir un modèle, c’est-à-dire avoir une idée préconçue de l’enchaînement des causes qui conduisent à l’événement que l’on cherche à prédire. L’accroissement des capacités de calcul ont permis les progrès considérables de la prévision météorologique (chapitre 4), mais ces progrès sont d’abord dus à une compréhension précise des phénomènes thermodynamiques : les prévisions à l’horizon de la semaine basées sur les modèles thermodynamiques sont plus précises que des prévisions purement statistiques (graphique 4-6). A l’inverse, prédire un tremblement de terre à partir des niveaux de radon ou de l’alignement de la terre avec Vénus (certains l’ont tenté…) ne fonctionne pas, car aucune théorie valide ne relie les tremblements de terre avec ces événements. Mais le Graal n’est pas si fréquent. Les modèles structurels – basés sur des éléments théoriques spécifiques – sont bien souvent trop simplificateurs pour permettre des prévisions opérationnelles. Le chapitre 7 démontre de manière convaincante pourquoi des modèles de prévision d’épidémies ont échoué, en étant trop réducteurs. Le prévisionniste devra donc la plupart du temps se contenter de modère réduits, c’est-à-dire purement statistiques. Mais ces modèles réduits doivent absolument, sous peine d’échouer, être basé sur une idée précise de l’enchaînement entre les variables explicatives et le phénomène prédit.

–       Combiner le quantitative et le qualitatif, en confrontant le modèle quantitative avec ce que disent les experts. Les talents combinés d’expert et de conteur de M. Silver font merveille pour expliquer comment l’interaction entre statistiques et expertise de terrain ont amélioré la prévision des matchs de baseball (chapitre 2), ou comment l’œil humain peut compléter utilement les modèles mathématiques de prévision météorologique (chapitre 4), ou comment regarder attentivement 5 matchs de basket en même temps peut rapporter des millions de dollars (chapitre 8). Un des apprentissages obligé du statisticien est de transformer en information quantitative (la seule utilisable pas un modèle) les détails d’une expertise qualitative.

–       Etre parcimonieux, c’est-à-dire, ne pas mettre trop de variables dans le modèle. L’erreur la plus fréquente et aux conséquences les plus néfastes. Avec la disponibilité quasi infinie des capacités de calculs, et toutes sortes de nouvelles techniques disponibles à portée de clics, le praticien se laissera facilement emporter par les délices de la multiplication des variables. Comme le dit l’auteur dans une excellente formule, c’est confondre le bruit avec le signal (chapitre 5).

–       Communiquer l’incertitude du modèle. La principale tâche du prévisionniste n’est pas de produire une prévision. Ceci peut être fait avec des dés, une boule de cristal, ou éventuellement des techniques un peu plus sophistiquées. L’unique objet de la statistique est de produire un intervalle de confiance autour de la prévision. Oublier ce principe de base peut avoir des conséquences graves, voire dévastatrices. Nate Silver argumente (chapitre 6) que l’inondation d’une vile dans le Dakota du Nord, en 1997, aurait pu être évité, si le US Weather Service avait communiqué sur la précision de ses prévisions, ce qu’il fait maintenant. Et, dans une des meilleures pages de son livre, M. Silver montre que l’incapacité[1]des scientifiques du climat à communiquer clairement sur la précision de leurs prévisions a nui à leur discipline et au combat contre le réchauffement climatique. Le tableau 12-12, qui applique le théorème de Bayes aux croyances sur le réchauffement est un exemple de statistique appliquée, à la fois simple, opérationnel et éclairant. Il résume à lui seul le plaisir que l’on peut avoir à lire le livre de Nate Silver.

Une réserve, cependant. Nate Silver a parfaitement raison de souligner que l’enseignement de la statistique Bayésienne n’a pas la place qu’il mérite dans les cursus actuels. Mais son argumentation sur le sujet est affaiblie par la caricature, et je dirais même, des erreurs manifestes. La statistique (ou fréquentiste), nous dit M. Silver, s’occuperait uniquement de l’erreur d’échantillonnage et jamais du biais. Elle supposerait toujours que les données suivent une loi normale. Les statisticiens fréquentistes, coupés du monde réel, ne regarderaient jamais le contexte de leurs hypothèses (chapitre 8, pages 253 et 254 de l’édition Kindle). Absurdités qui détonnent dans un livre à 99% subtil et refusant la facilité. Sans aller chercher bien loin, Heckman (2005) est un excellent exemple de comment les modèles structurels peuvent être estimés dans un cadre fréquentiste. Et encore Heckman (1979) donne une explication tout à fait plausible de l’échec des sondages dans la primaire démocrate de 2008. Une explication purement fréquentiste.
Références:

Heckman, J. (2005): “The scientific model of causality,” Sociological Methodology, 35, 1–97.

Heckman, James J. (1979): ”Sample Selection Bias as a Specification Error”, Econometrica 47, 153-161

 

 

[1]Admittedly under the pressure of non-scientific groups