Le prochain séminaire Médias de l’IREP traitera des nouvelles temporalités. D’un point de vue statistique, l’analyse des données temporelles pose souvent des problèmes complexes, plus complexes que l’analyse de données individuelles à l’instant t. En fait, les problèmes se posent même dès l’échantillonnage et peu de statisticiens d’enquête en sont conscients.
Pour comprendre le problème qui se pose, voici un petit exercice à l’attention de nos lecteurs. Supposons que les métros respectent un intervalle de 5’ en moyenne entre deux départs du terminus. L’intervalle moyen entre deux métros sera donc 5’. Quel est alors le temps moyen d’attente du client qui arrive dans une station ? La réponse se trouve dans le paragraphe suivant : réfléchissez un peu à la question avant de le lire.
Un raisonnement courant est le suivant : il n’y a pas de raison spécifique que le transporteur m’en veuille plus qu’à d’autres. Je vais donc de temps en temps arriver juste après le départ du précédent métro, de temps en temps arriver juste avant l’arrivée du métro suivant, et en général de manière uniforme entre les deux. Le temps d’attente sera donc la moitié de l’intervalle moyen entre deux métros, soit 2’30’’. Raisonnement tentant, mais faux.
On peut montrer que le temps d’attente est en fait de 5’ (voir ici la démonstration et les hypothèses sous-jacentes). Tout simplement parce que la probabilité d’arriver lors d’une durée longue est plus importante que la probabilité d’arriver lors d’une durée courte, ce que négligeait le raisonnement ci-dessus.
En termes d’échantillonnage, si on tirait un échantillon des durées qui recouvrent votre arrivée dans la station, cet échantillon serait composé de durées en moyenne plus longues que la durée moyenne entre deux métros.
Ce phénomène d’échantillonnage endogène (ou stock sampling) est connu depuis bien longtemps. Jeune chercheur au département de la recherche de l’INSEE, je travaillais sur les déterminants de la durée du chômage (voir ici, ou là). Un phénomène déjà bien documenté à l’époque est qu’un échantillon de chômeurs extrait à l’instant t de registres de Pôle Emploi est biaisé : les durées plus longues sont surreprésentées.
C’est exactement ce qu’il se passe aussi dans la mesure d’audience des journaux. Un des indicateurs classiques d’audience est la lecture dernière période (LDP) : le fait d’avoir lu le journal la veille, durant la dernière semaine ou durant le dernier mois. La LDP est calculée en demandant à l’interviewé sa date de dernière lecture (DDL). On mesure donc une durée : la durée écoulée depuis la dernière prise en main du support concerné. Comme toute durée dont l’échantillonnage se fait à un instant t, elle est soumise au biais de l’échantillonnage endogène. On a tendance à sur échantillonner les durées longues : la durée écoulée depuis la DDL, telle que mesurée par échantillonnage dans une mesure d’audience classique, sera supérieure à la durée moyenne dans la population de référence.
L’impact sur la LDP n’est pas immédiat, car il dépend de la manière dont la probabilité de prise en main évolue au cours du temps. Avec un modèle simple où celle-ci croît, puis décroît, et une moyenne de 12 jours (en gros, lecture d’un numéro sur deux pour un hebdomadaire), la LDP est sous-estimée d’environ 10%.
Il est paradoxal de penser au soin apporté à l’échantillonnage dans ces enquêtes, alors que le mode de questionnement biaise les résultats dès que l’interviewé ouvre la bouche (ou clique sur son écran). Une preuve supplémentaire que l’avenir des études ne passe pas par la sophistication des méthodes d’échantillonnage, mais par des méthodes d’analyse expertes, qui savent prendre en compte les biais de la collecte des données.
Antoine Moreau
24/11/2014