Un intervalle peut en cacher un autre

pdf Un intervalle peut en cacher un autreprint Un intervalle peut en cacher un autre

Avoir un échantillon de répondants/consommateurs/clients représentatifs n’assure pas forcément que les indicateurs calculés sont sans biais. Dès que l’on s’intéresse à des durées par exemple (durées de visite, durées de lecture, durées d’attente..), il faut être vigilant. Où vous apprendrez aussi pourquoi attendre un métro semble toujours trop long….

Quand est le prochain métro?

La plupart des transporteurs indiquent maintenant dans les stations la durée d’attente avant le prochain bus ou le prochain métro. Cela leur permet de gérer les attentes, et l’impatience, de leur clientèle. Et la question, du coup, ne se pose plus. Un petit exercice, tout de même, pour nos lecteurs.

Supposons que les métros ou bus respectent un intervalle de 5’ en moyenne entre deux départs du terminus. L’intervalle moyen entre deux trains ou bus sera donc 5’. Quel est le temps moyen d’attente du client qui arrive dans une station ? La réponse se trouve dans le paragraphe suivant : réfléchissez un peu à la question avant de le lire.

Un raisonnement courant est le suivant : il n’y a pas de raison spécifique que le transporteur m’en veuille plus qu’à d’autres. Je vais donc de temps en temps arriver juste après le départ du précédent métro, de temps en temps arriver juste avant l’arrivée du métro suivant, et en général de manière uniforme entre les deux. Le temps d’attente sera donc la moitié de l’intervalle moyen entre deux métros, soit 2’30’’. Raisonnement tentant, mais faux.

Le graphique ci-dessous représente les moments de passage d’un métro (ou d’un bus) à la station la plus proche : 10443907 10203939248780311 591670152 n Un intervalle peut en cacher un autreAprès un premier passage en 0, les métros vont passer en T1, T2, T3, ….Et vous allez arriver à la station à un instant t, qui va se positionner de manière aléatoire sur la ligne rouge. Par construction, cet instant t a plus de chances d’arriver lors d’une durée longue (par exemple, T2-T1, T6-T5, T8-T7) que lors d’une durée courte (par exemple, T4-T3).En termes d’échantillonnage, si on tirait un échantillon des durées qui recouvrent votre arrivée dans la station, cet échantillon serait composé de durées en moyenne plus longues que la durée moyenne entre deux métros. Parce que la probabilité d’arriver lors d’une durée longue est plus importante que la probabilité d’arriver lors d’une durée courte, ce que négligeait le raisonnement ci-dessus.

On peut montrer que, si l’arrivée des métros en station suit un processus de Poisson, de moyenne m, le temps d’attente moyen sera justement de m. La réponse à la question, dans ce cadre, serait 5’ ! Bien loin des 2’30’’.

Ce type d’échantillonnage est appelé échantillonnage endogène. La variable d’intérêt est par construction mesurée de manière biaisée.

Quelques exemples d’échantillonnage endogène

Un exemple classique d’échantillonnage endogène peut être trouvé dans les études économiques sur le chômage. Un échantillon de demandeurs d’emploi, tiré à l’instant t à partir de liste de Pôle Emploi, sera un échantillon biaisé, avec des durées de chômage supérieures à la moyenne : les longues durées de chômage ont une probabilité plus grande de recouvrir l’instant t que les durées plus courtes. Une manière d’avoir un échantillon de demandeurs d’emploi représentatif serait d’inclure dans l’échantillon tous les demandeurs qui s‘inscrivent à Pôle Emploi durant une certaine période de temps, par exemple.

Un autre exemple intéressant vient de la mesure de l’audience des journaux, quotidiens, hebdomadaires ou mensuels. Un des indicateurs classiques d’audience est la lecture dernière période (LDP) : le fait d’avoir lu le journal la veille, durant la dernière semaine ou durant le dernier mois. La LDP est calculée en demandant à l’interviewé sa date de dernière lecture (DDL). On mesure donc une durée : la durée écoulée depuis la dernière prise en main du support concerné. Comme toute durée dont l’échantillonnage se fait à un instant t, elle est soumise au biais de l’échantillonnage endogène. On a tendance à sur échantillonner les durées longues : la durée écoulée depuis la DDL, telle que mesurée par échantillonnage dans une mesure d’audience classique, sera supérieure à la durée moyenne dans la population de référence.

Par exemple, sous l’hypothèse que la durée entre deux prises en main suit une loi exponentielle (ce qui est équivalent au fait que la prise en main suit un processus de Poisson), la durée mesurée sera en moyenne égale à la durée moyenne entre deux prises en main. Donc, bien supérieure à la durée depuis la DDL, car l’interviewé n’a pas de raison reprendre en main le support le jour de l’interview.

L’impact sur la LDP n’est pas immédiat. On pourrait penser que, la durée depuis la DDL étant surestimée, la LDP sera sous-estimée. Cela dépend en fait de l’évolution de la probabilité de reprise en main au cours du temps.

C’est à vous

Parmi les situations suivantes, il n’y en a qu’une seule ou l’échantillonnage n’est pas endogène. Laquelle ?

 

Article reliés

Biais
Endogénéité

Références

D.R. Cox and D. Oakes. (1984): Analysis of Survival Data

Chapman and Hall J.J. Heckman and B. Singer (1984): Econometric duration analysis – Journal of Econometrics 24, 63–132.

T. Lancaster (1990): The Econometric Analysis of Transition Data – Cambridge University Press. Solution du quiz – un intervalle peut en cacher un autre

Démonstration durée d’attente

10472176 10203939361143120 1813769130 n Un intervalle peut en cacher un autre Les notations utilisées pour la démonstration sont données par le graphique ci-dessus. Yi est la durée moyenne entre deux trains, dont on va supposer qu’elle suit une loi exponentielle de moyenne M. Tout l’enjeu est de trouver la loi de Tnt+1-t, et de calculer sa moyenne. Soit Nt le nombre de métros qui sont passés en station avant t : 10473204 10203939361063118 309825640 n Un intervalle peut en cacher un autre Nt suit une loi de Poisson, de paramètre t/M, et Nt+u-Nt suit une loi de Poisson de paramètre u/M. On cherche à calculer la probabilité que Tnt+1-t soit supérieur à u. Or :

Tnt+1-t > u est équivalent à Nt+u-Nt = 0

Donc, la probabilité que Tnt+1-t > u est exp(-u/M), et l’espérance de Tnt+1-t est égale à M.De même,t -Tnt suit une loi exponentielle de moyenne M, et la somme des deux est une loi gamma (2, 1/M). L’espérance de Tnt+1-Tnt est égale à 2M.