Analyse mathématique du problème

Un logiciel permet de mesurer le temps de réaction à un stimulus visuel : en l'occurrence un disque rouge apparaît à l'écran et le sujet doit alors cliquer sur un bouton. Le logiciel mesure le temps de réaction entre l'apparition du disque et le clic de la souris. Si le clic a eu lieu avant l'apparition du disque le nombre 100 remplace le temps de réaction. Cette particularité, voulue dans la conception du logiciel est intéressante d'un point de vue didactique comme il sera développé plus loin.

Le logiciel permet au sujet de faire deux séries de trente apparitions. Si bien qu'à l'issue de cette expérience, le sujet a à sa disposition deux séries de trente nombres.

A partir de ces données, beaucoup de questions mathématiques peuvent être posées, qui, chacune, mobilise des concepts statistiques différents :

Les résultats produits ci-dessous sont tous sortis des données réalisées par les élèves.

L'observation des données brutes (Voir figure data1) n'est que difficilement possible sans outil de représentation. Dès qu'elles sont représentées, on voit apparaître des lignes horizontales qui montrent bien le caractère discret des données (Figure data2). Ce phénomène dépend tout simplement du mode de fonctionnement de l'ordinateur qui scrute les actions des périphériques dans des intervalles de temps réguliers (interruptions). La représentation graphique des données brutes permet de faire émerger ce phénomène qui bien sûr ne pouvait être perçu dans le tableau data1. Dans une première approximation, on peut également sur cette représentation donner un intervalle dans lequel un fort pourcentage de la population va se trouver. Il y a une saturation des points entre environ 0,2 et 0,6. Un traitement de calcul permet d'ailleurs d'affiner cet intervalle et de montrer que 90% de la population appartient à l'intervalle [0,250;0,608].

La sensibilité de la moyenne aux valeurs extrêmes est particulièrement bien illustrée par la présence de quelques valeurs 100 dans les séries. Comme on peut le voir dans la table data5, les valeurs de la moyenne et de l'écart-type sont très affectées par les 7 valeurs 100 sur 839 valeurs alors que les quartiles ne le sont pas ou très peu.


Tableau: Sensibilité de la moyenne et de l'écart-type aux valeurs extrêmes
rednumSummary(Dataset[,"V1"], statistics=c("mean", "sd", "quantiles"), + quantiles=c(0,0.1,.5,.90,1))
mean sd 0% 10% 50% 90% 100% n NA
1.224654 9.066458 0 0.2809999 0.375 0.562 100 839 1

rednumSummary(Dataset2[,"V1"], statistics=c("mean", "sd", "quantiles"), + quantiles=c(0,.1,.5,.90,1))
mean sd 0% 10% 50% 90% 100% n NA
0.393567 0.127796 0 0.2809999 0.375 0.547 1.234 832 1


Figure: Données brutes
Image Capture-1

Figure: Représentation des données brutes
Image RGraph

La figure data3 donne les moyennes, médianes, quartiles, extrema pour chacune des séries de mesure. La fluctuation d'échantillonnage permet de comprendre que tous les paramètres bougent d'une série de mesures à une autre. La variation des moyennes, cependant est moindre que la variation des données. Comme précisé plus haut 90% des données appartient à l'intervalle [0,250;0,608] alors que 90% des moyennes appartiennent à l'intervalle [0,321;0,488] ce qui est une illustration de la loi faible des grands nombres.


Tableau: Caractéristiques des données
n Moyenne Ecart-type Minimum 1er quartile Médiane 3eme quartile Maximum
1 30 0,373 0,124 0,031 0,343 0,375 0,406 0,672
2 30 0,397 0,086 0,312 0,344 0,367 0,434 0,656
3 30 0,360 0,046 0,282 0,332 0,359 0,375 0,484
4 30 0,417 0,074 0,312 0,390 0,398 0,433 0,718
5 29 0,360 0,092 0,219 0,312 0,313 0,375 0,594
6 30 0,360 0,107 0,250 0,281 0,313 0,398 0,593
7 30 0,429 0,056 0,343 0,390 0,414 0,464 0,562
8 30 0,476 0,113 0,375 0,406 0,438 0,492 0,844
9 30 0,375 0,087 0,312 0,313 0,344 0,375 0,687
10 30 0,362 0,048 0,312 0,332 0,344 0,375 0,531
11 30 0,501 0,157 0,375 0,422 0,468 0,539 1,234
12 30 0,489 0,125 0,344 0,395 0,438 0,550 0,782
13 30 0,437 0,118 0,328 0,364 0,390 0,464 0,890
14 30 0,487 0,091 0,375 0,422 0,438 0,543 0,703
15 29 0,361 0,140 0,125 0,280 0,312 0,406 0,797
16 30 0,454 0,121 0,250 0,313 0,390 0,464 1,030
17 30 0,375 0,084 0,032 0,281 0,305 0,454 0,765
18 30 0,321 0,045 0,188 0,281 0,313 0,343 0,531
19 30 0,397 0,074 0,312 0,344 0,375 0,406 0,609
20 30 0,337 0,094 0,156 0,312 0,313 0,344 0,594
21 30 0,321 0,105 0,188 0,281 0,313 0,343 0,531
22 30 0,323 0,055 0,188 0,280 0,313 0,344 0,562
23 28 0,429 0,112 0,156 0,312 0,344 0,516 1,084
24 29 0,366 0,085 0,000 0,312 0,313 0,375 0,828
25 28 0,339 0,048 0,188 0,281 0,313 0,363 0,578
26 29 0,337 0,155 0,219 0,281 0,313 0,406 0,500


La figure data4 représente les moyennes des vingt six séries avec leurs barres d'erreur au niveau 0,95 qui ont été calculées en utilisant l'intervalle :

\begin{displaymath}[m-2\frac{s}{\sqrt{n}},m+2\frac{s}{\sqrt{n}}]\end{displaymath}

$m$ représente la moyenne de la série et $s$ son écart-type. En regroupant l'ensemble des mesures, la moyenne peut être estimée appartenir à l'intervalle [0,383;0,401] avec une probabilité de 0,95. La précision est ici de 9ms pour les 772 mesures.

Figure: Représentation des moyennes avec leurs barres d'erreur.
Image 13-12-2010Ecran001

On peut attendre que les élèves considèrent la moyenne comme la première caractéristique de description de leurs séries de données, et la pénalité de 100 secondes donnée pour une réaction anticipée doit amener une réflexion sur la possibilité de considérer d'autres caractéristiques.

Gilles 2012-03-05