Analyse mathématique du problème

Le logiciel permet au sujet de faire deux séries de trente apparitions. Si bien qu'à l'issue de cette expérience, le sujet a à sa disposition deux séries de trente nombres.

A partir de ces données, beaucoup de questions mathématiques peuvent être posées, qui, chacune, mobilise des concepts statistiques différents :

Les résultats produits ci-dessous sont tous sortis des données réalisées par les élèves.

L'observation des données brutes (Voir figure data1) n'est que difficilement possible sans outil de représentation. Dès qu'elles sont représentées, on voit apparaître des lignes horizontales qui montrent bien le caractère discret des données (Figure data2). Ce phénomène dépend tout simplement du mode de fonctionnement de l'ordinateur qui scrute les actions des périphériques dans des intervalles de temps réguliers (interruptions). La représentation graphique des données brutes permet de faire émerger ce phénomène qui bien sûr ne pouvait être perçu dans le tableau data1. Dans une première approximation, on peut également sur cette représentation donner un intervalle dans lequel un fort pourcentage de la population va se trouver. Il y a une saturation des points entre environ 0,2 et 0,6. Un traitement de calcul permet d'ailleurs d'affiner cet intervalle et de montrer que 90% de la population appartient à l'intervalle [0,250;0,608].

La sensibilité de la moyenne aux valeurs extrêmes est particulièrement bien illustrée par la présence de quelques valeurs 100 dans les séries. Comme on peut le voir dans la table data5, les valeurs de la moyenne et de l'écart-type sont très affectées par les 7 valeurs 100 sur 839 valeurs alors que les quartiles ne le sont pas ou très peu.

Tableau: Sensibilité de la moyenne et de l'écart-type aux valeurs extrêmes

rednumSummary(Dataset[,"V1"], statistics=c("mean", "sd", "quantiles"), + quantiles=c(0,0.1,.5,.90,1))

mean	sd	0%	10%	50%	90%	100%	n	NA
1.224654	9.066458	0	0.2809999	0.375	0.562	100	839	1

rednumSummary(Dataset2[,"V1"], statistics=c("mean", "sd", "quantiles"), + quantiles=c(0,.1,.5,.90,1))

mean sd 0% 10% 50% 90% 100% n NA

0.393567 0.127796 0 0.2809999 0.375 0.547 1.234 832 1

La figure data3 donne les moyennes, médianes, quartiles, extrema pour chacune des séries de mesure. La fluctuation d'échantillonnage permet de comprendre que tous les paramètres bougent d'une série de mesures à une autre. La variation des moyennes, cependant est moindre que la variation des données. Comme précisé plus haut 90% des données appartient à l'intervalle [0,250;0,608] alors que 90% des moyennes appartiennent à l'intervalle [0,321;0,488] ce qui est une illustration de la loi faible des grands nombres.

Tableau: Caractéristiques des données

	n	Moyenne	Ecart-type	Minimum	1^er quartile	Médiane	3^eme quartile	Maximum
1	30	0,373	0,124	0,031	0,343	0,375	0,406	0,672
2	30	0,397	0,086	0,312	0,344	0,367	0,434	0,656
3	30	0,360	0,046	0,282	0,332	0,359	0,375	0,484
4	30	0,417	0,074	0,312	0,390	0,398	0,433	0,718
5	29	0,360	0,092	0,219	0,312	0,313	0,375	0,594
6	30	0,360	0,107	0,250	0,281	0,313	0,398	0,593
7	30	0,429	0,056	0,343	0,390	0,414	0,464	0,562
8	30	0,476	0,113	0,375	0,406	0,438	0,492	0,844
9	30	0,375	0,087	0,312	0,313	0,344	0,375	0,687
10	30	0,362	0,048	0,312	0,332	0,344	0,375	0,531
11	30	0,501	0,157	0,375	0,422	0,468	0,539	1,234
12	30	0,489	0,125	0,344	0,395	0,438	0,550	0,782
13	30	0,437	0,118	0,328	0,364	0,390	0,464	0,890
14	30	0,487	0,091	0,375	0,422	0,438	0,543	0,703
15	29	0,361	0,140	0,125	0,280	0,312	0,406	0,797
16	30	0,454	0,121	0,250	0,313	0,390	0,464	1,030
17	30	0,375	0,084	0,032	0,281	0,305	0,454	0,765
18	30	0,321	0,045	0,188	0,281	0,313	0,343	0,531
19	30	0,397	0,074	0,312	0,344	0,375	0,406	0,609
20	30	0,337	0,094	0,156	0,312	0,313	0,344	0,594
21	30	0,321	0,105	0,188	0,281	0,313	0,343	0,531
22	30	0,323	0,055	0,188	0,280	0,313	0,344	0,562
23	28	0,429	0,112	0,156	0,312	0,344	0,516	1,084
24	29	0,366	0,085	0,000	0,312	0,313	0,375	0,828
25	28	0,339	0,048	0,188	0,281	0,313	0,363	0,578
26	29	0,337	0,155	0,219	0,281	0,313	0,406	0,500

La figure data4 représente les moyennes des vingt six séries avec leurs barres d'erreur au niveau 0,95 qui ont été calculées en utilisant l'intervalle :

On peut attendre que les élèves considèrent la moyenne comme la première caractéristique de description de leurs séries de données, et la pénalité de 100 secondes donnée pour une réaction anticipée doit amener une réflexion sur la possibilité de considérer d'autres caractéristiques.