y | 150<y ≤ 155 | 155<y ≤ 160 | 160<y ≤ 165 | 165<y ≤ 170 |
n | 30 | 25 | 23 | 22 |
x | 40<x ≤ 45 | 45<x ≤ 50 | 50<x ≤ 55 | 55<x ≤ 60 |
n | 22 | 33 | 24 | 21 |
Construire l’histogramme.
Déterminer la moyenne et l’écart-type de cette série.
Avec Xcas, on utilise un tableur que l’on obtient avec le raccourci clavier Alt+t.
On remplit la colonne C :
on met 40..45 dans C0, 45..50 dans C1 etc...
On remplit la colonne D :
on met 22 dans D0, 33 dans D1 etc...
On sélectionne ces 2 colonnes, on peut faire cette sélection à la souris
ou en tapant dans la case de sélection C0..D3.
Avec le menu du tableur Statistiques puis 1d puis histogram,
on obtient l’histogramme.
On tape dans C4 :
=mean(C0:C3,D0:D3)
On obtient la moyenne :
497/10
On tape dans D4 :
=stddev(C0:C3,D0:D3)
On obtient l’écart-type :
sqrt(1383/50) ≃ 5.25927751692
On obtient le résultat dans la ligne de commande en appuyant sur val
et la valeur approchée avec la commande evalf .
Un exercice pour bien comprendre qu’un intervalle de confiance dépend de
l’échantillon.
Une usine fabrique des pièces de diamètre µ. On suppose que la variable
aléatoire X qui, à chaque pièce associe son diamètre suit une loi
normale de moyenne µ et d’écart-type σ=1.1.
On cherche à estimer µ à partir d’un échantillon d’effectif n=40.
On regroupe les résultats en classes, on a obtenu :
2 pièces ont un diamètre entre 32.5 et 33.5,
7 pièces ont un diamètre entre 33.5 et 34.5,
19 pièces ont un diamètre entre 34.5 et 35.5,
8 pièces ont un diamètre entre 35.5 et 36.5,
3 pièces ont un diamètre entre 36.5 et 37.5,
1 pièce a un diamètre entre 37.5 et 38.5,
1/ Déterminer la moyenne, l’écart-type et l’histogramme de cet echantillon.
Réponse :
On tape dans la colonne A :
33,34,35,36,37,38 (ou 32.5..33.5 etc...mais c’est plus long!!!) et
dans la colonne B :
2,7,18,8,3,2.
puis en A9 on tape =mean(A0:A5,B0:B5),
on trouve 1409/40 =35.225 et
en B9 on tape =stddev(A0:A5,B0:B5),
on trouve
sqrt(2039/1600≃ 1.12888219049.
Pour réaliser l’histogramme on sélectionne les colonnes A et B,
on peut faire la sélection à la souris ou on
tape dans la case de sélection A0,5,B.
Avec le menu Statistiques du tableur, on choisit 1d puis
histogram et on obtient l’histogramme.
2/ Déterminer à partir de l’échantillon :
- un intervalle de confiance à 95% pour la moyenne µ, et
- un intervalle de confiance à 99% pour la moyenne µ.
Réponse :
On connait σ et on sait que la variable X égale à
la moyenne des échantillons de taille n suit une loi normale de moyenne
µ et d’écart-type σ/√n.
On a σ/√n=1.1/√40=0.173925271309.
On sait que l’on a :
Prob(|X−µ|<k*σ/√n)=0.95 pour k=1.96 et,
Prob(|X−µ|<k*σ/√n)=0.99 pour k=2.576
donc on a:
X−1.96*σ/√n<µ<X+1.96*σ/√n dans 95% des cas et,
X−2.576*σ/√n<µ<X+2.576*σ/√n dans 99% des cas.
Au vu de l’échantillon on a X=35.225:
a1=35.225−1.96*1.1/√40=34.8841064682
b1=35.225+1.96*1.1/√40=35.5658935318
a2=35.225−2.576*1.1/√40=34.7769685011
b2=35.225−2.576*1.1/√40= 35.6730314989
Avec Xcas on tape et on obtient :
a1:=normal_icdf(1409/40,1.1/sqrt(40),0.025)
=34.8841127322
b1:=normal_icdf(1409/40,1.1/sqrt(40),0.975)
=35.5658872678
a2:=normal_icdf(1409/40,1.1/sqrt(40),0.005)
=34.7769981895
b2:=normal_icdf(1409/40,1.1/sqrt(40),0.995)
=35.6730018105
on en déduit que :
[34.88;35.57] est un intervalle de confiance à 95% pour µ et que
[34.77;35.68] est un intervalle de confiance à 99% pour µ.
3/ On suppose encore que σ=1.1 et qu’un échantillon de taille
n=100 a une moyenne de 35.225.
Déterminer à partir de cet échantillon,
un intervalle de confiance à 95% pour la moyenne µ.
Réponse :
On a:
Proba(X−1.96*σ/√n<µ<X+1.96*σ/√n)=0.95.
Au vu de cet échantillon la valeur de X est de 35.225 on a :
35.225−1.96*1.1/√100=35.0094
35.225+1.96*1.1/√100=35.4406
Ou avec Xcas on tape :
normal_icdf(35.225,1.1/sqrt(100),0.025)
On obtient : 35.0094039617
normal_icdf(35.225,1.1/sqrt(100),0.975)
On obtient : 35.4405960383
On en déduit que :
[35 ; 35.45] est un intervalle de confiance pour µ au seuil de 5%.
Donc quand on augmente la taille de l’échantillon on a un intervalle de
confiance de plus faible amplitude, en effet, on a une information plus
précise avec un échantillon de taille plus grande.
4/ On suppose que X suit la loi normale N(35.25,1.1).
Simuler la prise de 5 échantillons de taille 100 et déterminer pour
chacun des échantillons un intervalle de
confiance pour la moyenne µ au seuil de 5%, dans les deux cas suivant :
a/ lorsqu’on suppose que l’on connait σ=1.1
b/ lorsqu’on estime σ à l’aide de l’échantillon.
Réponse :
On demande d’avoir 102 lignes dans le tableur en tapant A102 dans la case
de sélection.
On tape en A0 : =randnorm(35.25,1.1)
puis on sélectionne A0 et on appuie sur remplir et
vers le bas.
On tape en A100 : =mean(A0:A99)
On tape en A101 : =stddev(A0:A99)
On tape en A102 : =A101*10/sqrt(99)
puis on recopie toutes ces formules sur les colonnes B,C,D,E si on veut
voir les 5 échantillons et on se met en mode manual,on sélectionne
pour cela Ne pas recalculer automatiquement dans le sous-menu
Configuration du menu Edit du tableur. En effet en mode auto
chaque fois que l’on valide une cellule contenant =randnorm(35.25,1.1),
on a un nouvel échantillon grâce au recalcul automatique.
On obtient par exemple :
La ligne 100 est la liste m des valeurs des moyennes des 5
échantillons :
[35.2341469676,35.3942572081,35.0898127739,
35.1447916945,35.2456441276],
La ligne 101 est la liste s des valeurs des écarts-types des 5 échantillons :
[1.00342913254,1.14149481601,1.19977064554,
1.00252282025,1.09862748198],
ligne 102 est la liste σ_est des valeurs estimées de l’écart-type
σ :
[1.00848422314,1.14724545601,1.20581486841,
1.00757334501,1.10416216427]
On rajoute 2 lignes au tableur (dans la case de sélection on tape A104)
Dans la cellule A103 on tape puisque 1.1/√100=0.11 :
normal_icdf(A100,0.11,0.025)..normal_icdf(A100,0.11,0.975)
On recopie cette formule sur la ligne 103.
On obtient sur la ligne 103 :
[35.0185509293..35.4497430059,35.1786611698..35.6098532464,
34.8742167356..35.3054088122,34.9291956562..35.3603877328,
35.0300480893..35.4612401659]
d’où lorsqu’on connait σ=1.1, les intervalles de confiance pour µ,
au seuil de 5%, sont pour les 5 échantillons :
[35.0185509293 ; 35.4497430059]
[35.1786611698 ; 35.6098532464]
[34.8742167356 ; 35.3054088122]
[34.9291956562 ; 35.3603877328]
[35.0300480893 ; 35.4612401659]
Dans la cellule A104, on tape, puisque l’on estime σ/√100
par s/√99 :
normal_icdf(A100,A101/sqrt(99),0.025)..
normal_icdf(A100,A101/sqrt(99),0.975)
On recopie cette formule sur la ligne 104.
On obtient sur la ligne 104 :
[35.0364840599..35.4318098753,35.1693970987..35.6191173175,
34.8534730597..35.3261524881,34.9473073189..35.3422760701,
35.0292283434..35.4620599118]
d’où lorsqu’on estime σ, les intervalles de confiance pour µ,
au seuil de 5%, sont pour les 5 échantillons :
[35.0364840599 ; 35.4318098753]
[35.1693970987 ; 35.6191173175]
[34.8534730597 ; 35.3261524881]
[34.9473073189 ; 35.3422760701]
[35.0292283434 ; 35.4620599118]
Si on reunit ses 5 échantillons on a :
n=500
m=(m[0]+m[1]+m[2]+m[3]+m[4])/5=176.108652772/5=35.2217305544
s2=(s[0]2+s[1]2+s[2]2+s[3]2+s[4]2)/5=1.19227287804 donc
σ_est=s√500/499=√1.19227287804*500/499=1.09300603953
d’où pour cet
échantillon, un intervalle de confiance pour µ, au seuil de 5%, est :
[35.1259243509 ; 35.3175367579]
car
35.2217305544-1.96*1.09300603953/sqrt(500)=35.1259243509 et
35.2217305544+1.96*1.09300603953/sqrt(500)=35.3175367579
5/ On suppose que X suit la loi normale N(35.25,1.1).
Simuler la prise de 5 échantillons de taille 40 et déterminer pour chacun
des échantillons un intervalle de
confiance pour la moyenne µ, au seuil de 5%, dans les deux cas suivant :
a/ lorsqu’on suppose que l’on connait σ=1.1
b/ lorsqu’on estime σ à l’aide de l’écart type de l’échantillon.
Réponse :
On considére un échantillon de taille n=40.
Il a pour moyenne m=35.531073986
et pour écart type s=1.00296897139
Pour les quatres autres échantillons de taille 40 on trouve par exemple :
m=35.6360091101 et s=1.29301963917
m=35.0684414822 et s=0.951157103863
m=35.4535840905 et s=0.917989271482
m=35.0910551678 et s=1.05109677585
a/ X suit une loi normale de moyenne µ et d’écart-type :
σ/√40=1.1/√40=0.173925271309.
On a:
X−1.96*σ/√n<µ<X+1.96*σ/√n dans 95% des cas.
On a, pour le premier échantillon :
m−1.96*1.1/√40=35.1901804542 et,
m+1.96*1.1/√40=35.8719675178,
d’où un intervalle de confiance de [35.19;35.88] pour µ, au seuil
de 5%.
b/ On suppose que l’on ne connait pas σ. Ici, n est trop petit pour
évaluer σ à l’aide de l’écart type s de l’échantillon.
On considère alors, T=√n−1X-µ/S
avec :
S2=1/n∑j=1n(Xj-X)2
Xj est la variable aléatoire qui au jième tirage
associe son résultat et
X=1/n∑j=1n Xj.
Alors T suit une loi de Student à (n−1)
degrés de liberté.
Ici n=40 et on lit sur la table de Student que
lorsque il y a ν=39 degrés de liberté, Proba(−t<T<t)=0.95 pour
t=2.023.
Ou bien avec Xcas on tape :
student_icdf(39,0.025)
On obtient :
-2.02269092002
student_icdf(39,0.975)
On obtient :
2.02269092002
Donc X−t*S/√39<µ<X+t*S/√39.
Pour le premier échantillon on trouve :
m=35.531073986
s=1.00296897139
m−2.023*s/√39=35.2061729645
m+2.023*s/√39=35.8559750075
d’où un intervalle de confiance de [35.2;35.86] pour µ au seuil
de 5%.
Pour les 4 autres échantillons, on trouve :
[35.2171492913;36.0548689289]
[34.7603243584;35.376558606]
[35.1562113297;35.7509568513]
[34.7505636611;35.4315466745]
En estimant σ par s √40/39 on aurait obtenu pour le premier
échantillon :
[35.2162967736;35.8458511984]
En effet avec Xcas on tape :
normal_icdf(35.531073986,1.00296897139/sqrt(39),0.025)
On obtient :
35.2162967736
On tape :
normal_icdf(35.531073986,1.00296897139/sqrt(39),0.975)
On obtient :
35.8458511984
^
2-1.96^
2*552*x*(1-x)=0)^
2-1.96^
2*552*x*(1-x)<0)"y x" | 40<x ≤ 45 | 45<x ≤ 50 | 50<x ≤ 55 | 55<x ≤ 60 |
150<y ≤ 155 | 20 | 9 | 1 | 0 |
155<y ≤ 160 | 2 | 18 | 4 | 1 |
160<y ≤ 165 | 0 | 5 | 12 | 6 |
165<y ≤ 170 | 0 | 1 | 7 | 14 |
numéro du relevé : xj | 1 | 2 | 3 | 4 |
nombre de cas : yj | 94 | 221 | 446 | 1050 |
1/ On tape :
On obtient :
On tape :
On obtient :
Le lycée A a une moyenne de 10.15 et un écart type d’environ 3.34.
On tape :
On obtient :
On tape :
On obtient :
Le lycée B a une moyenne de 9.95 et un écart type d’environ 3.93.
On tape pour le lycée A :
On obtient :
On tape pour le lycée B :
On obtient :
On voit que dans le lycée B la moitie des élèves ont entre 9 et 12
alors que dans le lycée A la moitie des élèves ont entre 8 et 11. Donc
bien que la moyenne du lycée B soit inférieure à la moyenne du lycée A
il semble que la classe du lycée B soit meilleure que celle du lycée A.
2/
Si on considère que les deux classes constituent deux échantillons pris au
hasard dans une population où la note de l’épreuve est une variable
aléatoire X de moyenne µ et d’écart-type σ.
La reunion des 2 échantillons donne un échantillon de taille n=40.
de moyenne µ ≃ (9.95+10.15)/2=10.05 et d’écart-type s.
On tape :
stddev([6,10,14,17,9,6,4,12,9,10,10,11,12,18,10,9,
11,8,7,10, 2,10,14,13,9,6,1,12,9,10,10,10,12,15,19,
9,11,8,9,10])
On obtient :
s=sqrt(5319/400) ≃ 3.64657373434.
La variable aléatoire X40, égale à la moyenne des échantillons de taille 40 a donc pour moyenne :
µ=10.05
et pour écart-type :
σ/√40≃ s/√39=0.583919119794.
Donc σ ≃ 3.69302877574
Remarque : On sait que la statistique
displaystyle n1S12+n2S22/n1+n2−2
est un estimateur sans biais de σ2 si σ est l’écart-type de
X (cf 3.8.2). La valeur
de cette statistique est obtenue à partir de
deux échantillons de taille
respective n1 et n2 et d’écart-type respectif s1 et s2 qui sont les valeurs de S1 et de S2 (avec comme notation
S2=1/n∑j (Xj−X)2 pour un échantillon de taille n de la variable X).
On tape (ici n1=n2=20, n1+n2−2=38, s12=4451/400, s22=6179/400) :
sqrt(20/38*(6179/400+4451/400))
On obtient alors comme approximation de σ : 3.7398986758
On pose comme hypothèse H0 : µ1=µ2=µ et pour hypothèse
alternative H1 : µ1 ≠ µ2 et on teste ces hypothèses
au seuil de 0.05.
Ā−B suit une loi normale de
moyenne 0 et d’écart type σ√1/20+1/20.
On a :
σ=s√40/39
s=√5319/400
σ√1/20+1/20 ≃ s√40/39/10≃ √5319/100/39≃ 1.16783823959
Avec Xcas, on tape :
normal_icdf(0,1.16783823959,0.975)
On obtient :
2.28892088937
normal_icdf(0,1.16783823959,0.025)
On obtient :
-2.28892088937
On a m1−m2=10.15−9.95=0.2 et comme
−2.28892088937<0.2< 2.28892088937,
on accepte l’hypothèse µ1=µ2 au seuil de 5%.
Autre méthode
On peut aussi utiliser la loi de Student :
On considére que µ1=µ2=µ.
Alors T=(Ā− B)√38/√(20s12+20s22)(1/20+1/20) suit une loi
de Student à 38 degrés de liberté.
On calcule la valeur t de T pour l’échantillon on tape :
t:=(10.15-9.95)*sqrt(38)/sqrt(2*3.34^
2+3.93^
2)
On obtient : 0.200644948434
On tape :
student_icdf(38,0.975)
On obtient : 2.02439416391
Puisque −2.02439416391<0.2<2.02439416391, on accepte l’hypothèse µ1=µ2=µ au seuil de 5%.
^
2/49+30^
2/99),0.975)^
2/49+30^
2/99),0.025)^
2/49+30^
2/99),0.995)^
2/49+30^
2/99),0.005)Peut-on dire que D suit une loi normale N(0.5,1) ?
On tape :
e1:=30*normal_cdf(0.5,1,-infinity,-0.5)
On trouve :
4.75965761794
On tape :
e2:=30*normal_cdf(0.5,1,-0.5,0.5)
On trouve :
10.2403423821
On tape :
d2:=((e1-2)^
2)/e1+((e2-12)^
2)/e2+((e2-15)^
2)/e2+
((e1-1)^
2)/e1
On trouve :
7.084447157
On a 4 classes donc 3 degrés de liberté, on tape :
chisquare_icdf(3,0.95)=7.81472790325
On a d2<7.81472790325 donc,
au seuil de 5% on ne peut pas rejeter l’hypothèse que D suit
une loi normale N(0.5,1)
On a obtenu :
1 a été obtenu 11 fois,
2 a été obtenu 16 fois,
3 a été obtenu 17 fois,
4 a été obtenu 22 fois,
5 a été obtenu 14 fois,
6 a été obtenu 10 fois.
Peut-on admettre au vu de cette expérience que le dé est régulier ?
Il y a 6 classes et le degré de liberté est égal à 5 puisque
l’effectif de la dernière classe est imposé lorsque l’on a l’effectif
des 5 premières.
Pour chaque classe l’effectif théorique de l’échantillon est 90*1/6=15
(chaque face ayant une probabilité théorique égale à 1/6 de sortir si le dé est équilibré).
On calcule l’écart quadradique réduit, c’est la valeur de :
χ2=∑j=16 (Xj−90/6)2/90/6 pour l’échantillon
considéré.
On obtient ici :
1/15((11−15)2+(16−15)2+(17−15)2+(22−15)2+(14−15)2+(10−15)2)=6.4
Dans une table du χ2 on lit qu’au seuil 0.05 et pour un degré de
liberté 5 la valeur limite de χ2 est égale à 11.1.
Avec Xcas, on tape :
chisquare_icdf(5,0.95)
On obtient :
11.0704976935 ≃ 11.1.
Or on a 6.4<11,1, donc au seuil 0.05, on
ne rejette pas l’hypothèse : "le dé est régulier" car si on dit que le
dé n’est pas régulier on se trompe dans plus de 5% des cas.
On a obtenu :
1 a été obtenu 22 fois,
2 a été obtenu 32 fois,
3 a été obtenu 34 fois,
4 a été obtenu 44 fois,
5 a été obtenu 28 fois,
6 a été obtenu 20 fois.
Peut-on admettre au vu de cette expérience que le dé est régulier ?
Par rapport à l’exercice précédent on a doublé le nombre de lancers et
on a aussi doublé les effectifs de chaque classe.
On calcule l’écart quadradique réduit, c’est la valeur de :
χ2=∑j=16 (Xj−180/6)2/180/6 pour l’échantillon considéré.
On obtient ici :
2/15((11−15)2+(16−15)2+(17−15)2+(22−15)2+(14−15)2+(10−15)2)=2*6.4=12.8
Dans une table du χ2 on lit qu’au seuil 0.05 et pour un degré de
liberté 5 la valeur limite de χ2 est 11.1.
Avec Xcas, on tape :
chisquare_icdf(5,0.95)
On obtient :
11.0704976935.
Or on a 12.8>11,1, donc
on rejette l’hypothèse : "le dé est régulier" au seuil de 5% ce qui
veut dire "le dé n’est pas régulier" dans plus de 95% des cas.
Donner un intervalle de confiance du nombre d’apparitions de la face 4, au
seuil de 5% lorsqu’on lance le dé 90 fois de suite.
On pose n=90 et p=1/6.
On considère la variable aléatoire X égale au nombre de
fois que le 4 est obtenu. X suit une loi binomiale B(90,1/6),
de moyenne µ=90*1/6=15 et d’écart-type
σ=√npq=√91*1/6*5/6=√12.5=3.53553390593.
En effet, on obtient un 4 avec la probabilité
théorique de p=1/6 et on obtient une face différente de 4 avec la
probabilité théorique de q=5/6.
On sait, d’apres la loi binomiale, que dans un échantillon d’effectif n,
on a une probabilité de Cnkpkqn−k d’avoir k apparitions d’un
caractère de probabilité p (ici le caractère est d’obtenir un 4 et,
on a p=1/6, q=5/6 et n=90).
On peut approcher la loi binomiale par la loi normale de même moyenne et de même écart-type car n>30 et on a :
µ=np=15 et σ=√npq=√12.5
Prob(|X−µ|/σ<1.96)=0.95 donc
Prob(µ−1.96σ<X<µ+1.96σ)=0.95 donc
Prob(8.07035354438<X<21.9296464556)=0.95
Avec Xcas on tape :
normal_icdf(15,sqrt(12.5),0.975)
On obtient : 21.9295191217
normal_icdf(15,sqrt(12.5),0.025)
On obtient : 8.07048087825
Donc si n=90, l’effectif des différentes classes (en particulier l’effectif
de la classe 4) devraient être dans l’intervalle [8;22], au seuil de 0.05
c’est à dire avec un risque d’erreur de 5%.
Remarque
De même si n=180 µ=30 et σ=√180*5/36=5 donc :
Prob(20.2=30−1.96*5<k<30+1.96*5=39.8)=0.95
Avec Xcas on tape :
normal_icdf(30,5,0.975)
On obtient : 39.7998199227
normal_icdf(30,5,0.025)
On obtient : 20.2001800773
Donc si n=180, les effectifs des différentes classes sont dans l’intervalle
[20;40], au seuil de 0.05 c’est à dire avec un risque d’erreur de 5%.
Si X suit une loi uniforme sur [0;1], X a pour espérance 1/2 et pour
écart-type √1/12 ≃ 0.288675134595.
En effet :
E(X)=∫01xdx=1/2 et
E(X2)=∫01x2dx=1/3 et donc
σ(X)=√1/3−(1/2)2=√1/12
Dans Xcas la fonction rand() renvoie, de façon équirṕartie,
un nombre aléatoire entre 0 et 232 et
rand(0,1) ou rand(0..1)() renvoie, de façon équirṕartie, un
nombre aléatoire entre 0 et 1 : on remarquera que r:=rand(0..1)
définit une fonction r et que r() renvoie alors de façon
équirṕartie, un nombre aléatoire entre 0 et 1.
Exercice :
Simuler dans la colonne A du tableur, le tirage de 100 nombres
aléatoires.
Calculer la moyenne dans A100 et l’écart type dans
A101 de la série obtenue.
Refaire la même chose dans les colonnes B, C, D, E.
Refaire la même chose avec les 100 lignes ainsi crées.
Comparer avec les valeurs théoriques.
Réponse :
De 0 à 99 et sur 5 colonnes les cellules sont remplies aléatoirement : les
cellules A0:E99 contiennent rand(0,1).
La ligne 100 (A100:E100) contient les moyennes des lignes de 0 à 99
pour chacune des colonnes A..E.
La ligne 101 (A101:E101) contient les écarts-types des lignes de
0 à 99 pour chacune des colonnes A..E.
La colonne F (F0:F99) va servir à faire la moyenne des colonnes
de A à E pour chacune des lignes de 0 à 99.
La colonne G (G0:G99) va servir à mettre les écarts-types des
colonnes
de A à E pour chacune des lignes de 0 à 99.
On remplit ensuite F100, F101, G100, G101 :
F100=[mean(A100:E100),mean(F0:F99),mean(A0:E99)], F100 est
la moyenne de la ligne 100 (moyenne des moyennes de 5 échantillons
d’effectif 100), suivi de la moyenne de la colonne F
(moyenne des moyennes de 100 échantillons d’effectif 5), suivi de la
moyenne totale (moyenne d’un échantillon
d’effectif 500). Évidemment ces 3 moyennes sont les mêmes !
F101=[mean(A101:E101),stddev(F0:F99)]
F101est la moyenne de la ligne
101 (moyenne des écarts-types de 5
échantillons d’effectif 100) suivi de l’écart-type de la colonne F
(écart-type des moyennes de 100 échantillons d’effectif 5).
G100=[stddev(A100:E100),mean(G0:G99)]
G100 l’écart-type de la
ligne 100 (écart-type des moyennes de 5 échantillons d’effectif 100) suivi de la moyenne de la colonne G (moyenne des l’écarts-types de 100
échantillons d’effectif 5).
G101=[stddev(A101:E101),stddev(G0:G99),stddev(A0:E99)]
G101
est l’écart-type de la ligne 101 (l’écart-type des l’écarts-types de 5
échantillons d’effectif 100), suivi de l’écart-type de la colonne G
(l’écart-type des l’écarts-types de 100 échantillons d’effectif 5),
suivi de l’écart-type total (l’écart-type d’un échantillon
d’effectif 500).
Pour n=500, on trouve par exemple :
m=mean(A0:E99)=0.484342422505 et
s=stddev(A0:E99)=0.285946471987
Ici, on est parti d’une loi connue : la loi uniforme sur [0;1] de moyenne
µ=0.5 et d’écart-type σ=√1/12 ≃ 0.288675134595.
Dans la pratique on ne connait ni µ ni σ.
D’après la théorie, si on considère tous les échantillons de taille
n, la variable aléatoire :
X=(X1+...+Xn)/n
suit approximativement une loi normale N(µ,σ/√n)
lorsque n est grand et la variable aléatoire :
S2=(X1−X)2+...+(Xn−X)2/n a pour moyenne n−1/nσ2
Pour la loi uniforme on a :
la moyenne de la série des moyennes des échantillons de taille n
est égale à 0.5 ,
l’écart-type de la série des moyennes des échantillons de taille n est
√1/12 n,
la moyenne de la série des écarts-types des échantillons de taille n
est √n−1/12 n,
l’écart-type σ(S2) de la série des écarts-types des échantillons de taille n est plus petit que K/√n où K est une constante qui ne dépend que de la loi.
Au vu d’un échantillon d’effectif 500 (n=500), de moyenne m, et
d’écart-type s, on convient de dire
que la moyenne empirique :
m=mean((A0):(E99))=0.484342422505 (m est la valeur observée de
X)
est l’approximation de la moyenne µ et que l’écart-type empirique :
s=stddev(A0:E99)=0.285946471987 (s2 est la valeur observée de
S2) est l’approximation de la moyenne de la série des écarts-types des échantillons de taille n=500 et on a :
√E(S2)=√499/500 ≃ s.
Lorsque l’on ne connait pas σ on en calcule une valeur approchée
à partir de l’écart type d’un échantillon de grande taille ici 500 :
on a : s=0.285946471987
On calcule la valeur théorique estimée :
σ−est=s*√n/(n−1)
On tape et on obtient :
=0.285946471987*sqrt500/499=0.286232848095
au lieu de σ=0.288386314978
De plus la théorie nous dit que la distribution des moyennes des
échantillons d’effectif 500 suit sensiblement une loi normale de moyenne
µ et
d’écart-type :
σ/√500≃s/√499
=0.0128007221147.
Ceci nous permet de dire qu’au seuil de 5%, on a :
|m−µ|<1.96*0.0127879149858=0.0250894153448 soit :
0.45925300716=m−s/√499<µ<m+s/√499=0.50943183785.
D’où un intervalle de confiance au seuil de 5% pour µ de :
[0.4592;0.5095].
Voici les résultats des lignes 100 et 101 :
- ligne 100 est la valeur de la moyenne de 5 échantillons d’effectif 100, on
trouve :
0.466489640726, 0.487896819143, 0.499799806252,
0.453281438346, 0.514244408058.
Ces 5 moyennes ont pour moyenne la moyenne totale:
mean(A100:E100) =m =0.484342422505
et ces 5 moyennes ont pour écart-type :
stddev(A100:E100)=0.022041777341 ≃ σ/√100
- ligne 101 est la valeur de l’écart-type de 5 échantillons d’effectif 100,
on trouve :
0.264640095911, 0.302416108249, 0.299622396086,
0.276154743049, 0.280843050885
ces 5 écarts-types ont pour moyenne :
mean(A101:E101) =0.284735278836
valeur approchée de √99/100≃0.287228132327
et pour écart-type :
stddev(A101:E101)=0.0143305924398.
Dans la colonne F on fait la moyenne des lignes ce qui correspond à
100 échantillons de 5 tirages (n=5).
Ces 100 moyennes ont pour moyenne la moyenne totale :
mean(F0:F99)=0.484342422505
et es 100 moyennes ont pour écart-type :
stddev(F0:F99)=0.112665383246
valeur approchée de σ/√5 ≃ 0.129099444874.
Dans la colonne G on fait l’écart-type des lignes ce qui correspond
à 100 échantillons de 5 tirages (n=5).
Ces 100 écarts-types ont pour moyenne :
mean(G0:G99)=0.252572046948
valeur approchée de √4/ 5 ≃ 0.258198889747
et pour écart-type :
stddev(G0:G99)=0.0726584981978
Observations :
- Comment évoluent les moyennes :
les valeurs de la ligne 100 des moyennes de chaque colonne A..F
c’est à dire la moyenne de 100 observations est assez proche de la valeur attendue 0.5, alors que la colonne F
moyenne des lignes c’est à dire de 5 observations est loin de la valeur attendue 0.5. On voit bien que l’écart-type des moyennes d’un échantillon de taille n dépend de n et que plus n est grand plus cet écart-type diminue.
Les écarts-types de ces 2 séries ne sont donc pas les mêmes :
d’après la théorie, l’écart-type des moyennes d’un échantillon de
taille n est :
σ/√n si σ est l’écart-type de la population toute
entière qui est pour la loi uniforme de : √1/12=0.288675134595.
De façon expérimentale on a :
- écart type des 5 moyennes correspondant à 5 échantillons de taille 100 :
0.022041777341
On calcule la valeur théorique :
sqrt(1/12)/10=0.0288675134595
- écart type des 100 moyennes correspondant à 100 échantillons de taille 5 :
0.112665383246
On calcule la valeur théorique :
sqrt(1/12)/sqrt(5)=0.129099444874
- Comment évoluent les écarts-types :
d’après la théorie, la moyenne des écarts-types d’un échantillon de
taille n est :
√n−1/n si σ est l’écart-type de la population toute entière qui est pour la loi uniforme de : √1/12=0.288675134595.
De façon expérimentale on a :
- moyenne des 5 écarts-types correspondant à 5 échantillons de taille 100 :
0.284735278836
On calcule la valeur théorique :
sqrt(1/12)*sqrt(99/100)=0.298337151271
- moyenne des 100 écarts-types correspondant à 100 échantillons de taille 5 :
0.252572046948
On calcule la valeur théorique :
sqrt(1/12)*sqrt(4/5)=0.258198889747
Lorsque l’on ne connait pas σ on en calcule une valeur approchée
à partir de l’écart type d’un échantillon de grande taille ici 500 :
on a : s=0.285946471987
La valeur théorique estimée σ est de σ :
σ est=s*√n/(n−1)
On tape :
0.285946471987*sqrt(500/499)
On obtient :
0.286232848095 (au lieu de σ=0.288386314978
Quant aux écarts-types des écarts-types des échantillons de taille n,
on voit qu’il sont d’autant plus petit que n est grand : c’est pourquoi on
peut approcher l’écart type par l’écart-type d’un seul échantillon de
grande taille.