- Exercice 1
Pour une même épreuve,
voici les notes obtenues dans une classe de terminale du lycée A.
6,10,14,17,9,6,4,12,9,10,10,11,12,18,10,9,11,8,7,10.
et les notes obtenues dans une classe de terminale du lycée B.
2,10,14,13,9,6,1,12,9,10,10,10,12,15,19,9,11,8,9,10
1/ Analyser les résultats de chaque groupe.
2/ Peut-on considérer que les 2 groupes sont issus d'une même population ?
Réponse
1/ On tape :
mean([6,10,14,17,9,6,4,12,9,10,10,11,12,18,10, 9,11,8,7,10])
On obtient :
[10.15]
On tape :
stddev([6,10,14,17,9,6,4,12,9,10,10,11,12,18,10, 9,11,8,7,10])
On obtient :
sqrt(4451/400)
[3.33579076082]
Le lycée A a une moyenne de 10.15 et un écart type d'environ 3.34.
On tape :
mean([2,10,14,13,9,6,1,12,9,10,10,10,12,15,19, 9,11,8,9,10])
On obtient :
9.95
On tape :
stddev([2,10,14,13,9,6,1,12,9,10,10,10,12,15,19, 9,11,8,9,10])
On obtient :
sqrt(6179/400)
3.93033077488
Le lycée B a une moyenne de 9.95 et un écart type d'environ 3.93.
On tape pour le lycée A :
quartiles([6,10,14,17,9,6,4,12,9,10,10,11,12,18,10, 9,11,8,7,10])
On obtient :
[[4.0],[8.0],[10.0],[11.0],[18.0]]
On tape pour le lycée B :
quartiles([2,10,14,13,9,6,1,12,9,10,10,10,12,15,19, 9,11,8,9,10])
On obtient :
[[1.0],[9.0],[10.0],[12.0],[19.0]]
On voit que dans le lycée B la moitie des élèves ont entre 9 et 12
alors que dans le lycée A la moitie des élèves ont entre 8 et 11. Donc
bien que la moyenne du lycée B soit inférieure à la moyenne du lycée A
il semble que la classe du lycée B soit meilleure que celle du lycée A.
2/
Si on considère que les deux classes constituent deux échantillons pris au
hasard dans une population où la note de l'épreuve est une variable
aléatoire X de moyenne
et d'écart-type
.
La reunion des 2 échantillons donne un échantillon de taille n = 40.
de moyenne
(9.95 + 10.15)/2 = 10.05 et d'écart-type s.
On tape :
stddev([6,10,14,17,9,6,4,12,9,10,10,11,12,18,10,9,
11,8,7,10, 2,10,14,13,9,6,1,12,9,10,10,10,12,15,19,
9,11,8,9,10])
On obtient :
s=sqrt(5319/400)
3.64657373434.
La variable aléatoire
, égale à la moyenne des échantillons de taille 40 a donc pour moyenne :
= 10.05
et pour écart-type :
/
s/
= 0.583919119794.
Donc
3.69302877574
Remarque : On sait que la statistique
displaystyle
est un estimateur sans biais de
si
est l'écart-type de
X (cf 2.9.2). La valeur
de cette statistique est obtenue à partir de
deux échantillons de taille
respective n1 et n2 et d'écart-type respectif s1 et s2 qui sont les valeurs de S1 et de S2 (avec comme notation
S2 = 
(Xj -
)2 pour un échantillon de taille n de la variable X).
On tape (ici
n1 = n2 = 20,
n1 + n2 - 2 = 38,
s12 =
,
s22 =
) :
sqrt(20/38*(6179/400+4451/400))
On obtient alors comme approximation de
: 3.7398986758
On pose comme hypothèse
H0 :
=
=
et pour hypothèse
alternative
H1 :
et on teste ces hypothèses
au seuil de 0.05.
-
suit une loi normale de
moyenne 0 et d'écart type

.
On a :
= s
s =

s
1.16783823959
Avec Xcas, on tape :
normal_icdf(0,1.16783823959,0.975)
On obtient :
2.28892088937
normal_icdf(0,1.16783823959,0.025)
On obtient :
-2.28892088937
On a
m1 - m2 = 10.15 - 9.95 = 0.2 et comme
-2.28892088937 < 0.2 < 2.28892088937,
on accepte l'hypothèse
=
au seuil de 5%.
Autre méthode
On peut aussi utiliser la loi de Student :
On considére que
=
=
.
Alors
T =
suit une loi
de Student à 38 degrés de liberté.
On calcule la valeur t de T pour l'échantillon on tape :
t:=(10.15-9.95)*sqrt(38)/sqrt(2*3.34^
2+3.93^
2)
On obtient : 0.200644948434
On tape :
student_icdf(38,0.975)
On obtient : 2.02439416391
Puisque
-2.02439416391 < 0.2 < 2.02439416391, on accepte l'hypothèse
=
=
au seuil de 5%.
- Exercice 2
Deux entreprises A et B livrent des pièces dans des paquets de 100 pièces.
On note X1 (resp X2) la variable aléatoire égale au nombre de
pièces défectueuses par paquet provenant de A (resp B).
On note
(resp
) la variable aléatoire égale au nombre moyen de
pièces défectueuses par paquet pour des échantillons aléatoires
de 49 paquets (resp 64 paquets) provenant de A (resp B).
I) Sur un échantillon de 49 paquets provenant de A on compte le
nombre de pièces défectueuses dans chaque paquet et on trouve :
7, 5, 5, 4, 4, 4, 9, 7, 9, 2, 7, 8, 7, 8, 4, 4, 9, 10,
5, 10, 6, 4, 5, 6, 1, 2, 5, 7, 8, 0, 6, 0, 1, 5, 2, 0,
5, 2, 3, 3, 4, 1, 3, 10, 1, 0, 10, 2, 7
1/ Calculer la moyenne m1 et l'écart-type s1 de cet échantillon.
2/ Donner une estimation de la moyenne
et de l'écart-type
de X1.
3/ Donner une estimation de la moyenne et de l'écart-type de
Réponse :
1/ On met les données dans la colonne A du tableur ou on donne un nom à la
liste du nombre de pièces défectueuses dans chaque paquet.
- Dans le tableur on tape les données dans les cellules A0..A48, puis
en A49 on tape :
mean((A0):(A48))
On obtient :
237/49
4.83673469388.
en A50 on tape :
stddev((A0):(A48))
On obtient :
sqrt(21006/2401
2.9578462847.
- Dans une ligne d'entrée, on tape :
L:=[7,5,5,4,4,4,9,7,9,2,7,8,7,8,4,4,9,10,
5,10,6,4,5,6,1,2,5,7,8,0,6,0,1,5,2,0,
5,2,3,3,4,1,3,10,1,0,10,2,7]
puis on tape :
mean(L)
On obtient m1 :
237/49
4.83673469388
4.84.
puis on tape : stddev(A)
On obtient s1:
sqrt(21006/2401)
2.9578462847.
2/ On a un échantillon de grande taille (n1 = 49) donc d'après la loi des
grands nombres, on estime
par
m1 = 237/49
4.84 et
par :
s1
n1n1-1 = 
2.98849836021
2.99.
Donc X1 suit à peu près une loi
normale de moyenne m1 = 4.84 et d'écart-type
= 2.99.
3/ La variable aléatoire
égale à la
moyenne des échantillons de taille 49 suit à peu près une loi
normale de moyenne
= 4.84 et d'écart-type
/
s1/
0.426928337173
0.427.
II) Sur un échantillon de 64 paquets provenant de l'entreprise B on trouve
une moyenne m2 = 3.88 et un écart-type s2 = 1.45:
1/ Donner une estimation de la moyenne
et de l'écart-type
de X2.
2/ Donner une estimation de la moyenne et de l'écart-type de
.
Réponse :
1/ On a un échantillon de grande taille (n2 = 64) donc d'après la loi des
grands nombres, on estime
par m2 = 3.88 et
par :
s2
n2n2-1 = 1.45
1.46146262897
1.46
On a donc
X2 suit une loi de moyenne m2 = 3.88 et d'écart-type
= 1.46.
2/ La variable aléatoire
égale à la moyenne des
échantillons de taille n2 = 64 suit à peu près une loi normale de
moyenne
= 3.88 et d'écart-type
/
s2/
0.182682828621
0.183
III) On note D la variable aléatoire
-
.
1/ Quelle est la loi de probabilité de D ? Déterminer la moyenne et
l'écart-type de D.
2/ On pose pour hypothèse nulle H0 :
=
et pour hypothèse
alternative H1 :
. Calculer sous H0, les nombres
h et k tels que :
Proba(- h < D < h) = 0.99 et
Proba(- k < D < k) = 0.95.
3/ Peut-on conclure après examen des échantillons donnés en I et II
que la différence des moyennes observées est significative au seuil de
risque de 1% ? au seuil de risque de 5% ?
Réponse :
1/ D suit à peu près une loi
normale de moyenne :
-
4.84 - 3.88 = 0.96
et d'écart-type :
=
0.453082418658
0.46
car la variance de D est la somme des variances de
et
de
.
2/ Sous l'hypothèse H0, D suit à peu près une loi normale
de moyenne 0 et d'écart-type
(D) = 0.46.
D'après les tables de la loi normale on a :
h = 2.58*
= 2.58*0.46 = 1.1868
1.19 et
k = 1.96*
= 1.96*0.46 = 0.9016
0.9.
Ou bien avec Xcas on a :
h:=normal_icdf(0,0.46,0.995)=1.18488147963
k:=normal_icdf(0,0.46,0.975)=0.901583432888
3/ Puisque la valeur de D pour l'échantillon est égale à 0.96, on
conclut qu'au seuil de 5% on rejette l'hypothèse H0 (car 0.96>k) mais
par contre, au seuil de 1% on accepte l'hypothèse H0 (car 0.96<h).
Bien comprendre :
Au seuil de 5%, on rejette H0 et on se trompe dans moins de 5% des cas,
c'est à dire que l'on rejette H0 à tort dans moins de 5% des cas, mais
si on ne veut se tromper que dans 1% des cas, on ne peut pas rejeter H0
et donc on l'accepte...
En fait, on peut dire que l'on rejette H0 au seuil de 4% (i.e. on risque de
se tromper en rejettant H0 dans 4% des cas), car :
0.96>normal_icdf(0,0.46,0.98)=0.944724498891 ou encore
normal_cdf(0,0.46,0.96)=0.981553967548>0.98
- Exercice 3
On a administré un somnifère A à 50 personnes choisies au hasard et on a observé une moyenne de sommeil de 8h22 avec un écart-type de 0h24.
On a administré un somnifère B à 100 personnes choisies au hasard et on a observé une moyenne de sommeil de 7h15 avec un écart-type de 0h30.
Ces deux somnifères ont-ils une efficacité signicativement différente ? de combien ?
Réponse
Soit X1 la variable aléatoire égale au nombre de minutes de sommeil
lorsque l'on a pris le somnifère A et soit X2 la variable aléatoire égale au nombre de minutes de sommeil lorsque l'on a pris le somnifère B.
On note
(resp
) la variable aléatoire égale à
la moyenne du nombre de minutes de sommeil pour des échantillons de taille
50 (resp 100) lorsque l'on a pris le somnifère A
(resp le somnifère B).
Au vu de l'échantillon d'effectif n1 = 50,
a comme
moyenne m1 de 8h22 soit de 502 minutes et comme écart-type
.
On a donc :
m1 = 8*60 + 22 = 502 et,
24/
.
Au vu de l'échantillon d'effectif n2 = 100,
a comme moyenne
m2 de 7h15 soit de 435 minutes et comme écart-type
.
On a donc :
m2 = 7*60 + 15 = 435 et,
30/
.
On en déduit que
-
suit approximativement une
loi normale
(
,
) avec comme écart-type :
=
=
= 4.56574321789
4.566.
On cherche un intervalle de confiance pour
au seuil de 5% et au seuil
de 1%. On sait que l'on a :
Proba(|
-
|
+1.96
) = 0.95
Proba(|
-
|
+2.58
) = 0.99
-
a comme valeur
m1 - m2 = 67 donc,
Proba(67 - 1.96*4.566
67 + 1.96*4.566) = 0.95 et,
Proba(67 - 2.58*4.566
67 + 2.58*4.566) = 0.99
On a donc :
- Un intervalle de confiance pour
au seuil de 5% est :
l'intervalle [58;76] (car
58
67 - 1.96*4.566 et
76
67 + 1.96*4.566),
- Un intervalle de confiance pour
au seuil de 1% est :
l'intervalle [55;79] (car
55
67 - 2.58*4.566 et
79
67 + 2.58*4.566).
Avec Xcas on tape :
normal_icdf(67,sqrt(24^
2/49+30^
2/99),0.975)
On obtient :
75.9486922697
76
On tape :
normal_icdf(67,sqrt(24^
2/49+30^
2/99),0.025)
On obtient :
58.0513077303
58
On tape :
normal_icdf(67,sqrt(24^
2/49+30^
2/99),0.995)
On obtient :
78.7605751731
79
On tape :
normal_icdf(67,sqrt(24^
2/49+30^
2/99),0.005)
On obtient :
55.239424827
55
Donc :
-
est dans l'intervalle [58;76] avec un risque d'erreur de 5% et ,
-
est dans l'intervalle [55;79] avec un risque d'erreur de 1%.
é
Le somnifère A allonge la durée du sommeil d'environ 67mn=1h07 par rapport
au somnifère B, avec une incertidude de (76-58)/2=9mn (resp (79-55)/2=12mn) pour un seuil de 5% (resp 1%).
Remarque : dans l'exercice précédent on a considéré deux groupes de
patients indépendants. On aurait pu faire l'experience sur un même groupe
(après un certain temps). On aurait eu affaire alors a des échantillons non indépendants mais appariés (pour un exemple voir l'exercice suivant).
- Exercice 4 : Échantillons appariés
On a fait faire une double correction de 30 copies par deux examinateurs A et B
afin de comparer leur notation. Les copies sont numerotées de 0 à 29.
On a obtenu pour A :
13,15,12,15,8,7,11,10,9,13,3,18,17,5,9,10,
11,14,12,10,9,8,13,6,8,16,14,11,12,10
On a obtenu pour B:
12,13,12,15,7,5,12,10,8,13,4,17,16,4,9,11,10,
13,13,9,10,7,14,8,7,15,13,10,13,10
Réponse
On tape :
A:=[13,15,12,15,8,7,11,10,9,13,3,18,17,5,9,
10,11,14,12,10,9,8,13,6,8,16,14,11,12,10]
mean(A)
On obtient :
329/30
10.9666666667
On tape :
stddev(A)
On obtient :
sqrt(10769/900)
3.45912641509
On tape :
B:=[12,17,11,16,7,7,10,10,8,13,1,18,16,4,8,
10,10,14,11,10,8,8,12,6,7,16,13,11,12,9]
On tape :
mean(B)
On obtient :
21/2=10.5
On tape :
stddev(B)
On obtient :
sqrt(508/45)
3.35989417823
Les deux examinateurs n'ont pas obtenus la même moyenne et la différence
des moyennes entre l'examinateur A et l'examinateur B est m = 0.3.
On tape : A-B
On obtient :
[1,-2,1,-1,1,0,1,0,1,0,2,0,1,1,1,0,1,0,1,0,1,0,1,
0,1,0,1,0,0,1]
ou encore on définit le caractère différence D avec effectifs :
D:=([-2,-1,0,1,2],[1,1,12,15,1])
On tape :
mean(A-B)
ou mean(D)
On obtient :
m=7/15=0.466666666667
On tape :
stddev(A-B)
ou stddev(D)
On obtient :
s=sqrt(131/225)
0.763034876151
Rappel : Si au sein d'une production répartie selon une loi normale de
moyenne
et d'écart type
, on prélève au hasard un
échantillon de petite taille n, la variable aléatoire
qui à
un échantillon de taille n fait correspondre la moyenne de cet échantillon suit une loi normale de moyenne
et d'écart type
/
.
Cette loi n'est pas connue car
est inconnu. On ne peut pas estimer
par
s
nn-1 (où s désigne l'écart type de
l'échantillon) car n est petit et cela ne fournit pas une bonne
estimation de
.
La variable
(où
et
la variable
aléatoire
qui au
tirage associe son résultat) suit une loi
qui ne dépend pas
de
: cette loi est la loi de Student à
degrés de liberté.
On suppose que le caractère différence D est distribué
selon une loi normale
(
,
(D)) (il faudrait le
vérifié avec le test du
).
On pose comme hypothèse
H0 :
= 0 et comme hypothèse alternative
H1 :
0.
On considère la variable
,
a
pour valeur :
t =
*
On tape :
t:=sqrt(29)*7/15/sqrt(131/225)
donc
t
= 3.29352823645
Au seuil de 5% et avec 29 degrées de liberté on lit dans la table de
Student, la valeur critique h que t ne doit pas dépasser.
On trouve h = 2.05.
Ou bien on tape avec Xcas :
h:=student_icdf(29,0.975)
On obtient :
h=2.04522964213
2.05
Puisque
t = 3.29352823645 > h on conclut qu'au seuil de 5%, les 2 moyennes sont
significativement différentes.
Peut-on dire que D suit une loi normale
(0.5, 1) ?
On tape :
e1:=30*normal_cdf(0.5,1,-infinity,-0.5)
On trouve :
4.75965761794
On tape :
e2:=30*normal_cdf(0.5,1,-0.5,0.5)
On trouve :
10.2403423821
On tape :
d2:=((e1-2)^
2)/e1+((e2-12)^
2)/e2+((e2-15)^
2)/e2+
((e1-1)^
2)/e1
On trouve :
7.084447157
On a 4 classe donc 3 degrés de liberté, on tape :
chisquare_icdf(3,0.95)=7.81472790325
On a d2<7.81472790325 donc,
au seuil de 5% on ne peut pas rejeter l'hypothèse que D suit
une loi normale
(0.5, 1)