next up previous contents index
suivant: Comparaison de deux moyennes monter: Les tests d'homogénéité précédent: Les tests d'homogénéité   Table des matières   Index


Comparaison de deux fréquences observées

Soient f1 et f2 les fréquences observées d'un caractère dont la fréquence théorique est p. Cette observation est faite à partir de deux échantillons de taille respéctive n1 et n2.
On veut savoir si les fréquences f1 et f2 sont significativement différentes ce qui voudrait dire que les deux échantillons proviennent de deux populations différentes de paramètre p1 et p2 ou si au contraire les deux échantillons proviennent d'une même population de paramètre p = p1 = p2.
On veut donc tester l'hypothèse H0 : p1 = p2 = p contre H1 : p1 $ \neq$ p2 au seuil $ \alpha$.
Soit F1 (resp F2) la variable aléatoire égale à la fréquence du caractère pour des échantillons de taille n1 (resp n2).
On a sous l'hypothèse H0:
F1 a pour moyenne p et comme écart-type $ \sqrt{{\frac{p(1-p)}{n_1}}}$
F2 a pour moyenne p et comme écart-type $ \sqrt{{\frac{p(1-p)}{n_2}}}$
Si n1 et n2 sont très grands on a vu que :
F1 suit approximativement une loi $ \mathcal {N}$(p,$ \sqrt{{\frac{p(1-p)}{n_1}}}$) et
F2 suit approximativement une loi $ \mathcal {N}$(p,$ \sqrt{{\frac{p(1-p)}{n_2}}}$)
Donc
F1 - F2 suit approximativement une loi $ \in$ $ \mathcal {N}$(0,$ \sqrt{{\frac{p(1-p)}{n_1}+\frac{p(1-p)}{n_2}}}$)
On va estimer p grâce à la reunion des deux échantillons :
p $\displaystyle \simeq$ f = $\displaystyle {\frac{{n_1*f_1+n_2*f_2}}{{n_1+n_2}}}$
alors
F1 a pour moyenne p et comme écart-type $ \sqrt{{\frac{f(1-f)}{n_1}}}$
F2 a pour moyenne p et comme écart-type $ \sqrt{{\frac{f(1-f)}{n_2}}}$
On pose s12 = $\displaystyle \sqrt{{\frac{f(1-f)}{n_1}+\frac{f(1-f)}{n_2}}}$ = $\displaystyle \sqrt{{\frac{f(1-f)(n_1+n_2)}{n_1n_2}}}$ donc
F = F1 - F2 $\displaystyle \in$ $\displaystyle \mathcal {N}$(0, s12)

Recette
On choisit le seuil $ \alpha$.
Avec une table de loi normale centrée réduite, on cherche, pour U $ \in$ $ \mathcal {N}$(0, 1), h tel que :
Proba(U $ \leq$ h) = 1 - $ \alpha$/2 .
on a alors :
Proba($\displaystyle {\frac{{\vert F_1-F_2\vert}}{{s_{12}}}}$ < h) = 1 - $\displaystyle \alpha$.
Avec Xcas on tape si $ \alpha$ = 0.05 et si s12 = s12:
a:=normal_icdf(0,s12,1-0.05/2)
On a alors :
Proba(| F1 - F2| < a) = 1 - $\displaystyle \alpha$ avec a = s12*h.
On calcule selon les cas :
$\displaystyle {\frac{{\vert f_1-f_2\vert}}{{s_{12}}}}$ que l'on compare à h ou
| f1 - f2| que l'on compare à a.
Si $\displaystyle {\frac{{\vert f_1-f_2\vert}}{{s_{12}}}}$ < h ou | f1 - f2| < a on admet que les deux échantillons ne sont pas significativement différents au seuil $ \alpha$, sinon on dira que les deux échantillons ne proviennent pas de la même population (voir aussi l'utilisation de la loi du $ \chi^{2}_{}$ en 2.11.2).
Exercice (le même qu'en section 2.11.2)
Pour tester l'efficacité d'un vaccin antigrippal on soumet 300 personnes à une expérience :
- sur 100 personnes non vaccinées, 32 sont atteintes par la grippe,
- sur 200 personnes vaccinées, 50 sont atteintes par la grippe,
Ce résultat permet-il d'apprécier l'efficacité du vaccin ?
On a le tableau suivant :

  grippé non grippé taille
vacciné 32 68 100
non vacciné 50 150 200
total 82 218 300

On calcule les valeurs f1 et f2 qui sont les proportions des grippés des deux échantillons on tape :
f1:=32/100
f2:=50/200=25/100
On tape :
f1-f2
On obtient :
7/100
Donc | f1 - f2| = = 0.07
On calcule la valeur p proportion des grippés lorsqu'on reunit les deux échantillons on tape :
p:=82/300
On obtient :
41/150
Donc p $ \simeq$ 0.273333333333
On calcule s12, on tape :
s12:=sqrt(p*(1-p)*(1/100+1/200))
On obtient :
sqrt(4469/1500000)
Donc s12 $ \simeq$ 0.0545832697201
La variable F = F1 - F2 suit la loi normale $ \mathcal {N}$(0, s12) et sa valeur est f = 0.07.
On cherche la valeur a qui vérifie :
Proba(| F| > a) = 0.05  ou encore
Proba(F $ \leq$ a) = 0.975 et pour cela on tape :
a:=normal_icdf(0,sqrt(4469/1500000),0.975)
On obtient :
0.10698124281
Puisque |f1-f2|=0.07<a=0.10698124281, on en déduit que les deux échantillons ne sont pas significativement différents au seuil de 5% : on peut donc dire que le vaccin n'est pas efficace mais ce n'est pas une certitude...
Remarque
On a h:=normal_icdf(0,1,0.975)=1.95996398454
et |f1-f2|=0.07<h*sqrt(4469/1500000)=0.10698124281


next up previous contents index
suivant: Comparaison de deux moyennes monter: Les tests d'homogénéité précédent: Les tests d'homogénéité   Table des matières   Index
Documentation de giac écrite par Renée De Graeve