next up previous contents index
suivant: Résolution d'exercices de statistiques monter: Résumé de statistique descriptive précédent: Application : le test   Table des matières   Index

Le test de corrélation

On considère une série statistique double, c'est à dire que pour chaque individu d'une même population, on étudie deux caractères X et Y. On veut savoir si ces deux caractères ont une relation entre eux.
L'ensemble des valeurs (xj, yj) de (X, Y) s'appelle un nuage de points.

Rappel : Soient deux variables aléatoires X et Y, on définit le coefficient de corrélation $ \rho$ de ces deux variables par le nombre :
$\displaystyle \rho$ = $\displaystyle {\frac{{E((X-E(X))(Y-E(Y)))}}{{\sigma(X)\sigma(Y)}}}$ = $\displaystyle {\frac{{E(XY)-E(X)E(Y)}}{{\sigma(X)\sigma(Y)}}}$ = $\displaystyle {\frac{{cov(X,Y)}}{{\sigma(X)\sigma(Y)}}}$
Si X et Y sont indépendantes alors $ \rho$ = 0.
Dans le cas où le nuage de points de coordonées (xj;yj) est linéaire, l'équation de la droite, dite de régression, est :
y = ax + b avec
a = $\displaystyle {\frac{{E((X-E(X))(Y-E(Y)))}}{{\sigma(X)^2}}}$ et
 b = E(Y) - aE(X)
On a donc :
$\displaystyle \rho$ = a$\displaystyle \sigma$(X)/$\displaystyle \sigma$(Y)
Théorème :
Au vue d'un échantillon de taille n, on peut estimer $ \rho$ par l'estimateur :
R = $\displaystyle {\frac{{\sum_{j=1}^n (X_j-\bar X)(Y_j-\bar Y)}}{{\sqrt{(\sum_{j=1}^n (X_j-\bar X)^2)(\sum_{j=1}^n (Y_j-\bar Y)^2)}}}}$
Lorsque X et Y suivent une loi normale les variables :
V = $\displaystyle {\frac{{1}}{{2}}}$ln($\displaystyle {\frac{{(1+R)(1-\rho)}}{{(1-R)(1+\rho)}}}$) suit une loi normale $\displaystyle \mathcal {N}$($\displaystyle {\frac{{\rho}}{{2n-2}}}$,$\displaystyle {\frac{{1}}{{\sqrt{n-3}}}}$) et,
T = $\displaystyle {\frac{{\sqrt{n-2}R}}{{\sqrt{1-R^2}}}}$ suit une loi de Student à n - 2 degrés de liberté.
Si R2 = 1, les points de coordonées (xj;yj) sont alignés sur la droite des moindres carrés et,
si R2 = 0, cela permet de conclure à l'inadéquation du modèle linéaire.
Attention : si R = 0, les variables X et Y ne sont pas obligatoirement indépendantes. De même, lorsque R2 est proche de 1, on peut penser (c'est un indice et non une preuve) qu'il y a un lien de cause à effet entre X et Y.
On peut donc tester au seuil $ \alpha$ l'hypothèse H0 : $ \rho$ = 0.
Par exemple, pour $ \alpha$ = 0.05, on considère que $ \rho$ = 0 est vraisemblable si :
$\displaystyle {\frac{{1}}{{2}}}$ln($\displaystyle {\frac{{(1+R)}}{{(1-R)}}}$) < 1.96*$\displaystyle {\frac{{1}}{{\sqrt{n-3}}}}$
Pour estimer a et b on utilise les statistiques :
A = $\displaystyle {\frac{{\sum ((X_j-\bar X)(Y_j-\bar Y))}}{{\sum (X_j-\bar X)^2}}}$ et B = $ \bar{Y}$ - A$ \bar{X}$
On montre que A et B sont des estimateurs sans biais de a et b.


next up previous contents index
suivant: Résolution d'exercices de statistiques monter: Résumé de statistique descriptive précédent: Application : le test   Table des matières   Index
Documentation de giac écrite par Renée De Graeve