Rappel :
Soient deux variables aléatoires X et Y, on définit le coefficient de corrélation
de ces deux variables par le nombre :
=
=
=
Si X et Y sont indépendantes alors = 0.
Dans le cas où le nuage de points de coordonées (xj;yj) est linéaire, l'équation de la droite, dite de régression, est :
y = ax + b avec
a = et
b = E(Y) - aE(X)
On a donc :
= a
(X)/
(Y)
Théorème :
Au vue d'un échantillon de taille n, on peut estimer par l'estimateur :
R =
Lorsque X et Y suivent une loi normale les variables :
V = ln(
) suit une
loi normale
(
,
) et,
T = suit une loi de Student à n - 2 degrés de
liberté.
Si R2 = 1, les points de coordonées (xj;yj) sont alignés sur la
droite des moindres carrés et,
si R2 = 0, cela permet de conclure à l'inadéquation du modèle
linéaire.
Attention : si R = 0, les variables X et Y ne sont pas
obligatoirement indépendantes. De même, lorsque R2 est proche de 1, on
peut penser (c'est un indice et non une preuve) qu'il y a un lien de cause
à effet entre X et Y.
On peut donc tester au seuil l'hypothèse H0 :
= 0.
Par exemple, pour
= 0.05, on considère que
= 0 est
vraisemblable si :
ln(
) < 1.96*
Pour estimer a et b on utilise les statistiques :
A =
et
B =
- A
On montre que A et B sont des estimateurs sans biais de a et b.