Équation d'analyse de la variance et qualité d'un
ajustement
Équation fondamentale d’analyse de la variance :
la variabilité totale (SCT) est égale à la variabilité expliquée
(SCE) + la variabilité des résidus (SCR).
Soit
Cette équation va nous permettre de juger de la
qualité de l'ajustement d'un modèle, en effet, plus la variance
expliquée est « proche » de la variance totale meilleur est l'ajustement
global du modèle. Cependant, ces valeurs dépendent des unités de
mesure, c'est pourquoi on préfère utiliser le nombre sans dimension
:
R2
est appelé le coefficient de détermination, et R
le coefficient de corrélation multiple.
Test de significativité globale de la régression
Soit le test d’hypothèses :
H0 : a1 = a2 =
… = ak = 0
contre l'hypothèse
H1 : il existe au moins un coefficient non nul
Si on refuse H0, il existe au moins une variable
explicative significative dans le modèle.
Pour procéder à ce test on calcule une statistique
de Fisher empirique :
Si
F lu sur une
table de Fisher à k et n
– k – 1 pour un seuil
(1- ) en général 95 %, alors on rejette l’hypothèse H0.
En ce qui concerne le terme constant a0 ,
le fait qu’il ne soit pas significativement
différent de 0 n’a aucune importance, il ne figure donc pas dans
l’hypothèse H0.
Test de Durbin et Watson
Rôle et formulation
L'expérience montre que les modèles de régression
ajustés à des séries chronologiques économiques manifestent parfois
un certain degré de dépendance stochastique entre les valeurs successives
du terme représentant les erreurs. En termes probabilistes, cela
signifie que les erreurs sont autocorrélées, ou encore qu’une erreur
commise en t a une influence sur l’erreur en t + 1.
Durbin et Watson, en 1951, ont construit un test dont la fonction
discriminante est la statistique DW.
En cas d’autocorrélation
des erreurs, l’hypothèse H5
n’est plus vérifiée, l’estimateur des MCO n’est plus à variance
minimale.
interprétation
La table de Durbin et Watson à laquelle il faut
se référer pour effectuer le test nous indique la valeur des deux
bornes d'un intervalle d1,
d2.
Soit DW la
valeur calculée de la statistique de Durbin et Watson , la règle
de décision est :
si DW < d1,
on rejette l'hypothèse d'indépendance et on admet une autocorrélation
des erreurs,
si d1< DW < d2,
on est dans la zone d'indétermination des tables : il y a doute,
si d2< DW < 4 - d2,
on accepte l'hypothèse de l'indépendance des erreurs,
si 4 - d2 < DW < 4 - d1,
on est dans la zone d'indétermination des tables : il y a doute,
si 4 - d1 < DW,
on rejette l'hypothèse d'indépendance et on admet une corrélation
négative des erreurs.
Dans la pratique le doute est interprété comme présomption
favorable d'absence d'autocorrélation.
Les causes d'autocorrélation
Plusieurs causes peuvent entraîner cette autocorrélation
:
une mauvaise spécification du modèle, la relation
au lieu d'être linéaire peut, par exemple, correspondre à un schéma
logarithmique, ou en différences premières,
l'absence d'une variable explicative importante,
le lissage des données. C'est un phénomène apparenté
à l'effet Slutzky (création d’un cycle artificiel dans les séries).
L'application du filtre moyenne mobile a pour conséquence automatique
de dégrader la statistique de Durbin-Watson sans pour cela entraîner
une remise en cause du modèle.
Dans la majorité des cas, le test de Durbin et
Watson ne donne qu'une présomption d'autocorrélation des résidus
pour un ordre 1 (corrélation entre et ) sans rechercher des liaisons à des ordres
supérieurs (2, 3 ou 4). L'usage de ce test reste donc d'un intérêt
limité.
L'examen visuel du graphique de la série des résidus
ou le calcul de son corrélogramme sont souvent plus révélateurs.