Leçon 10 : la régression multiple
La régression multiple (2)

Équation d'analyse de la variance et qualité d'un ajustement

Équation fondamentale d’analyse de la variance : la variabilité totale (SCT) est égale à la variabilité expliquée (SCE) + la variabilité des résidus (SCR).

Soit

Cette équation va nous permettre de juger de la qualité de l'ajustement d'un modèle, en effet, plus la variance expliquée est « proche » de la variance totale meilleur est l'ajustement global du modèle. Cependant, ces valeurs dépendent des unités de mesure, c'est pourquoi on préfère utiliser le nombre sans dimension :

R2 est appelé le coefficient de détermination, et R le coefficient de corrélation multiple.

Test de significativité globale de la régression

Soit le test d’hypothèses :

  • H0 : aa= … = a= 0

contre l'hypothèse

  • H1 : il existe au moins un coefficient non nul

Si on refuse H0, il existe au moins une variable explicative significative dans le modèle.

Pour procéder à ce test on calcule une statistique de Fisher empirique :

Si

F lu sur une table de Fisher à k et nk – 1 pour un seuil (1- ) en général 95 %, alors on rejette l’hypothèse H0.

En ce qui concerne le terme constant a0 , le fait qu’il ne soit pas significativement
différent de 0 n’a aucune importance, il ne figure donc pas dans l’hypothèse H0.

Test de Durbin et Watson

Rôle et formulation

L'expérience montre que les modèles de régression ajustés à des séries chronologiques économiques manifestent parfois un certain degré de dépendance stochastique entre les valeurs successives du terme représentant les erreurs. En termes probabilistes, cela signifie que les erreurs sont autocorrélées, ou encore qu’une erreur commise en t a une influence sur l’erreur en + 1. Durbin et Watson, en 1951, ont construit un test dont la fonction discriminante est la statistique DW.

En cas d’autocorrélation des erreurs, l’hypothèse H5 n’est plus vérifiée, l’estimateur des MCO n’est plus à variance minimale.

interprétation

La table de Durbin et Watson à laquelle il faut se référer pour effectuer le test nous indique la valeur des deux bornes d'un intervalle d1, d2.

Soit DW la valeur calculée de la statistique de Durbin et Watson , la règle de décision est :  

  • si  DW  < d1, on rejette l'hypothèse d'indépendance et on admet une autocorrélation des erreurs,
  • si  d1  DW < d2, on est dans la zone d'indétermination des tables : il y a doute,
  • si  d2  DW < 4 - d2, on accepte l'hypothèse de l'indépendance des erreurs,
  • si  4 - d DW < 4 - d1, on est dans la zone d'indétermination des tables : il y a doute,
  • si  4 - dDW, on rejette l'hypothèse d'indépendance et on admet une corrélation négative des erreurs.

Dans la pratique le doute est interprété comme présomption favorable d'absence d'autocorrélation.

Les causes d'autocorrélation

Plusieurs causes peuvent entraîner cette autocorrélation :

  • une mauvaise spécification du modèle, la relation au lieu d'être linéaire peut, par exemple, correspondre à un schéma logarithmique, ou en différences premières,
  • l'absence d'une variable explicative importante,
  • le lissage des données. C'est un phénomène apparenté à l'effet Slutzky (création d’un cycle artificiel dans les séries). L'application du filtre moyenne mobile a pour conséquence automatique de dégrader la statistique de Durbin-Watson sans pour cela entraîner une remise en cause du modèle.

Dans la majorité des cas, le test de Durbin et Watson ne donne qu'une présomption d'autocorrélation des résidus pour un ordre 1 (corrélation entre     et     ) sans rechercher des liaisons à des ordres supérieurs (2, 3 ou 4). L'usage de ce test reste donc d'un intérêt limité.

L'examen visuel du graphique de la série des résidus ou le calcul de son corrélogramme sont souvent plus révélateurs.

Leçon 10 : la régression multiple