Cette procédure consiste, sur le modèle
complet à k variables explicatives, à éliminer
de proche en proche (c'est-à-dire en réestimant l'équation
après chaque élimination) les variables explicatives
dont les t de Student sont en dessous du seuil critique. Cette procédure
n'est utilisable que si la première équation peut
être effectivement estimée, ce qui n'est pas toujours
le cas. En effet, lorsque le modèle comporte un nombre trop
important de variables explicatives, le risque de colinéarité
entre ces variables est élevé.
Critère d'élimination
Plus faible t
de Student en valeur absolue, si inférieur à 2.
Critère d'arrêt
Toutes les variables sont significatives (tous les
t supérieurs à
2).
Régression par étages
Cette technique utilise une démarche inverse
: les variables explicatives sont sélectionnées une
par une jusqu'à ce que l'équation de régression
se dégrade. C'est un processus de sélection de variables
explicatives permettant de rechercher les contributions marginales,
mais significatives, de chacune des variables explicatives candidates.
Étape 1
La variable ayant le coefficient de corrélation
le plus élevé avec la série y
est retenue.
Étape 2
Première régression avec la série retenue puis calcul
du résidu E1.
E1 = Vente - Influence de la première série explicative
sélectionnée
Étape 3
La variable ayant le coefficient de corrélation
le plus élevé avec la série E1 est retenue.
Étape 4
Deuxième régression avec les deux premières séries
retenues puis calcul du résidu E2
.
E2 = Vente - Influence des deux premières séries
explicatives sélectionnées
etc.
Critère d’arrêt de la sélection : plus aucun coefficient
de corrélation n’est significativement différent de 0.
L'analyse des résidus à
chaque étape permet de tirer le maximum d'informations des
variables explicatives en minimisant les inter-corrélations.
Economiquement, cela se justifie pleinement : une industrie peut
dépendre à 60 % d'un premier secteur, de 30 %
d'un autre et de 10 % d'un dernier. Ainsi l'explication résiduelle
du deuxième secteur est mise en lumière après
soustraction de l'explication par le premier secteur ; quant au
troisième, il apparaît avec plus de netteté
sur le résidu des 90 % déjà expliqués.
Ainsi, nous pouvons mettre en évidence les explications marginales
mais contributives de chacune des variables.
Leçon
11 : la sélection des variables explicatives