Leçon 11 : la sélection des variables explicatives
Méthodes de
sélection de variables explicatives

Élimination progressive

Cette procédure consiste, sur le modèle complet à k variables explicatives, à éliminer de proche en proche (c'est-à-dire en réestimant l'équation après chaque élimination) les variables explicatives dont les t de Student sont en dessous du seuil critique. Cette procédure n'est utilisable que si la première équation peut être effectivement estimée, ce qui n'est pas toujours le cas. En effet, lorsque le modèle comporte un nombre trop important de variables explicatives, le risque de colinéarité entre ces variables est élevé.

Critère d'élimination

Plus faible t de Student en valeur absolue, si inférieur à 2.

Critère d'arrêt

Toutes les variables sont significatives (tous les t supérieurs à 2).

Régression par étages

Cette technique utilise une démarche inverse : les variables explicatives sont sélectionnées une par une jusqu'à ce que l'équation de régression se dégrade. C'est un processus de sélection de variables explicatives permettant de rechercher les contributions marginales, mais significatives, de chacune des variables explicatives candidates.

Étape 1

La variable ayant le coefficient de corrélation le plus élevé avec la série y est retenue.

Étape 2

Première régression avec la série retenue puis calcul du résidu E1.

E1 = Vente - Influence de la première série explicative sélectionnée

Étape 3

La variable ayant le coefficient de corrélation le plus élevé avec la série E1 est retenue.

Étape 4

Deuxième régression avec les deux premières séries retenues puis calcul du résidu E2 .

E2 = Vente - Influence des deux premières séries explicatives sélectionnées

etc.

Critère d’arrêt de la sélection : plus aucun coefficient de corrélation n’est significativement différent de 0.

L'analyse des résidus à chaque étape permet de tirer le maximum d'informations des variables explicatives en minimisant les inter-corrélations. Economiquement, cela se justifie pleinement : une industrie peut dépendre à 60 % d'un premier secteur, de 30 % d'un autre et de 10 % d'un dernier. Ainsi l'explication résiduelle du deuxième secteur est mise en lumière après soustraction de l'explication par le premier secteur ; quant au troisième, il apparaît avec plus de netteté sur le résidu des 90 % déjà expliqués. Ainsi, nous pouvons mettre en évidence les explications marginales mais contributives de chacune des variables.

Leçon 11 : la sélection des variables explicatives