Leçon 10 : la régression multiple
La régression multiple (1)

La modélisation à plusieurs variables

Le modèle à une seule variable explicative se révèle le plus souvent trop simpliste pour rendre compte d'une réalité complexe.

est un modèle à trois variables explicatives (x1t , x2t  et x3) et quatre coefficients (a1a2aet a0).

L'approche économétrique est très riche car elle recherche une explication non pas dans les variations de la chronique elle-même (comme les méthodes endogènes) mais au travers des fluctuations d'autres chroniques dont on a l'habitude d'évaluer intuitivement l'influence. Elle permet de tester et de quantifier explicitement des relations qui sont pressenties.

Les coefficients du modèle (â1, â2, â3, â0)

Il s’agit des poids relatifs accordés à chacun des facteurs explicatifs. Ce sont des estimations des coefficients réels et inconnus puisque nous ne disposons que d'un échantillon de chaque chronique et non de la population dans son ensemble. Ces coefficients sont donc des variables aléatoires assorties d'un écart-type. Ils représentent l’impact des variables explicatives sur le phénomène que l'on cherche à expliquer (les ventes).

Dans le cas d'un modèle spécifié de façon légèrement différente (introduction d'une variable explicative supplémentaire, ou remplacement d'une variable par une autre), la nouvelle estimation des coefficients de régression (â1, â2, â3, â0) est différente de la précédente, y compris pour les variables explicatives qui ont été conservées. En effet, le calcul des coefficients de régression tient compte des intercorrélations entre les variables explicatives ; ceci introduit donc des variations dans l'estimation de ces valeurs.

Interprétation

La qualité statistique d’un modèle de régression multiple se juge essentiellement par l’interprétation des écarts-types des coefficients. Il suffit de comparer le rapport, en valeur absolue, de chaque coefficient sur son écart-type, à la valeur lue dans une table de Student à n-k-1 degrés de liberté (k = nombre de variables explicatives, ici = 3) et un seuil choisi. Si le nombre d’observations est supérieur à 30, on prend la valeur 2. Si ce rapport est supérieur à cette valeur, la variable explicative est bien « contributive » à l’explication de la série des ventes ; dans le cas contraire, il convient de retirer cette variable du modèle et de procéder à une nouvelle estimation.

Cas particulier : en ce qui concerne le terme constant a0, le fait qu’il ne soit pas significativement différent de 0 n’a aucune importance. Dans la pratique, nous ne testerons donc pas sa significativité par rapport à 0.

Coefficient de détermination (R²)

Le coefficient de détermination mesure la qualité de l'ajustement du modèle, il est égal au rapport de la variance expliquée par les séries explicatives sur la variance totale. Le R² ne préjuge pas de la qualité réelle du modèle donc de la prévision qui en découle ; en effet, il est lié au nombre de facteurs explicatifs du modèle. A titre d'exemple caricatural, un modèle estimé à partir de 5 observations et 5 facteurs explicatifs a un R² égal à 1 (5 équations à 5 inconnues), or ce modèle n'a aucune validité statistique et fournirait des prévisions erronées. Ainsi, il est très possible d'aboutir à un modèle excellent avec un R² de l'ordre de 0,5. Le coefficient de détermination ne représente que la qualité de l'ajustement par rapport à la dispersion du nuage de points.

Leçon 10 : la régression multiple