Recodage de la variable responsabilité
Reprendre les données de départ (éviter de prendre celles ordonnées par responsabilité ou par sexe). Insérer 2 colonnes avant la colonne de responsabilité (on peut les créer ailleurs, bien sûr). Ce sont les colonnes D et E de la figure 5.30. En cellule D2, écrire la formule =SI($F2=D$1;1;0), puis la recopier dans la cellule d'à côté et sélectionner ces 2 cellules et tirer vers le bas pour remplir les 2 colonnes. Contrôler que les 1 s'affichent bien à l'endroit voulu.
Écriture du modèle
Ce modèle s'écrit S=a1*c2+ a2*c3 +b + e, et comme il y a 3 paramètres, il faut sélectionner la plage L4 :N8, puis taper la formule =DROITEREG(B2:B99;D2:E99;VRAI;VRAI), et appuyer sur les 3 touches CTRL MAJ Entrée. Taper les lignes d'intitulés du tableau (lignes 2 et 3). L'équation s'écrit Sest.=962 + 475,8 c2 + 733,3 c3. On en déduit que le salaire de base (responsabilité c1 choisie par défaut) est de 962 euros, et qu'il est augmenté de 475 euros environ si on a la responsabilité c2 (soit 962+475) , contre 722 euros s'il a la responsabilité c3 (soit 962+722).
Utilisation du modèle
Ce modèle ne prend en compte que la responsabilité. On a écrit dans la colonne S les 3 valeurs de responsabilité c1, c2 et c3. La formule de calcul du salaire écrite dans T12 est =N$4+M$4*(S12=M$3)+L$4*(S12=L$3). Puis elle est tirée vers le bas, et on retrouve bien les résultats des sommes indiquées dans le paragraphe précédent.
Évaluation de la qualité du modèle
La valeur de R² se trouve dans la cellule L6. Elle est de 0,902, ce qui est très bon. On examine maintenant les résidus. Pour les calculer, on écrit dans H2 la formule =B2-N$4-M$4*D2-L$4*E2, que l'on recopie vers le bas. Les caractéristiques statistiques de ceux-ci sont ensuite calculées. La moyenne fait approximativement 0, comme attendu, et l'écart-type est proche de sa valeur théorique écrite dans la cellule M6. On représente alors le nuage des résidus avec les 6 zones délimitées par les 5 droites. Il a l'air de suivre à peu près la loi normale (en cas de difficulté pour réaliser cette partie, voir les explications détaillées correspondantes du modèle M1).
Indépendance des résidus et des autres variables
Ce modèle est bon, mais on peut peut-être l'améliorer en faisant entrer les autres variables dans le modèle. Pour cela on regarde si les résidus sont liées à d'autres variables, par exemple l'ancienneté. On représente graphiquement les résidus de M2 en fonction de l'ancienneté et le nuage de points montant indique clairement qu'il y a une liaison positive entre les 2 (voir figure 5.31). On ajoute la droite de régression (une fois le graphique sélectionné, par un clic droit, on peut lui ajouter une tendance, qu'on choisit linéaire), son équation et le R² correspondant, ce qui confirme clairement la liaison, et invite à faire un modèle de régression avec les deux variables explicatives, ancienneté et responsabilité.
Figure 5.31 : Les résidus de M2 sont une fonction croissante de l'ancienneté