Blog ENI : Toute la veille numérique !
🐠 -25€ dès 75€ 
+ 7 jours d'accès à la Bibliothèque Numérique ENI. Cliquez ici
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici

Modèles statistiques classiques

Introduction

Les modèles statistiques sont une classe de modèles mathématiques qui supposent l’existence d’un mécanisme sous-jacent expliquant le processus de génération des observations ou données et qui tentent d’en donner une formalisation mathématique approximative. Plus concrètement, ils s’intéressent à expliquer une variable aléatoire images/eq81.png d’intérêt à travers une fonction qui s’exprime et implique très souvent d’autres variables aléatoires images/eq11.png. La première, la variable Y est souvent dénommée variable de réponse, variable à expliquer ou variable dépendante ou encore variable à prédire, alors que les autres variables images/eq82.png sont dénommées variables explicatives, prédictives ou encore variables indépendantes. On distingue notamment :

Modèles

Variable de réponse

Variable explicative

Régression linéaire simple

1 variable continue

1 variable continue

ANCOVA

1 ou plusieurs variables qualitatives et continues

Régression linéaire multiple

ANOVA

1 ou plusieurs variables qualitatives ou facteurs

MANOVA

Plusieurs variables continues

Analyse discriminante

1 variable catégorielle spécifiquement dichotomique

1 ou plusieurs variables qualitatives et continues

Régression logistique

Dans...

Analyse de la variance (ANOVA)

Dans le précédent chapitre, on a abordé plusieurs tests, dont notamment le test de comparaison de moyennes d’un - cas de comparaison par rapport à une référence, c’est pour ça que l’on parle de test de conformité - ou deux échantillons de données. L’ensemble de ces tests est souvent dénommé T-Test à cause de la loi T de Student que suit la distribution sous-jacente de l’échantillon.

Maintenant, on pourrait s’interroger sur le recours au T-Test dans le cas où l’on dispose de plus de deux échantillons, ou plus spécifiquement où l’on dispose de trois échantillons ? On peut penser utiliser un T-Test en couplant deux à deux les moyennes, ce qui revient à comparer la moyenne de l’échantillon images/eq68.png à celle de images/eq69.png, de images/eq68.png à celle de images/eq83.png et finalement de images/eq69.png à images/eq83.png. Ça pourrait fonctionner si ça n’impliquait pas un risque d’erreur de Type I plus important (voir dans le précédent chapitre pour la définition). En effet, si l’on fixe ce risque pour chaque T-Test à 5 % comme on a l’habitude de faire, pour la comparaison combinée des trois T-Test, en supposant les échantillons indépendants, on se retrouve avec un risque d’erreur de Type I égal à images/eq84.png, ce qui est évidemment trop élevé pour un risque d’erreur de Type I surtout si on a un nombre K élevé de moyennes.
Ainsi, l’ANOVA est un palliatif pour résoudre cette inflation du risque d’Alpha ou d’erreur de Type I qui implique une dégradation du niveau de confiance quand le nombre K d’échantillons augmente. Autre part l’ANOVA s’interprète dans le cas de plan d’expérience comme une relation qui explique une variable de réponse Y continue (par exemple le poids d’un sujet test, le volume des ventes, etc.) par un certain nombre de variables prédictives images/eq82.png qualitatives (par exemple, un traitement médical, emplacement des magasins de ventes, etc.), en l’occurrence dénommées facteurs, dont les différentes modalités ou niveaux représentent des groupes qui s’apparentent donc aux échantillons dont...

Modèles de régression linéaire

Les modèles de régression sont ceux qui traitent dans une logique exploratoire et surtout prédictive la relation entre une variable continue Y et p variables explicatives images/eq146.png. Concrètement, on suppose qu’il existe une relation entre Y une variable continue et X = (images/eq146.png) qui se formalise de manière générale comme suit :
images/08EP54.png
Réaliser une régression consiste à retrouver une formule de prévision Y par X, avec images/eq147.png, le terme d’erreur ou résidu qui est une variable aléatoire totalement indépendante de X qui suit une loi normale images/eq148.png et :
images/08EP55.png
images/eq149.png, appelée fonction hypothèse (puisqu’on ne la connaît pas, elle juste supposée), capture l’information systémique de Y connaissant X ce qui se traduit par l’égalité suivante :
images/08EP56.png
Et le reste est contenu dans le terme d’erreur images/eq150.png. Ainsi, on comprend que pour que images/eq149.png soit la plus représentative possible de images/eq151.png (la prévision de Y), il faudrait que images/eq150.png soit minimale.

Dans cette section, la régression linéaire sera abordée sous plusieurs aspects à travers des applications R.

1. Régression linéaire simple

a. Formalisation et estimation

On parle de régression linéaire simple ou encore de régression linéaire univariée quand il n’y a qu’une seule variable indépendante ou prédicteur X = (images/eq152.png) et la fonction hypothèse à la forme suivante :
images/08EP57.png

Donc, la relation entre Y et X pourra se formuler comme suit :

images/08EP58.png
La fonction images/eq153.png est en fait l’équation d’une droite dont images/eq154.png est l’ordonnée à l’origine ou intercept en anglais, et images/eq155.png est le coefficient directeur ou slope en anglais. Il faut donc déterminer les paramètres images/eq154.png et images/eq155.png qui peuvent être estimés au moyen de la méthode des moindres carrés ordinaires ou Ordinary Least Square ou OLS method (en anglais). 

Selon cette méthode, trouver ces paramètres revient à minimiser la somme des carrés des résidus ou Sum of Square Error (SSE) :

images/08EP59.png
Les estimateurs images/eq156.png et images/eq157.png des paramètres images/eq154.png et images/eq155.png qui rendent minimale SSE s’obtiennent comme suit :
images/08EP60.png

Ces estimateurs sont sans biais compte tenu du théorème GAUSS - MARKOV. Ainsi, sans trop...