Blog ENI : Toute la veille numérique !
🐠 -25€ dès 75€ 
+ 7 jours d'accès à la Bibliothèque Numérique ENI. Cliquez ici
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
  1. Livres et vidéos
  2. Langage R et statistiques
  3. La comparaison de deux groupes
Extrait - Langage R et statistiques Initiation à l'analyse de données
Extraits du livre
Langage R et statistiques Initiation à l'analyse de données
1 avis
Revenir à la page d'achat du livre

La comparaison de deux groupes

Généralités sur la comparaison de deux groupes

Comme signalé dans les chapitres précédents, un grand nombre de tests d’hypothèses déjà vus sont utilisables pour la comparaison de groupes. Ce chapitre se limitera à la comparaison de deux groupes, mais la plupart des méthodes sont généralisables à plus de deux groupes. Quand les fonctions R utilisées sont généralisables à plus de deux groupes, un petit exemple sera développé.

Attention, si les tests d’hypothèses utilisés dans ce chapitre ont déjà été vus, les conditions d’application à deux groupes ou plus ne sont pas les mêmes.

Pour beaucoup de tests d’hypothèses paramétriques, il est nécessaire que les variables étudiées suivent des lois normales ou puissent être approximées par des lois normales et que les données soient indépendantes. Sauf cas particulier décrit ci-après, lorsque les données sont appariées et/ou ne peuvent être approximées par une loi normale, des tests d’hypothèses non paramétriques sont utilisés.

Comparaison de proportions de groupes dans R

1. Utilisation de la comparaison de proportions

La comparaison d’une proportion à une valeur de référence est souvent utilisée dans l’industrie pour vérifier la qualité de la production. La comparaison de proportions de deux groupes est plus couramment utilisée pour comparer deux lots de production, deux sous-populations d’une espèce, l’effet d’un médicament par rapport à une population de contrôle…

Par exemple, une boulangère veut vérifier que les ventes de croissants par rapport aux autres viennoiseries, le samedi et le dimanche, présentent le même schéma, sans avoir d’a priori sur la viennoiserie la plus vendue.

Le test de comparaison de proportions sous-entend qu’une des modalités est un succès et l’autre un échec. Il revient donc à calculer le nombre de "succès" par rapport au nombre d’"échecs" dans chaque groupe. Les hypothèses nulle et alternative à formuler découleront donc de ce choix. Le test d’hypothèse réalisé peut être bilatéral, l’hypothèse nulle est alors l’égalité des proportions. Il peut être unilatéral à gauche, l’hypothèse nulle est alors que la première proportion est supérieure ou égale à la deuxième. Enfin, le test d’hypothèses peut être unilatéral à droite, et dans ce cas, l’hypothèse nulle est que la première proportion soit inférieure ou égale à la deuxième.

La boulangère va calculer le nombre de croissants vendus le samedi et le dimanche par rapport au nombre total de viennoiseries vendues ces deux jours-là...

Comparaison de variances de deux groupes dans R

1. Mise en situation de la comparaison de variances

Plusieurs tests de comparaison de moyennes de groupes, comme l’ANOVA ou le test de Student, nécessitent que les variances des groupes soient homogènes, c’est-à-dire que les données au sein de chaque groupe varient de la même manière. Il ne faut pas que les données soient très dispersées dans un groupe et concentrées dans un autre, comme c’est le cas pour la longueur des pétales d’iris (cf. figure 06-07). En effet, les données mesurées sur Setosa sont visuellement plus concentrées que pour les deux autres espèces.

images/06R07.png

Figure 06-07 : La distribution des données de longueur de pétales pour l’espèce d’iris Setosa semble beaucoup plus concentrée que pour les espèces Versicolor et Virginica.

ggplot(iris) + 
  aes(x = Species, y = Petal.Length, color = Species) + 
  geom_jitter() + 
  theme_classic() 

Plusieurs tests d’hypothèses paramétriques et non paramétriques peuvent être utilisés.

Le plus connu des tests paramétriques est le test F. Il nécessite que les données au sein de chaque groupe soient indépendantes et suivent une loi normale. Le test F n’est applicable que sur deux groupes. Pour généraliser à plus de deux groupes, il faut utiliser le test de Bartlett avec les mêmes conditions.

Lorsque les données ne suivent pas parfaitement une loi normale, il est préférable d’utiliser le test de Levene, qui est un test paramétrique, mais moins sensible au défaut de normalité.

Le test non paramétrique vu ici sera le test de Fligner-Killeen.

2. Test F de Fisher

Le test F de Fisher, à ne pas confondre avec...

Comparaison de moyennes de deux groupes dans R

1. Choix du test de comparaison de moyennes à utiliser

Lorsque deux groupes (ou plus) sont étudiés, c’est la moyenne qui est analysée dans la grande majorité des cas. En effet, contrairement à la comparaison des variances, la comparaison des moyennes est plus compréhensible par tous, et son utilisation quasi immédiate. Les comparaisons de proportions et de variances ont été vues en amont parce que la comparaison de moyennes est plus restrictive. Plus particulièrement, les tests paramétriques de comparaison des moyennes nécessitent une égalité des variances pour être utilisés !

Le test t de Student est le test le plus utilisé pour comparer les moyennes de deux groupes. Malheureusement, ce test est souvent employé à tort, sans vérification des conditions d’utilisation, et cela peut conduire à des conclusions erronées. Il faut donc commencer par le début : vérifier la situation dans laquelle sont les données.

Les conditions d’application du test t de Student sont l’indépendance, la normalité et l’homogénéité de variances des données. Si les données sont appariées, c’est la différence entre les deux groupes qui va être analysée pour savoir si elle est différente de 0 (cf. chapitre La comparaison à une valeur théorique, section Test de Student apparié et section Test de Wilcoxon apparié). Si les données ne suivent pas une loi normale, il faut réaliser un test de Wilcoxon.

Le test de Wilcoxon est aussi utilisé si le nombre de données est faible (n < 6), limite liée à la condition d’application du test du Khi-2 :...

Comparaison de moyennes/médianes de plus de deux groupes

1. Pourquoi ne pas comparer deux à deux ?

Les tests de Student, de Welch et de Wilcoxon n’acceptent pas plus de deux groupes, donc il faut utiliser d’autres tests pour comparer les paramètres de position (moyennes/médianes) lorsqu’il y a plus de deux groupes.

Plutôt que de réaliser d’autres tests, une solution serait de réaliser des tests deux à deux, tout simplement... sauf que ce n’est pas valable statistiquement. La raison est simple : lorsqu’on multiplie le nombre de tests, le seuil de confiance (images/04eq6.PNG) décroît rapidement pour ne plus avoir de sens (cf. figure 06-24).
images/06R24.png
Figure 06-24 : Le niveau de confiance (images/04eq6.PNG) décroît linéairement lorsque le nombre de groupes augmente.
tibble( 
  nbr_groupe = 2:10, 
  niveau_confiance = (0.95)^choose(nbr_groupe, 2) 
) %>% 
  ggplot() + 
  aes(x = nbr_groupe, y = niveau_confiance) + 
  geom_line() + 
  theme_classic() 

En effet, lorsqu’il y a 3 groupes A, B, C, il faut réaliser 3 tests : A/B, A/C, B/C. Chaque test ayant la même erreur de première espèce (images/05eq29.PNG), le niveau de confiance est donc images/05eq78.PNG. Pour 4 groupes, il faut réaliser images/06eq79.PNG tests, donc un niveau de confiance de (1 - 0,05)6 = 0,74.

Dans R, la combinaison binomiale images/06eq80.PNG est obtenue grâce à la fonction choose(n, k) du package {base}.

2. ANOVA : analyse de variance dans R

Pour comparer les moyennes de plus de deux groupes, il faut utiliser une analyse de variance ou ANOVA (ANalyse Of Variance). Une ANOVA à un facteur permet d’étudier l’influence d’une variable qualitative ayant deux modalités ou plus, sur une variable quantitative.

Pour expliquer le comportement d’une variable...