Analyse descriptive des variables catégorielles

Les caractéristiques des variables catégorielles font de ces dernières des cas à part lorsqu’il s’agit de calculer des indicateurs statistiques. Il faut leur donner un bon encodage ordinal ou nominal et les organiser dans des tableaux statistiques de la classe table, facilement traitables par les formules habituelles.

1. Tableaux statistiques pour les variables catégorielles

Pour les besoins des illustrations, on va recourir au jeu de données Film du package Stat2Data, en raison de sa simplicité et aussi parce que ça parle de films ! Ce jeu de données contient dix variables (titre, année de sortie, durée, casting, note, nombre de lignes de la description du film, pays d’origine, etc.) décrivant cent films.

images/06EP82.png

a. Les tableaux de fréquences

Les tableaux de fréquences sont tout simplement des objets de la classe table qui présentent sous forme tabulaire le nombre ou la proportion de chaque niveau ou catégorie d’une variable catégorielle.

Les fonctions table() et prop.table()

Déjà utilisée lorsqu’on étudiait les objets factor, la fonction table() permet de dénombrer les niveaux d’une variable catégorielle :

images/06EP83.png

On peut présenter le résultat sous forme verticale en recourant à la fonction as.data.frame() :

images/06EP84.png

La fonction prop.table() reçoit en argument un objet table, et renvoie en résultat...

Pour consulter la suite, découvrez le livre suivant :
couv_RISTATR.png
60-signet.svg
En version papier
20-ecran_lettre.svg
En version numérique
41-logo_abonnement.svg
En illimité avec l'abonnement ENI
130-boutique.svg
Sur la boutique officielle ENI
Précédent
Analyse descriptive des variables quantitatives
Suivant
Visualisation graphique des données