Analyse descriptive des variables quantitatives

Dans cette section, il s’agira d’acquérir les fonctions nécessaires à la compréhension par la description et l’association des variables numériques ou non en les considérant individuellement par le calcul de statistiques.

1. Cas univarié

a. Mesures de tendance centrale

En statistique descriptive, les mesures de tendance centrale font référence aux valeurs spéciales ou d’une variable autour desquelles les données ont tendance à se regrouper :

La moyenne

Sans doute l’indicateur statistique le plus utilisé est la moyenne arithmétique :

images/06EP19.png

Et s’obtient sous R avec la fonction mean() comme suit :

images/06EP20.png

Pour plus de pertinence, on peut calculer des moyennes sur des groupes :

images/06EP21.png

On ne dispose pas que de la moyenne arithmétique, mais également des moyennes géométriques et harmoniques qui sont en fait issues respectivement d’une log-transformation et de l’inverse de la variable initiale. Néanmoins, au besoin, le package psych de R propose les fonctions geometric.mean() et harmonic.mean() pour leur calcul.

Par ailleurs, on n’en a pas encore fini avec la fonction mean(), cette derniere est généralement connue pour son second argument na.rm, cependant, elle dispose d’un argument très important, il s’agit de l’argument trim qui permet de gérer les valeurs aberrantes. Il prend en valeur une proportion...

Pour consulter la suite, découvrez le livre suivant :
couv_RISTATR.png
60-signet.svg
En version papier
20-ecran_lettre.svg
En version numérique
41-logo_abonnement.svg
En illimité avec l'abonnement ENI
130-boutique.svg
Sur la boutique officielle ENI
Précédent
Préparation des jeux de données
Suivant
Analyse descriptive des variables catégorielles