1. Des modules dédiés
Bien que nous n’évoquerons pas dans
ce chapitre la création d’un projet Python dédié aux
statistiques et l’utilisation de modules externes, il est important
de savoir que dans les chapitres suivants nous ne serons pas démunis
face à l’analyse statistique grâce au langage
Python. En effet, vous verrez que nous utiliserons très
fréquemment le module PandasPandas pour
l’analyse, et pour les manipulations des listes nous utiliserons
le module numpynumpy. Ces modules
offrant tous deux des fonctions très pratiques, nous évitant
de les coder par nous même.
Dans le module Pandas (repris sous l’alias pnd dans le code ci-dessous), l’ensemble
des observations est appelé un DataFrame.
Pour notre étude de cas, cela se traduit par cette ligne
de code :
observations =
pnd.DataFrame({’NOTES’:np.array([3,19,10,15,14,12,9,8,11,12,
11,12,13,11,14,16])})
Notre DataFrame observations contient
une feature Notes sous forme d’un
tableau (array) contenant l’ensemble
des notes.
2. Une représentation un peu particulière
de notre étude de cas
Pour notre étude de cas, nous disposons
d’une unique observation (vous en tant qu’individu) et de 16 features
correspondant à chacune de vos notes. Cette observation
pouvant se traduire sous cette forme :