Sommaire

Étape 3 : préparation des Données:préparationdonnées

Dans cette troisième étape, nous allons réaliser une lecture approfondie de nos données afin de comprendre leur rôle et les impacts qu’elles peuvent avoir dans l’objectif de prédiction que nous nous sommes fixé. Nous allons en quelque sorte essayer de résoudre le problème "manuellement" en formulant des hypothèses et en essayant de sélectionner les données qui répondront à celles-ci.

L’étude des données passe notamment par leur description (nom, type…), ainsi que par divers processus de traitement tels que le nettoyage (suppression des données inutiles, recherche des données manquantes) et enfin la combinaison entre elles, aussi appelée agrégation, dans le but de disposer d’un jeu de connaissances (observations) utilisables et appropriées à l’apprentissage et à l’atteinte de notre objectif.

1. De quelles données disposons-nous ?

Les fichiers de données dont nous disposons portent l’extension CSV (Comma Separated Value). C’est-à-dire que les données contenues dans ces fichiers sont séparées par des virgules. Pour vous donner une petite idée du contenu de ces fichiers, vous pouvez les ouvrir à l’aide du logiciel Excel ou via un simple éditeur de texte tel que Notepad ou bien encore directement ...