Visualiser les Données:visualiserdonnées
La machine ayant pour fonction de déterminer
par elle-même si les données que nous lui donnerons
en paramètre sont issues d’une cerise ou d’un abricot, il
est tout de même intéressant pour nous de contrôler
sa prédiction.
Pour cela, nous devons essayer de déterminer
par nous-mêmes les deux clusters avant de demander à la
machine de les trouver seule, mais comment y parvenir facilement ?
Eh bien à l’aide d’un graphique. Créons un nouveau
fichier de script que nous appelons clustering et saisissons les
lignes de code suivantes :
import pandas as pnd
import matplotlib.pyplot as plt
#Chargement des données
fruits = pnd.read_csv("datas/fruits.csv",
names=[’DIAMETRE’,’POIDS’], header=None)
#Visualisation graphique des données
fruits.plot.scatter(x="DIAMETRE",y="POIDS")
plt.show()
Ce code a pour but de créer un nuage
de points de l’ensemble des couples Diamètre/Poids.
Visualisation des données
À partir de ce graphique, nous sommes
en mesure de déterminer par nous même les deux
clusters correspondant potentiellement aux cerises et aux abricots :
Détermination manuelle des clusters
En effet, le diamètre d’une cerise
est compris entre 1 et 29 selon notre jeu d’observation, ce qui
tend à créer ...