Sommaire

Visualiser les Données:visualiserdonnées

La machine ayant pour fonction de déterminer par elle-même si les données que nous lui donnerons en paramètre sont issues d’une cerise ou d’un abricot, il est tout de même intéressant pour nous de contrôler sa prédiction.

Pour cela, nous devons essayer de déterminer par nous-mêmes les deux clusters avant de demander à la machine de les trouver seule, mais comment y parvenir facilement ? Eh bien à l’aide d’un graphique. Créons un nouveau fichier de script que nous appelons clustering et saisissons les lignes de code suivantes :

import pandas as pnd 
import matplotlib.pyplot as plt 
 
 
#Chargement des données 
fruits = pnd.read_csv("datas/fruits.csv", 
names=[’DIAMETRE’,’POIDS’], header=None) 
 
#Visualisation graphique des données 
fruits.plot.scatter(x="DIAMETRE",y="POIDS") 
plt.show()

Ce code a pour but de créer un nuage de points de l’ensemble des couples Diamètre/Poids.

images/10FL01.png

Visualisation des données

À partir de ce graphique, nous sommes en mesure de déterminer par nous même les deux clusters correspondant potentiellement aux cerises et aux abricots :

images/10FL02.png

Détermination manuelle des clusters

En effet, le diamètre d’une cerise est compris entre 1 et 29 selon notre jeu d’observation, ce qui tend à créer ...