Sommaire

Algorithme des K-Means (K-Moyennes)

Il existe plusieurs algorithmes propres à l’apprentissage non supervisé. Nous allons cependant nous attarder sur celui appelé K-Mean (K-Moyennes) permettant de réaliser des classifications sur un nombre de groupes de prédiction connu et sur un petit nombre de données (inférieur à 10 000).

Le clustering (partitionnement de données)

Le partitionnement de données ou encore appelé clustering est l’action de découper l’ensemble des observations en petits groupes ayant des caractéristiques communes.

Ce partitionnement des données est le résultat attendu de chaque algorithme d’apprentissage non supervisé. Ainsi, lorsqu’une nouvelle observation à classifier sera proposée à l’algorithme, charge à lui de la positionner dans l’un des groupes qu’il aura déterminés. La définition du libellé du groupe donnant du sens à la classification (abricot, cerise…) est quant à elle notre charge, car bien entendu la machine est incapable de le faire étant donné qu’elle n’a pas conscience de la signification des données qu’elle utilise lors de son apprentissage (pour elle, ce ne sont que des chiffres).