Sommaire

Naive BayesNaive Bayes appliqué au TALN

Lorsque que nous évoquons la classification de texte, l’algorithme incontournable permettant de réaliser cette tâche est Naive Bayes se basant sur la fréquence d’apparition des mots. Pour les différents exemples qui vont suivre, nous vous invitons à laisser quelques instants de côté votre ordinateur pour vous munir d’une feuille de papier, d’un crayon et d’une calculatrice.

1. Le théorème

Comme nous l’avons déjà évoqué et illustré dans le chapitre Principaux algorithmes du Machine Learning, l’algorithme de Naive Bayes se base sur le Théorème de Bayes fondé sur les probabilités conditionnelles c’est-à-dire la détermination de la probabilité qu’un évènement se produise en fonction d’un évènement qui s’est déjà produit. Les évènements devant être indépendants l’un de l’autre.

Le Théorème de Bayesthéorème de Bayes s’exprime sous la formule suivante :

images/eq08.png

2. Un exemple : quels mots-clés choisir ?

Pour illustrer à l’aide d’un exemple concret le fonctionnement de l’algorithme, nous avons pris le cas d’un site proposant des ateliers de codage pour enfants et adolescents. Nous allons chercher à déterminer si le fait d’utiliser les mots-clés ...