Sommaire

Phases Apprentissaged’apprentissage et de Prédictionprédiction

Les données étant préparées, nous pouvons à présent passer aux phases d’apprentissage et de prédiction.

1. Découpage en Jeux de testsjeux de tests et Jeux d’apprentissaged’apprentissage

Comme nous en avons maintenant l’habitude, nous créons un jeu d’apprentissage et un jeu de tests ayant respectivement 80 % et 20 % des observations avec pour information à prédire la feature CROYANCE.

from sklearn.model_selection import train_test_split 
 X_train, X_test, y_train, y_test = 
train_test_split(messagesTwitter[’TWEET’].values,  
messagesTwitter[’CROYANCE’].values,test_size=0.2)

Nous avons fait le choix de garder les termes anglophones (train et Test), car c’est sous cette forme que vous les retrouverez dans les différents cas pratiques présents sur Internet.

2. Création d’un pipeline d’apprentissage

Un Pipeline d’apprentissagepipeline d’apprentissage peut être assimilé à une suite d’actions consécutives à réaliser sur le jeu d’observations.

La première action ajoutée au pipeline va consister, à l’aide de la fonction CountVectorizer(), à créer la matrice des occurrences des différents mots dans les différentes phrases comme nous avons appris à le faire manuellement.

La matrice ...