Natural Language Processing (NLP) avec Python
Présentation
Par le passé, avec les usages courants d’internet, nous avons dû adapter notre langage afin de pouvoir communiquer avec les machines. L’exemple le plus parlant est celui où nous utilisons des mots-clés pour lancer des recherches sur le web.
Aujourd’hui, grâce aux technologies de Traitement Automatique du Langage naturel ou Natural Language Processing (NLP) en anglais, nous utilisons notre propre langage pour communiquer avec les ordinateurs. C’est l’ordinateur qui tente de s’adapter à nous et non plus l’inverse.
L’objectif de cette vidéo est donc de vous apprendre à réaliser des modèles de type NLP en utilisant le langage Python.
Nous étudierons ainsi, à l’aide d’exemples concrets, toutes les étapes nécessaires au développement d’un modèle de classification de type NLP. Nous aborderons ensemble la vectorisation de données, la Cross-Validation et le réglage des hyperparamètres, ainsi que l'application de Random Forest pour la construction de modèles de classification basés sur le NLP.
Aujourd’hui, grâce aux technologies de Traitement Automatique du Langage naturel ou Natural Language Processing (NLP) en anglais, nous utilisons notre propre langage pour communiquer avec les ordinateurs. C’est l’ordinateur qui tente de s’adapter à nous et non plus l’inverse.
L’objectif de cette vidéo est donc de vous apprendre à réaliser des modèles de type NLP en utilisant le langage Python.
Nous étudierons ainsi, à l’aide d’exemples concrets, toutes les étapes nécessaires au développement d’un modèle de classification de type NLP. Nous aborderons ensemble la vectorisation de données, la Cross-Validation et le réglage des hyperparamètres, ainsi que l'application de Random Forest pour la construction de modèles de classification basés sur le NLP.
Table des matières
- Durée totale02h18
- Introduction au Natural Language Processing (NLP)
- Introduction et définition04:08
- Quelques cas d'application02:48
- Les étapes de modélisation en NLP03:15
- Evaluer un modèle02:19
- La validation croisée d'un modèle03:06
- La matrice de confusion d'un modèle NLP05:34
- Repérer l'overfiting02:32
- Installer la distribution Anaconda00:51
- Découvrir l'environnement Jupyter03:46
- Manipulation et préparation des données textuelles avec Python
- La vectorisation de données
- Introduction aux techniques de vectorisation04:20
- La vectorisation d'un texte avec CountVectorizer06:02
- La vectorisation contextuelle avec N-Grams04:12
- La technique TF-IDF02:15
- Implémenter TF-IDF03:28
- Le Feature Engineering en NLP02:04
- Ajout de nouvelles Features03:03
- Analyse et comparaison des Features01:49
- Modélisation NLP avec Random Forest
- Introduction à Random Forest06:16
- Développer un modèle NLP avec Random Forest04:18
- Mesurer les performances d'un modèle03:51
- La validation k-Fold avec Random Forest03:13
- Tester plusieurs paramètres du Random Forest 06:29
- Appliquer le GridSearchCV avec Random Forest02:59
- Homogénéiser les données avec TF-IDF04:22
- Calculer l'impact des Features04:23
- Sélectionner un modèle04:44
- Conclusion générale01:01
Auteur
Madjid KHICHANE En savoir plus
Après un diplôme d'ingénieur en Informatique obtenu à l'université Mouloud Mammeri à Tizi-Ouzou en Algérie puis un Master en Intelligence Artificielle - Systèmes multi-agents obtenu à l'université Paris 5 (René Descartes), Madjid KHICHANE a soutenu son PhD en Intelligence Artificielle en collaboration entre l'Université Claude Bernard Lyon 1 et IBM. Cette thèse doctorale a donné naissance à des innovations algorithmiques dans le domaine de l'apprentissage par renforcement qui sont aujourd’hui publiées dans des conférences internationales de premier niveau.
Caractéristiques
- Niveau Débutant à Initié
- Durée 2h18
- Parution février 2022
- Vidéo en ligne
- Ref. ENI : VTNLP
Téléchargements
- Des fichiers complémentaires (22 Ko)