Traitement automatique du langage naturel avec Python Le NLP avec spaCy et NLTK

Benoît PRIEUR

Les points forts du livre :

Un socle théorique solide pour maîtriser les fondations du NLP,
Une approche résolument pratique, orientée projet,
Une ouverture vers des cas d’usage actuels et variés du NLP

Consulter des extraits du livre en ligne Aperçu de la version papier

Niveau Confirmé à Expert
Nombre de pages 277 pages
Parution mai 2024

Niveau Confirmé à Expert
Parution mai 2024

Présentation

Cet ouvrage sur le traitement automatique du langage naturel (NLP) avec le langage Python est un guide pratique pour les professionnels, étudiants ou passionnés, ayant des bases minimales en Python, désireux d’explorer les horizons de l’intelligence artificielle et de la linguistique.

Dès les premières pages, le livre vous donne de solides bases en IA et en linguistique, essentielles pour comprendre le NLP. Vous serez guidé à travers les concepts clés et les outils de NLP, comme l’analyse syntaxique et le POS-tagging, qui sont présentés avec clarté et précision. Le livre couvre ensuite une gamme étendue de domaines d’application en NLP : la traduction automatique et la génération de texte, l’extraction de caractéristiques, la classification de documents, la reconnaissance de la parole ou encore l’analyse de sentiments.

L’approche très pratique du livre vous permet d’utiliser systématiquement spaCy ou NLTK au cours de mini-projets qui mobilisent également Jupyter, Gensim (Word2Vec), Scikit-Learn, Pytorch ou encore les modèles GPTs d’OpenAI. Le Web Scraping, un aspect crucial de la collecte de données en NLP, pour construire des jeux de données, est également abordé.

Que vous souhaitiez développer une application de reconnaissance vocale, analyser des sentiments sur les réseaux sociaux ou simplement approfondir vos connaissances en NLP, ce livre constitue une ressource utile, voire indispensable.

Caractéristiques

Livre (broché) - 17 x 21 cm
ISBN : 978-2-409-04498-4
EAN : 9782409044984
Ref. ENI : EINLP

Caractéristiques

HTML
ISBN : 978-2-409-04499-1
EAN : 9782409044991
Ref. ENI : LNEINLP

Téléchargements

Des fichiers complémentaires (2 919 Ko)

Table des matières

Introduction

Préface
Avant-propos

Introduction au TALN et à ses applications

Qu'est-ce que le traitement du langage naturel ?
1. 1. Présentation et définition
2. 2. Brève histoire du TALN
  1. a. Le test de Turing (1950)
  2. b. L’expérience Georgetown-IBM (1954)
  3. c. ELIZA (1964-1966)
  4. d. La base de données lexicale WordNet (1968)
  5. e. L’usage des réseaux de neurones (1990)
  6. f. L’usage de l’apprentissage profond (2010)
Les domaines d'application du TALN
1. 1. Traduction automatique
2. 2. Analyse de sentiments
3. 3. Reconnaissance de la parole
4. 4. Génération de textes
5. 5. Classification de textes
6. 6. Extraction d’informations
7. 7. Correction automatique
8. 8. Génération de dialogue (chatbot)
Les défis contemporains du TALN
1. 1. Compréhension et représentationde la sémantique
2. 2. Variabilité du langage
3. 3. Compréhension des énoncésimplicites
Conclusion

Quelques éléments de linguistique et d'IA

Introduction
La linguistique
1. 1. Signifié et signifiant
2. 2. Du corpus vers le lexème
  1. a. Introduction
  2. b. Corpus
  3. c. Document
  4. d. Paragraphe
  5. e. Phrase
3. 3. Des définitions pour comprendre le lexème
  1. a. Phone
  2. b. Phonème
  3. c. Morphème
  4. d. Mot-forme - morphème lexical
  5. e. Lemme - lexème
4. 4. Linguistique et sous-disciplines
L'intelligence artificielle et l'apprentissage automatique
1. 1. Introduction
2. 2. Apprentissage automatique
3. 3. Apprentissage profond
4. 4. Distinction entre apprentissages supervisé etnon supervisé
  1. a. Apprentissage supervisé
  2. b. Apprentissage non supervisé
5. 5. Le « pipeline » d’unapprentissage automatique
  1. a. Contexte de l’exemple
  2. b. Le « pipeline » del’apprentissage en NLP
Conclusion

Le traitement du langage naturel

Introduction
Le nettoyage préalable d'un modèle
1. 1. Nettoyage de base
2. 2. Stopwords
3. 3. Stemming (racinisation)
4. 4. Lemmatisation
La notion d'hyperparamètre
La vectorisation et le bag of words
Le topic modeling
Le word embedding
La fréquence d'apparition d'un mot
Les réseaux de neurones récurrents (RNN)
Les réseaux de neurones convolutionnels (CNN)
Les réseaux de neurones Transformers... et ChatGPT
BERT
L'évaluation de modèle TALN
Conclusion

Installation et contexte des outils utilisés

Introduction
Jupyter, méthodologie intéressante
1. 1. Propos
2. 2. Installation de Jupyter
3. 3. Utilisation de Jupyter
Les bibliothèques NumPy et pandas
1. 1. NumPy
2. 2. pandas
3. 3. Exemple illustrant NumPy et pandas
  1. a. Première cellule
  2. b. Deuxième cellule
  3. c. Troisième cellule
  4. d. Quatrième cellule
  5. e. Cinquième cellule
  6. f. Sixième cellule
  7. g. Septième cellule
  8. h. Huitième cellule
  9. i. Neuvième cellule
  10. j. Dixième cellule
spaCy
1. 1. Introduction
2. 2. spaCy et NLTK
3. 3. Procédure d’installation de spaCy
4. 4. Première utilisation de spaCy
  1. a. Tokenisation avec spaCy
  2. b. Reconnaissance des entités nomméesavec spaCy
  3. c. Étiquetage morphosyntaxique avec spaCy
NLTK
1. 1. Introduction
2. 2. Procédure d’installation de NLTK
3. 3. Première utilisation de NLTK
  1. a. Première cellule
  2. b. Deuxième cellule
  3. c. Troisième cellule
  4. d. Quatrième cellule
  5. e. Quatrième cellule
Gensim
1. 1. Introduction
2. 2. Installation de Gensim
3. 3. Exemple d’utilisation de Gensim
  1. a. Première et deuxième cellules
  2. b. Troisième cellule
  3. c. Quatrième cellule
  4. d. Cinquième cellule
  5. e. Sixième cellule
  6. f. Septième cellule
scikit-learn
1. 1. Introduction
2. 2. Installation
3. 3. Première utilisation de scikit-learn
  1. a. Première cellule
  2. b. Deuxième cellule
  3. c. Troisième cellule
  4. d. Quatrième cellule
  5. e. Cinquième cellule
Conclusion

Analyse lexicale, lemmatisation et racinisation

Introduction
Tokenisation avec NLTK et spaCy
1. 1. Tokenisation avec NLTK
2. 2. Tokenisation avec spaCy
Lemmatisation avec NLTK et spaCy
1. 1. Introduction
2. 2. Lemmatisation avec NLTK
3. 3. Lemmatisation avec spaCy
Racinisation avec NLTK et spaCy
1. 1. Introduction
2. 2. Racinisation avec NLTK
3. 3. Racinisation avec spaCy
Conclusion

Étiquetage morphosyntaxique

Introduction et définition
1. 1. Définition de l’étiquetage morphosyntaxique
2. 2. Utilité du POS tagging en vue de la phased’apprentissage
Étiquetage morphosyntaxique avec NLTK
Étiquetage morphosyntaxique avec spaCy
Conclusion

Extraction de caractéristiques de texte

Introduction
1. 1. Fréquence des mots (Bag-of-Words)
2. 2. TF-IDF (Term Frequency-Inverse Document Frequency)
3. 3. Reconnaissance d’entités nommées
4. 4. Analyse de sentiments
5. 5. Extraction de mots-clés
6. 6. Embeddings de phrases
Fréquence des mots (Bag-of-Words)
1. 1. Fréquence des mots avec NLTK
2. 2. Fréquence des mots avec spaCy
TF-IDF (Term Frequency-Inverse Document Frequency)
1. 1. Introduction
2. 2. Term Frequency (TF)
3. 3. Inverse Document Frequency (IDF)
4. 4. TF-IDF
5. 5. Exemple de TF-IDF avec NLTK et scikit-learn
Reconnaissance d'entités nommées
1. 1. Introduction
2. 2. Reconnaissance d’entités nomméesavec spaCy
3. 3. Reconnaissance d’entités nomméesavec NLTK
Analyse de sentiments
1. 1. Introduction
2. 2. Analyse de sentiments avec spaCy
3. 3. Analyse de sentiments avec NLTK
  1. a. Classificateur Naive Bayes
Extraction de mots-clés
1. 1. Introduction
2. 2. Exemple avec spaCy
Embeddings de phrases
1. 1. Introduction
2. 2. Principaux outils
  1. a. Word2Vec
  2. b. Doc2Vec
  3. c. GloVe (Global Vectors for Word Representation)
  4. d. BERT (Bidirectional Encoder Representations from Transformers)
3. 3. Exemple avec Word2Vec et NLTK
4. 4. Exemple avec BERT et spaCy
Conclusion

Génération de texte

Introduction à la génération de texte
Les modèles de chaînes de Markov
1. 1. Définition
2. 2. Fonctionnement dans le cadre de la générationde texte
  1. a. Modélisation des transitions
  2. b. Calcul des probabilités
  3. c. Génération de texte
3. 3. Génération de texte avec des chaînesde Markov et NLTK
4. 4. Génération de texte avec des chaînesde Markov et spaCy
Les modèles de langage neuronaux
1. 1. Explication théorique
2. 2. Exemple pratique
3. 3. Utilisation de GPT-3 via l’API d’OpenAI
  1. a. Introduction
  2. b. Exemple pratique

Reconnaissance de la parole

Introduction et définition
1. 1. La bibliothèque SpeechRecognition
Reconnaissance de la parole avec Python/NLTK
1. 1. Contexte et outils nécessaires à l’exemple
2. 2. Exemple en Python et NLTK
  1. a. Explication du code
  2. b. Fichier audio en anglais et plus long (1’35)
Reconnaissance de la parole avec Python/spaCy
1. 1. Introduction
2. 2. Le code adapté à spaCy

Traduction du texte et de la parole

Traduction de texte en NLP
1. 1. Définition et mise en perspective
2. 2. Processus théorique de la traduction de texte
Exemple pratique : traduction de l'anglais vers le français
1. 1. Introduction
2. 2. Le choix technologique
3. 3. Implémentation avec Hugging Face/MarianMT
Traduction du français vers l'allemand et réciproquement
Reconnaissance de la langue utilisée
1. 1. Introduction
2. 2. Stratégie en NLP
3. 3. Exemple simple à l’aide de NLTK
4. 4. Exemple élaboré avec LangDetectet spaCy

Correction orthographique/syntaxique et pipelines

Introduction
1. 1. Correction orthographique et syntaxique
2. 2. Pipelines avec spaCy
Première approche de la correction orthographique
1. 1. SpellChecker
2. 2. Exemple avec SpellChecker/NLTK
Notion de pipeline dans spaCy
1. 1. Présentation
2. 2. Composantes du pipeline
  1. a. Comment connaître le contenu par défautdu pipeline ?
  2. b. Clés principales utilisables dans le pipeline
  3. c. Exemple d’utilisation
  4. d. Considération sur l’industrialisation destraitements
Correction orthographique et syntaxique avec spaCy
1. 1. Contextual Spell Check
2. 2. Utilisation avec pipeline
3. 3. Utilisation de façon classique (sans pipeline)
Quelques éléments théoriques
1. 1. Distance de Levenshtein
2. 2. Distance de Damerau-Levenshtein
3. 3. N-grammes et modèles de Markov

Exploration de données et analyse de sentiments

Introduction
Exploration approfondie du jeu de données
1. 1. Lecture et découverte du dataset
2. 2. Répartition des « sentiments »
3. 3. Nettoyage du jeu de données
4. 4. Nuage de mots
5. 5. Analyse de la longueur des tweets
Analyse de sentiments
1. 1. Entraînement du modèle
  1. a. Imports de bibliothèques
  2. b. TF-IDF
  3. c. Division en données de test et d’entraînement
  4. d. Entraînement du modèle
  5. e. Prédiction sur l’ensemble de tests
  6. f. Indicateurs relatifs à l’évaluationdu modèle
2. 2. Évaluation de la qualité du modèleentraîné
3. 3. Utilisation du modèle de prédiction
  1. a. Nettoyage des trois tweets
  2. b. Vectorisation des trois tweets
  3. c. Prédiction pour chacun des trois tweets
Ensemble du code du chapitre

Lettres de Fusillés 1940-1944 sur Le Maitron en ligne

Introduction
Problématique identifiée
Obtention d'un jeu de données
1. 1. Contexte
2. 2. Web scraping
3. 3. Parsing de chaque lettre de Fusillé
4. 4. Corrections manuelles
5. 5. Nettoyage du jeu de données
Rapide exploration du jeu de données
Apprentissage du modèle, différentes approches
1. 1. Approche KMeans
  1. a. Code
  2. b. Analyse
2. 2. Approche LDA
  1. a. Code
  2. b. Analyse
3. 3. Approche avec Word2Vec
  1. a. Code
  2. b. Analyse
Conclusion

Glossaire du NLP

Introduction

Auteur

Benoît PRIEUR

Benoît PRIEUR est ingénieur logiciel, spécialisé en IA, Quantum et Web3. Il est l’auteur de plusieurs livres et contenus vidéos publiés aux Éditions ENI, traitant de sujet variés comme les langages (Rust, C#, OCaml), les frameworks (WPF, PyGame, PyQt, Flask), l’informatique quantique ou encore l’intelligence artificielle (NLP avec Python).