Blog ENI : Toute la veille numérique !
En raison d'une opération de maintenance, le site Editions ENI sera inaccessible le mardi 10 décembre, en début de journée. Nous vous invitons à anticiper vos achats. Nous nous excusons pour la gêne occasionnée
En raison d'une opération de maintenance, le site Editions ENI sera inaccessible le mardi 10 décembre, en début de journée. Nous vous invitons à anticiper vos achats. Nous nous excusons pour la gêne occasionnée
  1. Livres et vidéos
  2. Traitement automatique du langage naturel avec Python
  3. Glossaire du NLP
Extrait - Traitement automatique du langage naturel avec Python Le NLP avec spaCy et NLTK
Extraits du livre
Traitement automatique du langage naturel avec Python Le NLP avec spaCy et NLTK Revenir à la page d'achat du livre

Glossaire du NLP

Introduction

Le domaine du NLP, comme souvent dans un sous-domaine de l’informatique, brille par une grande variété de terminologies et d’acronymes. Le but est ici de regrouper les principales définitions, sous forme de glossaire, ou de pense-bête.

L’idée a été de définir toutes les notions utilisées ou mentionnées dans le présent ouvrage, puis d’ajouter quelques définitions pouvant s’avérer utiles dans un contexte NLP.

A

Analyse de sentiments : processus d’identification et de catégorisation des opinions exprimées dans un texte pour déterminer si l’attitude de l’auteur est positive, négative ou neutre.

Apprentissage automatique (Machine Learning) : domaine de l’IA où les algorithmes améliorent leur performance à exécuter des tâches en apprenant à partir de données.

Apprentissage non supervisé : type d’apprentissage automatique où les modèles apprennent à partir de données non étiquetées.

Apprentissage profond (Deep Learning) : sous-ensemble de l’apprentissage automatique utilisant des réseaux de neurones à plusieurs couches pour apprendre à partir de grandes quantités de données.

Apprentissage supervisé : type d’apprentissage automatique où les modèles apprennent à partir de données étiquetées.

Adaptive Boosting (AdaBoost) : technique d’apprentissage automatique qui combine plusieurs modèles faibles pour créer un modèle robuste.

Algorithme de décision : processus algorithmique utilisé pour prendre des décisions basées sur les données, souvent utilisé en classification.

Analyse sémantique : processus d’interprétation et de compréhension du sens et de la signification des mots et des phrases dans un texte.

Arbre de décision : modèle prédictif sous forme d’arbre graphique, utilisé pour la prise de décision et la classification.

B

Bag of words (sac de mots) : modèle simplifié représentant un texte par la fréquence de chaque mot, sans considérer l’ordre ou la structure grammaticale.

BERT (Bidirectional Encoder Representations from Transformers) : technique de modélisation de langage basée sur les transformers, conçue pour comprendre le contexte des mots dans une phrase.

Bigramme : séquence de deux éléments, tels que des mots ou des phonèmes, dans un texte.

Boosting : méthode d’apprentissage ensembliste qui combine plusieurs modèles faibles pour améliorer la précision des prédictions.

C

CBOW (Continuous Bag of Words) : modèle Word2Vec où le but est de prédire un mot à partir de son contexte.

Chaîne de Markov : modèle mathématique décrivant un système qui change d’état de manière probabiliste.

Chatbot : programme informatique capable de simuler une conversation avec des utilisateurs humains.

ChatGPT : modèle de traitement du langage basé sur GPT, développé par OpenAI, conçu pour générer des réponses textuelles dans un cadre de chat.

Classification de textes : tâche de NLP consistant à assigner une ou plusieurs catégories à un texte en fonction de son contenu.

CNN (Convolutional Neural Network) : type de réseau de neurones utilisé principalement dans le traitement d’images.

Compréhension des énoncés implicites : capacité à comprendre des informations non explicitement mentionnées dans un texte.

Correction de textes : processus de détection et de correction d’erreurs dans des textes écrits.

Clustering hiérarchique : technique de regroupement de données basée sur la création d’une hiérarchie de clusters.

D

Descente de gradient : algorithme d’optimisation utilisé pour minimiser une fonction en se déplaçant graduellement vers le minimum.

Distance de Levenshtein : mesure de la différence entre deux séquences en comptant le nombre minimal de modifications nécessaires pour changer une séquence en l’autre.

Distance de Damerau-Levenshtein : variante de la distance de Levenshtein, incluant les transpositions de caractères adjacents.

E

Entraînement du modèle : processus d’apprentissage d’un modèle de Machine Learning à partir de données.

Évaluation du modèle : processus d’évaluation des performances d’un modèle de Machine Learning, souvent à l’aide de métriques spécifiques.

Extraction d’informations : processus d’identification automatique de structures et de motifs importants dans des documents textuels.

Document Embedding : technique de représentation de documents entiers sous forme de vecteurs.

F

Forêt aléatoire (Random Forest) : technique d’apprentissage ensembliste utilisant de multiples arbres de décision pour améliorer la fiabilité des prédictions.

F-Score : mesure qui combine la précision et le rappel (recall) pour évaluer la précision d’un modèle.

Feature : variable ou attribut utilisé dans la création de modèles de Machine Learning.

G

Gensim : bibliothèque Python open source pour la modélisation des sujets et la similarité des documents, utilisant des techniques de NLP et de modélisation de topics.

Génération de texte : technique de NLP permettant de créer automatiquement du texte cohérent et pertinent.

GloVe (Global Vectors for Word Representation) : modèle de représentation vectorielle des mots qui capture des informations globales sur les statistiques des mots dans un corpus.

GRU (Gated Recurrent Unit) : variante simplifiée de LSTM, utilisée dans les modèles de séquences.

GPT (Generative Pre-trained Transformer) : famille de modèles d’apprentissage profond développée par OpenAI, spécialisée dans la compréhension et la génération de texte.

H

Hyperparamètre : paramètre de configuration externe à un modèle de Machine Learning, ajusté pour améliorer les performances du modèle.

I

IA (intelligence artificielle) : discipline scientifique concernant les algorithmes qui permettent aux machines de réaliser des tâches qui nécessiteraient une intelligence humaine.

Index Inverse : structure de données utilisée pour stocker une association entre des mots et leur emplacement dans un ou plusieurs documents.

K

KMeans : algorithme de regroupement non supervisé qui regroupe les données en un nombre prédéterminé de clusters.

K-Nearest Neighbors (KNN) : algorithme de classification basé sur la proximité des données d’entrée avec les exemples de formation.

L

LDA (Latent Dirichlet Allocation) : modèle de topic modeling pour découvrir les sujets cachés dans un ensemble de documents.

Lemmatisation : processus de réduction des mots à leur forme de dictionnaire ou lemme.

Lemme : forme de base ou de dictionnaire d’un mot, obtenue par lemmatisation.

Lexème : unité de base de la langue, représentant un ensemble de formes grammaticales d’un même mot.

Linguistique : science étudiant le langage humain, y compris la structure, le sens et le contexte.

LLM (Large Language Model) : modèle de traitement de langage naturel...