02/05
Kodjo GMaîtrisez la Data Science avec Python
1 avis
Consulter des extraits du livre en ligne
Aperçu de la version papier
Les points forts du livre :
- Un parcours d’apprentissage structuré et progressif, adapté à tous les niveaux,
- Une maîtrise pratique des outils Python incontournables en data science,
- Une initiation à l’intelligence artificielle via des applications concrètes de Machine Learning
- Niveau Confirmé à Expert
- Nombre de pages 512 pages
- Parution mars 2025
- Niveau Confirmé à Expert
- Parution mars 2025
Que vous soyez débutant ou en quête de nouvelles compétences, ce livre vous guide dans l’univers de la data science, une discipline qui transcende les frontières de la programmation pour extraire des informations pertinentes et concevoir des systèmes capables d’offrir des solutions concrètes dans tous les domaines.
Conçu comme un véritable mode d’emploi, ce livre vous accompagne à travers toutes les étapes du traitement et de l’analyse des données : collecte, préparation, exploration, modélisation prédictive et mise en application. Grâce à Python et ses bibliothèques incontournables, vous découvrirez une méthode claire et des exemples concrets pour transformer vos données en savoir et en valeur, de manière à vous permettre d’appliquer immédiatement les concepts abordés.
Vous apprendrez à :
• comprendre les mécanismes fondamentaux de la data science ;
• importer, manipuler et visualiser des données complexes avec des outils comme Pandas, Seaborn et Matplotlib ;
• analyser les variables avec Scipy et Statmodels ;
• appliquer des algorithmes de Machine Learning pour résoudre des problématiques réelles sur des données classiques, des images ou du texte ;
• automatiser et structurer vos analyses dans un environnement riche et accessible.
Caractéristiques
- Livre (broché) - 17 x 21 cm
- ISBN : 978-2-409-04872-2
- EAN : 9782409048722
- Ref. ENI : EIPYTDATA
Caractéristiques
- HTML
- ISBN : 978-2-409-04873-9
- EAN : 9782409048739
- Ref. ENI : LNEIPYTDATA
Téléchargements
Avant-propos
- Introduction
Introduction
- Des données partout
- 1. Provenance des données
- a. Le Web
- b. Les données privées
- c. Créons nos propres données
- 1. Provenance des données
- 2. Forme des données
- 3. Volumétrie
- 1. Feature engineering
- a. La collecte des données
- b. Le nettoyage
- c. L’exploration
- d. L’analyse
- a. La sélection et la préparation desdonnées
- b. La séparation des données
- c. La phase d’expérimentation et d’évaluation
- d. La finalisation
- e. La présentation des résultats
- f. La maintenance
- 1. Les atouts naturels de Python
- 2. Les librairies spécialisées
- 3. Plus encore
Bases de Python et environnements
- Les notebooks
- 1. Principe du notebook
- a. Fonctionnement par cellule
- b. Possibilité d’annoter le code
- c. Affichage de contenu interactif
- 1. Principe du notebook
- 2. Comment créer un notebook
- a. Installation directe du module Jupyter
- b. Installation de la suite Anaconda
- c. Google Colaboratory
- 1. Acquisition des données
- a. Définition du dossier de travail
- b. Accès aux données
- a. Changement du type
- b. Gestion des dates
- c. Taille du stockage par type
- a. PEP8
- b. Optimisation du code
- 1. Gestion des librairies
- a. Installation
- b. Mise à jour
- c. Suppression
- a. Déploiement d’un environnement virtuel
- b. Utilisation d’un environnement virtuel dansun notebook
- a. Le pipeline
- b. La programmation orientée objet (POO)
- c. Les décorateurs
- d. La gestion des erreurs
Préparer les données avec Pandas et Numpy
- Pandas, la bibliothèque Python incontournable pour manipuler les données
- 1. Installation
- 2. Structure et type de données
- 3. Possibilités offertes
- Numpy, le pilier du calcul numérique
- 1. La structure ndarray
- a. Une structure homogène
- b. L’indexation
- c. La modification des structures
- d. La vectorisation
- 1. La structure ndarray
- 2. La puissance au service du calcul scientifique
- 3. Les possibilités offertes par Numpy
- a. Opérations mathématiques de base
- b. Algèbre linéaire et calculs statistiques
- c. Création d’images
- 1. Acquisition et contrôle des données
- a. Les formats classiques des fichiers de données
- b. L’acquisition de données en pratique
- a. Concaténation
- b. Fusion
- c. Agrégation
- d. Export des données
- 1. Sélection des données
- 2. Contrôle de la qualité des données
- a. Définition du bon type de données
- b. Gestion des problèmes d’encodage
- a. Z-score et méthode des quartiles
- b. Local Outlier Factor
- a. Suppression des valeurs
- b. Changement de la distribution
- c. Conservation des valeurs aberrantes
- a. Imputation par la valeur la plus fréquente(modale)
- b. Imputation par la moyenne ou la médiane
- c. Imputation par régression
- d. Imputation basée sur les plus proches voisins(KNN)
- e. Autres types d’imputations
DataViz avec Matplotlib, Seaborn, Plotly
- Introduction à la visualisation des données
- 1. La visualisation au service de la compréhension
- 2. La méthodologie
- a. Contextualisation des recherches
- b. Public concerné
- c. Les nombreuses possibilités de graphiques
- d. Règles à respecter concernant lesgraphiques
- 1. Matplotlib
- a. Présentation de Matplotlib
- b. Premiers pas avec Matplotlib
- c. Personnalisation et options avancées
- a. Présentation de Seaborn
- b. Simplification de l’exploration des relationscomplexes
- a. La version simplifiée de Plotly
- b. L’interactivité de Plotly-Express
- c. L’avenir de Plotly-Express
- 1. Les enjeux
- a. Le cheminement vers le bon graphique
- b. Les postes importants
- c. Les contraintes
- a. Graphiques univariés pour les donnéesnumériques
- b. Graphiques univariés pour les donnéescatégorielles
- c. Récapitulatif
- a. Graphiques bivariés portant sur des variablesde même nature
- b. Graphiques bivariés portant sur des variablesde natures différentes
- c. Graphiques multivariés
- a. La cartographie
- b. Les données temporelles
- c. Les autres solutions graphiques
Analyse des données
- Introduction à l’analyse des données
- 1. Définition et rôle de l’analysede données
- 2. Enjeux
- a. Innovation et créativité
- b. Prise de conscience des contraintes spécifiques
- c. Amélioration de la prise de décision
- 1. Description des variables quantitatives
- a. Mesures de tendance centrale
- b. Mesures de dispersion
- c. La distribution
- a. Fréquence, proportion et gestion des modalitésrares
- b. Tableau de contingence
- c. Indices de diversité
- a. Concepts de base
- b. Hypothèses nulles et alternatives
- c. P-value
- d. Significativité
- e. Marge d’erreur et impact des effectifs surl’intervalle de confiance
- 1. Les capacités limitées des modulesclassiques
- 2. Les modules spécialisés en statistiques
- a. Scipy
- b. Statmodels
- 1. Contexte et objectif
- 2. Les Q-Q plots
- a. Définition et tracé du graphique
- b. Interprétation
- a. Principe de fonctionnement
- b. Les différents tests de normalité
- 1. Tests bivariés entre des variables de mêmenature
- a. Corrélations entre variables numériques
- b. Tests d’indépendance entre variablescatégorielles
- a. Tests de comparaison à deux modalités
- b. Tests de comparaison à trois modalitésou plus
- c. Conclusions sur les tests bivariés
- 1. Analyse de la variance multivariée (MANOVA)
- a. Présentation et champs d’applications
- b. Cas pratique d’utilisation
- a. Un des piliers de la data science
- b. Utilisation sur un cas pratique
- c. L’éboulis des valeurs propres
- d. Le cercle des corrélations
- e. Le graphique des individus
Le Machine Learning avec Scikit-Learn
- Introduction au Machine Learning : concepts et types de modèles
- 1. L’apprentissage non supervisé
- a. Définition
- b. La réduction dimensionnelle
- c. Le clustering
- 1. L’apprentissage non supervisé
- 2. L’apprentissage supervisé
- a. Introduction
- b. Régression
- c. Classification
- 3. Le texte et l’image
- a. Définitions des concepts
- b. Le texte et le NLP
- c. Le traitement des images
- 1. Une offre simple et complète de fonctionnalités
- 2. Des méthodes communes aux différentesfonctions
- a. La méthode fit()
- b. Les méthodes transform et fit_transform
- c. La méthode predict
- d. La méthode score()
- e. Les méthodes get_params et set_params
- 1. La préparation des données
- a. La séparation des variables explicativesde la variable cible
- b. La séparation entre données d’entraînementet données de test
- c. Les transformations des variables
- d. La mise en œuvre ciblée des transformations
- e. Finalisation de la préparation des données
- a. Définition des métriques pour l’évaluation
- b. Les algorithmes d’optimisation d’hyperparamètres
- c. Le modèle de base (DummyRegressor et DummyClassifier)
- d. Tests des divers algorithmes avec différentescombinaisons de paramètres
- e. L’évaluation et le choix final
L’apprentissage supervisé
- Introduction
- Les familles d’algorithmes
- 1. Les algorithmes linéaires
- a. Les régressions
- b. Les régressions régularisées
- c. Les machines à vecteur de support (SVM)
- 1. Les algorithmes linéaires
- 2. Les algorithmes semi-linéaires (modèles à noyau)
- 3. Les algorithmes non linéaires
- a. Les plus proches voisins (KNN)
- b. L’arbre de décision
- c. Les méthodes ensemblistes
- d. Les réseaux de neurones
- 1. Préparation des données
- a. Import des données
- b. Séparation des variables explicatives dela variable cible
- c. Séparation entre données d’entraînementet de test
- d. Les transformations des variables
- e. Finalisation de la préparation des données
- a. Modèle de base (DummyRegressor)
- b. Test des algorithmes concurrents
- c. Le pipeline
- 1. Préparation des données
- a. Import des données
- b. Séparation entre les variables explicativeset la variable cible
- c. Séparation entre données d’entraînementet de test
- d. Transformation des colonnes
- e. Remise en forme des noms
- f. Ajustement du type des variables
- a. Modèle de base (DummyClassifier)
- b. Algorithmes concurrents
L’apprentissage non supervisé
- Introduction
- La réduction dimensionnelle
- 1. L’ACP en pratique pour analyser
- a. Préparation des données
- b. L’éboulis des valeurs propres
- c. Le cercle des corrélations
- d. Le graphique des individus
- 1. L’ACP en pratique pour analyser
- 2. L’ACP en pratique pour modéliser
- 3. Les autres algorithmes de réduction dimensionnelle
- 1. La pratique du clustering avec le K-means
- a. Acquisition et préparation des données
- b. Les tests pour déterminer le nombre de clusters
- c. Choix du clustering
- d. Le score ARI
- a. GMM
- b. Meanshift
- c. DBSCAN
Modéliser le texte et l’image
- La modélisation du texte
- 1. Les modules du NLP
- a. NLTK
- b. TextBlob
- c. spaCy
- 1. Les modules du NLP
- 2. Mise en pratique de la NLP
- a. Prétraitement des données
- b. Les extracteurs de caractéristiques
- c. La modélisation
- 3. Introduction aux modèles avancésen NLP
- a. Les représentations de mots
- b. L’encodage des phrases
- c. Transformers et modèles contextuels
- d. Les Larges Languages Models (LLM)
- 1. Les solutions de Machine Learning destinéesaux images
- a. Pillow pour s’initier au prétraitement
- b. Scikit-image
- c. OpenCV
- a. Segmenter
- b. Détecter
- c. Classifier
- a. Principe de fonctionnement du CNN
- b. Transfer learning
- c. Initiation à Tensorflow et Keras
- d. Exemples d’utilisation des CNN
Mener un projet de data science avec Python
- Introduction
- Le sujet : déterminer le prix des véhicules d’occasion
- 1. Les données
- 2. Les étapes du projet
- a. Le notebook de l’EDA
- b. Le notebook de modélisation
- c. Les aléas des données
- 1. Notebook 1 : EDA
- a. Acquisition et premiers contrôles des données
- b. Nettoyage des données
- c. Exploration et analyse
- a. Acquisition et sélection des données
- b. Modélisation
- c. Résultats
- a. Acquisition et sélection des données
- b. Modélisation
- c. Résultats
Conclusion
- Le rôle central des données et de leur compréhension
- Des évolutions qui transforment et accélèrent tout
- 1. L’évolution du matérieltechnologique
- 2. L’amélioration des modèles
- 3. La diffusion dans le grand public et la prise en compteprogressive des enjeux
- Importance de la théorie et invitation à l’exploration
Éric DEMANGEL
Eric DEMANGEL est data scientist freelance depuis 2020 après avoir accumulé 11 années d'expérience en tant que data analyste dans une société d’études de marché. Passionné par l'enseignement, il a également endossé le rôle de mentor en data, avec lequel il guide ses étudiants avec une curiosité insatiable et un désir constant de transformer les données en savoir. A travers ses enseignements, il s'efforce de rendre ce domaine complexe accessible à tous, en simplifiant ses concepts et en partageant son expertise de manière claire et pédagogique.
En savoir plus

