1. Livres et vidéos
  2. Data Scientist et langage R - Guide d'autoformation à l'exploitation intelligente des Big Data (2e édition)

Data Scientist et langage R Guide d'autoformation à l'exploitation intelligente des Big Data (2e édition)

  • Accès illimité 24h/24, 7J/7
  • Tous les livres en ligne, les vidéos et les cours enregistrés ENI
  • Plus de 10 nouveautés livres et vidéos chaque mois
  • Les nouveautés disponibles le jour de leur sortie
  • Accès 100% en ligne
  • En stock
  • Expédié en 24h00
  • Livraison à partir de 0,01 €
  • Version en ligne offerte
  • 1 h d'accès gratuit à tous nos livres et vidéos pour chaque commande
  • Accessible immédiatement
  • Version HTML
  • Accès illimité 24h/24, 7J/7

Présentation

Tous les experts s'accordent à dire que 90% des usages du Big Data proviennent de l'utilisation des data sciences et que celles-ci contribuent à l'essor de l'Intelligence Artificielle. L'objectif de ce livre est de proposer une formation complète et opérationnelle sur les data sciences qui permet de délivrer des solutions via l'usage du langage R.

Ainsi, les auteurs proposent un parcours didactique et professionnalisant qui, sans autre pré-requis qu'un niveau Bac en mathématiques et une grande curiosité, permet au lecteur :

-  de s'intégrer à une équipe de data scientists,
-  d'aborder la lecture d'articles de recherche en IA ou data sciences,
-  le cas échéant de développer en langage R, y compris ses propres algorithmes, des graphiques complexes et des tableaux de bord interactifs,
-  ou tout simplement de manager une équipe projet comprenant des data scientists, en étant à même de dialoguer avec eux de façon efficace.

Le livre ne se cantonne pas aux algorithmes classiques du "machine learning" (arbres de décision, réseaux neuronaux…), il aborde divers sujets importants comme le traitement du langage naturel, les séries temporelles, la logique floue, la manipulation des images.

Avec cette nouvelle édition, le livre s'enrichit de nouveaux sujets comme le développement full-stack avec R (bases de données, processus parallèles, programmation fonctionnelle, API), le partage de résultats d'analyse avec R Markdown et les dashboard Shiny, l'étude des représentations cartographiques et l'implémentation de graphes Deep Learning avec TensorFlow.

La dynamique de l'ouvrage soutient le lecteur pas à pas dans sa découverte des data sciences et l'évolution de ses compétences théoriques et pratiques. Le praticien en exercice y découvrira également de nombreux savoir-faire à acquérir et le manager pourra surfer sur l'ouvrage après avoir lu attentivement le bestiaire des data sciences de l'introduction, qui sans vulgarisation excessive présente le sujet en faisant l'économie de mathématiques ou de formalismes dissuasifs.

Les programmes R décrits dans le livre sont accessibles en téléchargement sur le site www.editions-eni.fr et peuvent être exécutés pas à pas.


Les chapitres du livre :
Introduction – Premiers pas avec R – Maîtriser les bases – Techniques et algorithmes incontournables – Cadre méthodologique du data scientist – Traitement du langage naturel – Graphes et réseaux – Autres problèmes, autres solutions – Feature Engineering – Compléments utiles – Full Stack R – Partager ses analyses – Cartographie – TensorFlow – Annexes – Conclusion

Table des matières

  • Introduction
    • 1. Data scientist, un métier à la mode
    • 2. Les data sciences
    • 3. Le Big Data
    • 4. La dynamique de cet ouvrage
      • 4.1 Nos objectifs
      • 4.2 La structure de l'ouvrage
        • 4.2.1 Les deux parcours complémentaires
        • 4.2.2 Ressources complémentaires à utiliser
    • 5. Petit bestiaire des data sciences
      • 5.1 Les fondamentaux
        • 5.1.1 Apprentissage et classification
        • 5.1.2 Petit vocabulaire graphique du machine learning
        • 5.1.3 Régression
        • 5.1.4 Régression linéaire généralisée
        • 5.1.5 Arbres de décision, prune, élagage
        • 5.1.6 Clustering, k-means
        • 5.1.7 k-NN
        • 5.1.8 Modèles paramétriques
        • 5.1.9 Lazy algorithm (algorithme paresseux)
        • 5.1.10 Overfitting : sur-détermination, sur-apprentissage
        • 5.1.11 Validation croisée, régularisation, bagging
        • 5.1.12 Optimisation, méthode du gradient
        • 5.1.13 Algorithme glouton (greedy algorithm)
        • 5.1.14 Programmation linéaire, simplexe, point intérieur
        • 5.1.15 Estimation via la méthode de Monte-Carlo
        • 5.1.16 Entropie, indépendance et information mutuelle
        • 5.1.17 Discrétisation
      • 5.2 Méthodes "ensemble"
        • 5.2.1 Random forest
        • 5.2.2 AdaBoost (adaptative boosting)
      • 5.3 Lois de probabilité et distribution
        • 5.3.1 Généralités
        • 5.3.2 Petit bestiaire des lois de probabilité
      • 5.4 Les graphes
        • 5.4.1 Vocabulaire de base
        • 5.4.2 Conversion d'un tableau d'observations en graphe, similarité
    • 6. Informatique professionnelle et data sciences
      • 6.1 La technologie
      • 6.2 Business Intelligence versus Big Data
        • 6.2.1 Différences en termes d'architecture
        • 6.2.2 Différences en termes d'usage
        • 6.2.3 Synthèse
    • 7. Notations
      • 7.1 Notations des paramètres
      • 7.2 Autres notations
        • 7.2.1 Fonctions et applications ... f(x), d(x,y) ...
        • 7.2.2 Quelques confusions possibles
    • 8. À vous de jouer !
  • Premiers pas avec R
    • 1. Installation des composants
      • 1.1 Installation et lancement de R
      • 1.2 Installation et lancement de RStudio
      • 1.3 Installation de nouveaux packages
      • 1.4 Installation de packages : compléments
    • 2. Prise en main de R
      • 2.1 R, une calculatrice efficace
      • 2.2 R, un langage vectorisé
      • 2.3 Fonctions agissant sur des vectors
        • 2.3.1 Une première analyse rapide des données
        • 2.3.2 Quelques statistiques simples sur les vectors
        • 2.3.3 Trier un vector
        • 2.3.4 Diverses fonctions avec somme, produit, min et max
      • 2.4 Types de données simples
        • 2.4.1 Les booléens
        • 2.4.2 Les ensembles
        • 2.4.3 Les listes
        • 2.4.4 Les facteurs
        • 2.4.5 Les tableaux
      • 2.5 Les fonctions
        • 2.5.1 Création et utilisation d'une fonction simple
        • 2.5.2 Création d'un opérateur à partir d'une fonction de deux variables
        • 2.5.3 Usage des fonctions et portée des variables
        • 2.5.4 Application des fonctions sur les matrices : apply
        • 2.5.5 Compléments utiles
      • 2.6 Structures de contrôle
        • 2.6.1 Des instructions communes avec d'autres langages
        • 2.6.2 Parcourir une matrice via des boucles for
      • 2.7 Les chaînes de caractères
      • 2.8 Le formatage des nombres
      • 2.9 Les dates et les temps
      • 2.10 Mesure de la durée d'un algorithme
      • 2.11 Les nombres complexes
        • 2.11.1 Manipulations de base des nombres complexes
        • 2.11.2 Visualisation de nombres complexes
      • 2.12 Programmation orientée objet
        • 2.12.1 Classes et objets, en bref
        • 2.12.2 Constructeurs
        • 2.12.3 Héritage
        • 2.12.4 Objets mutables
        • 2.12.5 Gestion de pile : implémentation orientée objet avec RC
    • 3. Manipulation des données
      • 3.1 Lecture des données : les bases
      • 3.2 Manipulation des colonnes d'un data.frame
      • 3.3 Calculs simples sur un data.frame
        • 3.3.1 Calculs sur les colonnes et les lignes
        • 3.3.2 Manipulation des lignes
        • 3.3.3 Application : comparaison effectifs de classes et Khi-2
        • 3.3.4 Création de colonnes calculées
        • 3.3.5 Tri d'un data.frame via order()
      • 3.4 Analyse visuelle des données
        • 3.4.1 Visualisation simple des données
        • 3.4.2 Visualisation des variables numériques 2 à 2 avec mention des classes
        • 3.4.3 Corrélations entre variables numériques
        • 3.4.4 Séparation par classe, ggplot2, qplot
        • 3.4.5 Visualisation 3D, relation entre trois variables numériques
        • 3.4.6 Graphiques par paires
        • 3.4.7 Boîtes à moustaches et tentative d'élimination des outliers
        • 3.4.8 Création d'un modèle par arbre de décision
  • Maîtriser les bases
    • 1. Se mettre en harmonie avec les données
      • 1.1 Quelques notions fondatrices
        • 1.1.1 Phénomène aléatoire
        • 1.1.2 Probabilité, variable aléatoire et distribution
        • 1.1.3 Un peu de mathématiques : notations et définitions utiles
        • 1.1.4 Moments d'une variable aléatoire discrète X
        • 1.1.5 Premières considérations sur les erreurs et estimations
      • 1.2 Se familiariser avec ses données
        • 1.2.1 R Commander
        • 1.2.2 Rattle
    • 2. Matrices et vecteurs
      • 2.1 Conventions, notations, utilisations basiques
      • 2.2 Matrices, vecteurs : vers une introduction à la notion d'apprentissage supervisé
      • 2.3 Plus loin dans la manipulation des matrices avec R
        • 2.3.1 Opérations basiques
        • 2.3.2 Quelques savoir-faire utiles sur les matrices de R
        • 2.3.3 Normes de vecteurs et normes de matrices
        • 2.3.4 Matrices et vecteurs : diverses syntaxes utiles
    • 3. Estimations
      • 3.1 Positionnement du problème d'estimation
        • 3.1.1 Formulation générale du problème
        • 3.1.2 Application et reformulation du problème d'estimation
      • 3.2 Les indicateurs d'écart utilisés en machine learning
        • 3.2.1 MSE, RMSE, SSE, SST
        • 3.2.2 MAE, ME
        • 3.2.3 NRMSE/NRMSD, CV_RMSE
        • 3.2.4 SDR
        • 3.2.5 Accuracy, R2
    • 4. Mise en pratique : apprentissage supervisé
      • 4.1 Préparation
      • 4.2 Tester des hypothèses, p_value
        • 4.2.1 Analyse graphique interactive avec iplots
        • 4.2.2 Test de Breush-Pagan et zoom sur p_value
      • 4.3 Création d'un modèle (régression linéaire multiple)
      • 4.4 Établissement d'une prédiction
      • 4.5 Étude des résultats et représentations graphiques
      • 4.6 Indicateurs courants - calculs
      • 4.7 Étude du modèle linéaire généré
      • 4.8 Conclusion sur le modèle linéaire
      • 4.9 Utilisation d'un modèle "Random Forest"
  • Techniques et algorithmes incontournables
    • 1. Constituer sa boîte à outils
    • 2. Représentation graphique des données
      • 2.1 Un graphique "simple"
      • 2.2 Histogrammes évolués
        • 2.2.1 Distribution multiclasse
        • 2.2.2 Mixture de plusieurs distributions par classe
        • 2.2.3 Visualisation de la densité d'une distribution
        • 2.2.4 Une autre mixture par classe
        • 2.2.5 Une variable, mais un histogramme pour chaque classe
        • 2.2.6 Graphique avec une densité par classe
      • 2.3 Diagramme par paires et à facettes
        • 2.3.1 Diagramme par paires, version simple
        • 2.3.2 Classes en configuration XOR
        • 2.3.3 Diagramme par paires avec "factors"
        • 2.3.4 Facettes et échelle logarithmique
    • 3. Machine learning : pratiques courantes
      • 3.1 Parcours théorique accéléré
        • 3.1.1 Linéarité
        • 3.1.2 Erreurs in et out, notion de VC dimension
        • 3.1.3 Hyperplans, séparabilité avec marges
        • 3.1.4 Kernel Trick, noyaux, transformations, feature space
        • 3.1.5 Problèmes de la régression : introduction à la régularisation
      • 3.2 Pratique par pratique
        • 3.2.1 Cross validation : k-fold CV
        • 3.2.2 Naive Bayes
        • 3.2.3 C4.5 et C5.0
        • 3.2.4 Support Vector Machines (SVM)
        • 3.2.5 Clusterisation, k-means
    • 4. Où en sommes-nous dans notre apprentissage ?
      • 4.1 Vos acquis opérationnels
      • 4.2 Les lacunes éventuelles à combler maintenant
  • Cadre méthodologique du data scientist
    • 1. Le problème méthodologique au niveau du projet
      • 1.1 L'expression du besoin
      • 1.2 La gestion du projet
    • 2. Le cycle interne des data sciences
      • 2.1 Revue de détail du problème posé
      • 2.2 Travaux préliminaires sur les données
        • 2.2.1 Exigences sur les données
        • 2.2.2 Collecte, nettoyage et compréhension des données
      • 2.3 Le cycle de modélisation
        • 2.3.1 Feature engineering
        • 2.3.2 Modélisation et évaluation
        • 2.3.3 Choix du meilleur modèle
        • 2.3.4 Test, interprétation et confrontation avec le métier
      • 2.4 Préparation de l'industrialisation et déploiement
      • 2.5 Préparation des itérations suivantes
        • 2.5.1 Éléments à prendre en compte
        • 2.5.2 Documentation gérée par les data scientists
    • 3. Compléments méthodologiques
      • 3.1 Classifier vos objectifs
      • 3.2 Trucs et astuces
  • Traitement du langage naturel
    • 1. Positionnement du problème
    • 2. Analyse sémantique latente et SVD
      • 2.1 Aspects théoriques
        • 2.1.1 SVD : généralités
        • 2.1.2 Une justification de la décomposition SVD
        • 2.1.3 SVD dans le contexte LSA
        • 2.1.4 Interprétation
        • 2.1.5 Alternative non linéaire, Isomap (MDS, géodésique, variété, manifold)
      • 2.2 Mise en pratique
        • 2.2.1 Initialisation
        • 2.2.2 Au cœur de LSA
        • 2.2.3 Résultats
        • 2.2.4 Manipulations, interprétations récréatives et non fondées
  • Graphes et réseaux
    • 1. Introduction
    • 2. Premiers pas
      • 2.1 Quelques notions et notations complémentaires basiques
      • 2.2 Manipulations simples de graphes avec R
      • 2.3 Structure des graphes
    • 3. Graphes et réseaux (sociaux)
      • 3.1 Analyse des réseaux sociaux : concepts de base
      • 3.2 Mise en pratique
      • 3.3 Détection de communautés
  • Autres problèmes, autres solutions
    • 1. Séries temporelles
      • 1.1 Introduction
      • 1.2 Modèle stationnaire
        • 1.2.1 Processus stationnaire : les bases
        • 1.2.2 Processus autorégressif AR : aller plus loin
        • 1.2.3 Considérations (très) utiles
      • 1.3 Processus non stationnaires
        • 1.3.1 Le modèle ARIMA
        • 1.3.2 Processus saisonniers : SARIMA
        • 1.3.3 Modèles ARCH et GARCH
        • 1.3.4 Convolution et filtres linéaires
      • 1.4 Mise en pratique
        • 1.4.1 Les bases de la manipulation des séries temporelles en R
        • 1.4.2 Étude de séries temporelles
        • 1.4.3 Prédictions sur ARIMA (AR MA SARIMA)
      • 1.5 Mini-bestiaire ARIMA
    • 2. Systèmes flous
      • 2.1 Introduction
      • 2.2 La logique floue en pratique (systèmes experts)
    • 3. Essaim (swarm)
      • 3.1 Swarm et optimisation : l'algorithme PSO
        • 3.1.1 Présentation de PSO
        • 3.1.2 Description de PSO
      • 3.2 Mise en pratique de PSO
  • Feature Engineering
    • 1. Feature Engineering, les bases
      • 1.1 Positionnement du problème
      • 1.2 Ce sur quoi il faut être très attentif
        • 1.2.1 La qualité de la distribution
        • 1.2.2 La nature des features
      • 1.3 Maîtriser la dimensionnalité
      • 1.4 Une solution éprouvée : la PCA
      • 1.5 Un exemple simple d'utilisation de la PCA
      • 1.6 Les valeurs inconnues et les features mal conditionnées
      • 1.7 Création de nouvelles features
      • 1.8 En guise de conclusion
    • 2. PCA classique, éléments mathématiques
    • 3. Réduction des données (data reduction)
    • 4. Réduction de la dimensionnalité et entropie
      • 4.1 Description théorique du problème
      • 4.2 Implémentation en R et discussion
  • Compléments utiles
    • 1. GAM : généralisation de LM/GLM
    • 2. Manipulation d'images
      • 2.1 Création, visualisation, lecture et écriture d'images
      • 2.2 Transformation des images
        • 2.2.1 Exemples de manipulation de la couleur et des intensités
        • 2.2.2 Exemples de manipulation de la géométrie de l'image
        • 2.2.3 Application de filtres sur les images
    • 3. Comment créer un échantillon : LHS (hypercube latin)
    • 4. Travailler sur des données spatiales
      • 4.1 Variogramme
        • 4.1.1 Champ et variable régionalisée
        • 4.1.2 Détermination du variogramme
      • 4.2 Krigeage (kriging)
        • 4.2.1 La théorie, en bref
        • 4.2.2 Implémentation en R
    • 5. Savoir-faire utiles
      • 5.1 Tracer une courbe ROC
      • 5.2 Un réseau neuronal (premiers pas vers le deep learning)
    • 6. Gradient Boosting et Generalized Boosted Regression
      • 6.1 Les grands principes
      • 6.2 Les paramètres et les usages (package GBM)
        • 6.2.1 Covariance
        • 6.2.2 Loss
        • 6.2.3 Optimisation de l'algorithme
      • 6.3 Mise en pratique
  • Full Stack R
    • 1. Pourquoi ce nouveau chapitre ?
    • 2. Programmation fonctionnelle et/ou défensive
    • 3. Persistance, bases de données et R
    • 4. Parallélisme
    • 5. Collecter des données externes
    • 6. Créer une API avec R
  • Partager ses analyses
    • 1. Rédiger en Markdown
      • 1.1 Introduction
      • 1.2 Syntaxe Markdown
    • 2. Création d'un fichier R Markdown
      • 2.1 En-tête R Markdown
      • 2.2 Mise en forme du code
      • 2.3 Insertion et exécution de code R
      • 2.4 Exécuter du code R
      • 2.5 Générer le rapport
      • 2.6 Publier son rapport avec RPubs
    • 3. Créer sa première application Shiny
      • 3.1 Introduction
      • 3.2 Installation dans RStudio et préambule
      • 3.3 Organisation des fichiers de l'application
      • 3.4 Syntaxe des inputs et outputs
      • 3.5 Mise en page et organisation visuelle du contenu
      • 3.6 Modifier le thème de l'application
      • 3.7 Générer l'application
      • 3.8 Déployer l'application sur le Web
      • 3.9 Shiny Dashboard
  • Cartographie
    • 1. Pourquoi étudier les représentations cartographiques ?
    • 2. Accéder à l’information géographique
    • 3. Création de cartes statiques avec R
    • 4. Création de cartes dynamiques avec R
  • TensorFlow
    • 1. Le deep learning selon Google
    • 2. Installer et invoquer TensorFlow
  • Annexes
    • 1. De l'utilité de ces annexes
    • 2. Formulas
    • 3. Stratégies suivant la nature des données
      • 3.1 Comptages
      • 3.2 Proportions
      • 3.3 Variable de réponse binaire
      • 3.4 Données induisant un modèle mixte (mixed effect)
      • 3.5 Graphes
      • 3.6 Analyse de survie (survival analysis)
    • 4. Filtres (sur images)
    • 5. Distances
    • 6. Astuces et petits conseils
      • 6.1 Sur les tests
      • 6.2 Gestion des variables
      • 6.3 Analyse et manipulation de résultats
        • 6.3.1 Résidus
        • 6.3.2 Manipulation des modèles
    • 7. Packages et thèmes à étudier
      • 7.1 Créer son propre package
      • 7.2 Créer des jointures comme en SQL
      • 7.3 Règles d'association
      • 7.4 Exporter un modèle
      • 7.5 Tenseurs
      • 7.6 SVM pour la détection de nouveautés (novelty detection)
    • 8. Vocabulaire et "tricks of the trade"
      • 8.1 Compléments sur les bases du machine learning
      • 8.2 Compléments sur les aspects bayésiens
      • 8.3 Vocabulaire (dont anglais) des modèles gaussiens
    • 9. Algorithmes à étudier
    • 10. Quelques formulations d'algèbre linéaire
    • 11. Bibliographie
    • Conclusion
    • Index

Auteurs

Eva LAUDEEn savoir plus

Eva LAUDE est consultante R&D Data Science chez BlueDsX, le laboratoire Big Data et Data sciences du groupe BlueSoft. Titulaire depuis 2015 d'une certification IBM professional (relative aux technologies Big Data), elle intervient au sein du laboratoire sur des sujets comme le criblage automatique de molécules pour identifier des composants actifs et aider la conception de nouveaux médicaments (High-Throughput-Screening) ou la recherche de patterns liés à la cybersécurité. En tant que chef de projet elle anime également des projets comportant une part de data sciences (marketing digital, CRM, réseaux sociaux, intelligence économique, gamification et; IA). Geek et passionnée de R et de DataViz, elle n'hésite pas à partager ses connaissances au travers de nombreux tutoriels.

Henri LAUDEEn savoir plus

Henri LAUDE est un professionnel reconnu des Computer Sciences. Il a encadré de nombreux travaux de R&D autour des data science, connexes à l'intelligence économique, à l'IA, à l'automatisation robotique, aux FinTech, à la détection de fraudes et à la cyberdéfense. Président de l'APIEC (Association pour la Promotion de l'Intelligence Economique), il est co-fondateur de la startup Advanced Research Partners, dans laquelle il anime la conception d'algorithmes très novateurs primés au Data Intelligence Forum sous le nom DxM (pour Deus eX Machina). Il est également Chief Data Scientist des startups ExorIAr (un exosquelette robotique intelligent), SysScale (un écosystème complet de développement digital/devops/IA) et du Laboratoire de Data Sciences StradaLabs (Intelligence Artificielle et IOT pour les transporteurs et logisticiens).

Caractéristiques

  • Niveau Expert
  • Nombre de pages 811 pages
  • Parution juin 2018
    • Livre (broché) - 17 x 21 cm
    • ISBN : 978-2-409-01397-3
    • EAN : 9782409013973
    • Ref. ENI : EP2DASR
  • Niveau Expert
  • Parution juin 2018
    • HTML
    • ISBN : 978-2-409-01403-1
    • EAN : 9782409014031
    • Ref. ENI : LNEP2DASR

Téléchargements

En complétant ce formulaire, vous acceptez d'être contacté afin de recevoir des informations sur nos produits et services ainsi que nos communications marketing. Vous aurez la possibilité de vous désabonner de nos communications à tout moment. Pour plus d'informations sur notre politique de protection des données, cliquez ici.
  • Des fichiers complémentaires (22 Mo)
  • Des fichiers complémentaires (38,6 Mo)
  • Des fichiers complémentaires (41,1 Mo)