1. Livres et vidéos
  2. Data Scientist et langage R - Autoformation aux bases de l'intelligence artificielle dans l'univers de la data (3e édition)

Data Scientist et langage R Autoformation aux bases de l'intelligence artificielle dans l'univers de la data (3e édition)

  • En stock
  • Expédié en 24h00
  • Livraison à partir de 0,01 €
  • Version en ligne offerte pendant 1 an
  • 1 h d'accès gratuit à tous nos livres et vidéos pour chaque commande
  • Accessible immédiatement
  • Version HTML
  • Accès illimité 24h/24, 7J/7
  • Accès illimité 24h/24, 7J/7
  • Tous les livres en ligne, les vidéos et les cours enregistrés ENI
  • Plus de 10 nouveautés livres et vidéos chaque mois
  • Les nouveautés disponibles le jour de leur sortie
  • Accès 100% en ligne

Présentation

Ce livre, pour lequel deux axes de lecture sont possibles, a pour objectif de proposer une formation complète et opérationnelle sur les data sciences. Le premier axe permet au lecteur d’apprendre à délivrer des solutions complètes via l'usage du langage R et de son écosystème, et le second lui permet d’acquérir une culture approfondie des data sciences tout en faisant abstraction du détail du code R grâce à l’utilisation d’un outillage interactif qui ne nécessite pas d’apprendre à coder en R.

Ainsi, les auteurs proposent un parcours didactique et professionnalisant qui, sans autre prérequis qu'un niveau Bac en mathématiques et une grande curiosité, permet au lecteur :
• de s'intégrer à une équipe de data scientists ;
• d'aborder la lecture d'articles de recherche en IA ou data sciences ;
• de développer en langage R ;
• et de dialoguer avec une équipe projet comprenant des data scientists.

Le livre ne se cantonne pas aux algorithmes classiques du Machine Learning (arbres de décision, réseaux neuronaux…), il aborde divers sujets importants comme le traitement du langage naturel, les séries temporelles, la logique floue ou la manipulation des images.

Les sujets pratiques ou difficiles ne sont pas éludés. Le livre appréhende l’accès aux bases de données, les processus parallèles, la programmation fonctionnelle et la programmation objet, la création d’API, le partage de résultats d'analyse avec R Markdown et les dashboard Shiny, l'étude des représentations cartographiques ou encore l'implémentation du Deep Learning avec TensorFlow-2 et Keras.

À la demande des lecteurs, cette troisième édition présente également une ouverture vers le langage Python et son interface avec R ainsi que l’installation d’une application R/shiny accessible sur internet via un serveur Linux abrité sur un cloud professionnel. Une extension vers l’utilisation de R pour les calculs numériques et les calculs mathématiques pour l’ingénierie dans le même esprit que MatLab ainsi que l’usage basique d’un outil de prototypage rapide de modèles de Machine Learning (BigML) en « point and click » permettront au lecteur ne voulant pas utiliser R de produire des modèles de prédiction sans coder !

La dynamique de l'ouvrage soutient le lecteur pas à pas dans sa découverte des data sciences et l'évolution de ses compétences théoriques et pratiques. Le manager pourra surfer sur l'ouvrage après avoir lu attentivement le bestiaire des data sciences de l'introduction, qui sans vulgarisation excessive présente le sujet en faisant l'économie de mathématiques ou de formalismes dissuasifs.

Les programmes R décrits dans le livre sont accessibles en téléchargement sur le site www.editions-eni.fr et peuvent être exécutés pas à pas.

Table des matières

  • Introduction
    • 1. Data scientist, un métier à la mode
    • 2. Un nouveau métier : citizen data scientist
      • 2.1 Un objectif réaliste, devenir citizen data scientist
      • 2.2 Analyse et valorisation
      • 2.3 Animation et spécification
      • 2.4 Modélisation et inférence
      • 2.5 Déploiement et maintien en conditions opérationnelles
    • 3. Les data sciences
    • 4. Le Big Data
    • 5. La dynamique de cet ouvrage
      • 5.1 Nos objectifs
      • 5.2 La structure de l'ouvrage
        • 5.2.1 Les deux parcours complémentaires
        • 5.2.2 Ressources complémentaires à utiliser
    • 6. Petit bestiaire des data sciences
      • 6.1 Les fondamentaux
        • 6.1.1 Apprentissage et classification
        • 6.1.2 Petit vocabulaire graphique du machine learning
        • 6.1.3 Régression
        • 6.1.4 Régression linéaire généralisée
        • 6.1.5 Arbres de décision, prune, élagage
        • 6.1.6 Clustering, k-means
        • 6.1.7 k-NN
        • 6.1.8 Modèles paramétriques
        • 6.1.9 Lazy algorithm (algorithme paresseux)
        • 6.1.10 Overfitting : sur-détermination, sur-apprentissage
        • 6.1.11 Validation croisée, régularisation, bagging
        • 6.1.12 Optimisation, méthode du gradient
        • 6.1.13 Algorithme glouton (greedy algorithm)
        • 6.1.14 Programmation linéaire, simplexe, point intérieur
        • 6.1.15 Estimation via la méthode de Monte-Carlo
        • 6.1.16 Entropie, indépendance et information mutuelle
        • 6.1.17 Discrétisation
      • 6.2 Méthodes "ensemble"
        • 6.2.1 Random forest
        • 6.2.2 AdaBoost (adaptative boosting)
      • 6.3 Lois de probabilité et distribution
        • 6.3.1 Généralités
        • 6.3.2 Petit bestiaire des lois de probabilité
      • 6.4 Les graphes
        • 6.4.1 Vocabulaire de base
        • 6.4.2 Conversion d'un tableau d'observations en graphe, similarité
    • 7. Informatique professionnelle et data sciences
      • 7.1 La technologie
      • 7.2 Business Intelligence versus Big Data
        • 7.2.1 Différences en termes d'architecture
        • 7.2.2 Différences en termes d'usage
        • 7.2.3 Synthèse
    • 8. Notations
      • 8.1 Notations des paramètres
      • 8.2 Autres notations
        • 8.2.1 Fonctions et applications ... f(x), d(x,y) ...
        • 8.2.2 Quelques confusions possibles
    • 9. À vous de jouer !
  • Premiers pas avec R
    • 1. Installation des composants
      • 1.1 Installation et lancement de R
      • 1.2 Installation et lancement de RStudio
      • 1.3 Installation de nouveaux packages
      • 1.4 Installation de packages : compléments
    • 2. Prise en main de R
      • 2.1 R, une calculatrice efficace
      • 2.2 R, un langage vectorisé
      • 2.3 Fonctions agissant sur des vectors
        • 2.3.1 Une première analyse rapide des données
        • 2.3.2 Quelques statistiques simples sur les vectors
        • 2.3.3 Trier un vector
        • 2.3.4 Diverses fonctions avec somme, produit, min et max
      • 2.4 Types de données simples
        • 2.4.1 Les booléens
        • 2.4.2 Les ensembles
        • 2.4.3 Les listes
        • 2.4.4 Les facteurs
        • 2.4.5 Les tableaux
      • 2.5 Les fonctions
        • 2.5.1 Création et utilisation d'une fonction simple
        • 2.5.2 Création d'un opérateur à partir d'une fonction de deux variables
        • 2.5.3 Usage des fonctions et portée des variables
        • 2.5.4 Application des fonctions sur les matrices : apply
        • 2.5.5 Compléments utiles
      • 2.6 Structures de contrôle
        • 2.6.1 Des instructions communes avec d'autres langages
        • 2.6.2 Parcourir une matrice via des boucles for
      • 2.7 Les chaînes de caractères
      • 2.8 Le formatage des nombres
      • 2.9 Les dates et les temps
      • 2.10 Mesure de la durée d'un algorithme
      • 2.11 Les nombres complexes
        • 2.11.1 Manipulations de base des nombres complexes
        • 2.11.2 Visualisation de nombres complexes
      • 2.12 Programmation orientée objet
        • 2.12.1 Classes et objets, en bref
        • 2.12.2 Constructeurs
        • 2.12.3 Héritage
        • 2.12.4 Objets mutables
        • 2.12.5 Gestion de pile : implémentation orientée objet avec RC
    • 3. Manipulation des données
      • 3.1 Lecture des données : les bases
      • 3.2 Manipulation des colonnes d'un data.frame
      • 3.3 Calculs simples sur un data.frame
        • 3.3.1 Calculs sur les colonnes et les lignes
        • 3.3.2 Manipulation des lignes
        • 3.3.3 Application : comparaison effectifs de classes et Khi-2
        • 3.3.4 Création de colonnes calculées
        • 3.3.5 Tri d'un data.frame via order()
      • 3.4 Analyse visuelle des données
        • 3.4.1 Visualisation simple des données
        • 3.4.2 Visualisation des variables numériques 2 à 2 avec mention des classes
        • 3.4.3 Corrélations entre variables numériques
        • 3.4.4 Séparation par classe, ggplot2, qplot
        • 3.4.5 Visualisation 3D, relation entre trois variables numériques
        • 3.4.6 Graphiques par paires
        • 3.4.7 Boîtes à moustaches et tentative d'élimination des outliers
        • 3.4.8 Création d'un modèle par arbre de décision
  • Maîtriser les bases
    • 1. Se mettre en harmonie avec les données
      • 1.1 Quelques notions fondatrices
        • 1.1.1 Phénomène aléatoire
        • 1.1.2 Probabilité, variable aléatoire et distribution
        • 1.1.3 Un peu de mathématiques : notations et définitions utiles
        • 1.1.4 Moments d'une variable aléatoire discrète X
        • 1.1.5 Premières considérations sur les erreurs et estimations
      • 1.2 Se familiariser avec ses données
        • 1.2.1 R Commander
        • 1.2.2 Rattle
    • 2. Matrices et vecteurs
      • 2.1 Conventions, notations, utilisations basiques
      • 2.2 Matrices, vecteurs : vers une introduction à la notion d'apprentissage supervisé
      • 2.3 Plus loin dans la manipulation des matrices avec R
        • 2.3.1 Opérations basiques
        • 2.3.2 Quelques savoir-faire utiles sur les matrices de R
        • 2.3.3 Normes de vecteurs et normes de matrices
        • 2.3.4 Matrices et vecteurs : diverses syntaxes utiles
    • 3. Estimations
      • 3.1 Positionnement du problème d'estimation
        • 3.1.1 Formulation générale du problème
        • 3.1.2 Application et reformulation du problème d'estimation
      • 3.2 Les indicateurs d'écart utilisés en machine learning
        • 3.2.1 MSE, RMSE, SSE, SST
        • 3.2.2 MAE, ME
        • 3.2.3 NRMSE/NRMSD, CV_RMSE
        • 3.2.4 SDR
        • 3.2.5 Accuracy, R2
    • 4. Mise en pratique : apprentissage supervisé
      • 4.1 Préparation
      • 4.2 Tester des hypothèses, p_value
        • 4.2.1 Analyse graphique interactive avec iplots
        • 4.2.2 Test de Breusch-Pagan et zoom sur p_value
      • 4.3 Création d'un modèle (régression linéaire multiple)
      • 4.4 Établissement d'une prédiction
      • 4.5 Étude des résultats et représentations graphiques
      • 4.6 Indicateurs courants - calculs
      • 4.7 Étude du modèle linéaire généré
      • 4.8 Conclusion sur le modèle linéaire
      • 4.9 Utilisation d'un modèle "Random Forest"
  • Techniques et algorithmes incontournables
    • 1. Constituer sa boîte à outils
    • 2. Représentation graphique des données
      • 2.1 Un graphique "simple"
      • 2.2 Histogrammes évolués
        • 2.2.1 Distribution multiclasse
        • 2.2.2 Mixture de plusieurs distributions par classe
        • 2.2.3 Visualisation de la densité d'une distribution
        • 2.2.4 Une autre mixture par classe
        • 2.2.5 Une variable, mais un histogramme pour chaque classe
        • 2.2.6 Graphique avec une densité par classe
      • 2.3 Diagramme par paires et à facettes
        • 2.3.1 Diagramme par paires, version simple
        • 2.3.2 Classes en configuration XOR
        • 2.3.3 Diagramme par paires avec "factors"
        • 2.3.4 Facettes et échelle logarithmique
    • 3. Machine learning : pratiques courantes
      • 3.1 Parcours théorique accéléré
        • 3.1.1 Linéarité
        • 3.1.2 Erreurs in et out, notion de VC dimension
        • 3.1.3 Hyperplans, séparabilité avec marges
        • 3.1.4 Kernel Trick, noyaux, transformations, feature space
        • 3.1.5 Problèmes de la régression : introduction à la régularisation
      • 3.2 Pratique par pratique
        • 3.2.1 Cross validation : k-fold CV
        • 3.2.2 Naive Bayes
        • 3.2.3 C4.5 et C5.0
        • 3.2.4 Support Vector Machines (SVM)
        • 3.2.5 Clusterisation, k-means
    • 4. Où en sommes-nous dans notre apprentissage ?
      • 4.1 Vos acquis opérationnels
      • 4.2 Les lacunes éventuelles à combler maintenant
  • Cadre méthodologique du data scientist
    • 1. Le problème méthodologique au niveau du projet
      • 1.1 L'expression du besoin
      • 1.2 La gestion du projet
    • 2. Le cycle interne des data sciences
      • 2.1 Revue de détail du problème posé
      • 2.2 Travaux préliminaires sur les données
        • 2.2.1 Exigences sur les données
        • 2.2.2 Collecte, nettoyage et compréhension des données
      • 2.3 Le cycle de modélisation
        • 2.3.1 Feature engineering
        • 2.3.2 Modélisation et évaluation
        • 2.3.3 Choix du meilleur modèle
        • 2.3.4 Test, interprétation et confrontation avec le métier
      • 2.4 Préparation de l'industrialisation et déploiement
      • 2.5 Préparation des itérations suivantes
        • 2.5.1 Éléments à prendre en compte
        • 2.5.2 Documentation gérée par les data scientists
    • 3. Compléments méthodologiques
      • 3.1 Classifier vos objectifs
      • 3.2 Trucs et astuces
  • Traitement du langage naturel
    • 1. Positionnement du problème
    • 2. Analyse sémantique latente et SVD
      • 2.1 Aspects théoriques
        • 2.1.1 SVD : généralités
        • 2.1.2 Une justification de la décomposition SVD
        • 2.1.3 SVD dans le contexte LSA
        • 2.1.4 Interprétation
        • 2.1.5 Alternative non linéaire, Isomap (MDS, géodésique, variété, manifold)
      • 2.2 Mise en pratique
        • 2.2.1 Initialisation
        • 2.2.2 Au cœur de LSA
        • 2.2.3 Résultats
        • 2.2.4 Manipulations, interprétations récréatives et non fondées
  • Graphes et réseaux
    • 1. Introduction
    • 2. Premiers pas
      • 2.1 Quelques notions et notations complémentaires basiques
      • 2.2 Manipulations simples de graphes avec R
      • 2.3 Structure des graphes
    • 3. Graphes et réseaux (sociaux)
      • 3.1 Analyse des réseaux sociaux : concepts de base
      • 3.2 Mise en pratique
      • 3.3 Détection de communautés
  • Autres problèmes, autres solutions
    • 1. Séries temporelles
      • 1.1 Introduction
      • 1.2 Modèle stationnaire
        • 1.2.1 Processus stationnaire : les bases
        • 1.2.2 Processus autorégressif AR : aller plus loin
        • 1.2.3 Considérations (très) utiles
      • 1.3 Processus non stationnaires
        • 1.3.1 Le modèle ARIMA
        • 1.3.2 Processus saisonniers : SARIMA
        • 1.3.3 Modèles ARCH et GARCH
        • 1.3.4 Convolution et filtres linéaires
      • 1.4 Mise en pratique
        • 1.4.1 Les bases de la manipulation des séries temporelles en R
        • 1.4.2 Étude de séries temporelles
        • 1.4.3 Prédictions sur ARIMA (AR MA SARIMA)
      • 1.5 Mini-bestiaire ARIMA
    • 2. Systèmes flous
      • 2.1 Introduction
      • 2.2 La logique floue en pratique (systèmes experts)
    • 3. Essaim (swarm)
      • 3.1 Swarm et optimisation : l'algorithme PSO
        • 3.1.1 Présentation de PSO
        • 3.1.2 Description de PSO
      • 3.2 Mise en pratique de PSO
  • Feature Engineering
    • 1. Feature Engineering, les bases
      • 1.1 Positionnement du problème
      • 1.2 Ce sur quoi il faut être très attentif
        • 1.2.1 La qualité de la distribution
        • 1.2.2 La nature des features
      • 1.3 Maîtriser la dimensionnalité
      • 1.4 Une solution éprouvée : la PCA
      • 1.5 Un exemple simple d'utilisation de la PCA
      • 1.6 Les valeurs inconnues et les features mal conditionnées
      • 1.7 Création de nouvelles features
      • 1.8 En guise de conclusion
    • 2. PCA classique, éléments mathématiques
    • 3. Réduction des données (data reduction)
    • 4. Réduction de la dimensionnalité et entropie
      • 4.1 Description théorique du problème
      • 4.2 Implémentation en R et discussion
  • Compléments utiles
    • 1. GAM : généralisation de LM/GLM
    • 2. Manipulation d'images
      • 2.1 Création, visualisation, lecture et écriture d'images
      • 2.2 Transformation des images
        • 2.2.1 Exemples de manipulation de la couleur et des intensités
        • 2.2.2 Exemples de manipulation de la géométrie de l'image
        • 2.2.3 Application de filtres sur les images
    • 3. Comment créer un échantillon : LHS (hypercube latin)
    • 4. Travailler sur des données spatiales
      • 4.1 Variogramme
        • 4.1.1 Champ et variable régionalisée
        • 4.1.2 Détermination du variogramme
      • 4.2 Krigeage (kriging)
        • 4.2.1 La théorie, en bref
        • 4.2.2 Implémentation en R
    • 5. Savoir-faire utiles
      • 5.1 Tracer une courbe ROC
      • 5.2 Un réseau neuronal (premiers pas vers le deep learning)
    • 6. Gradient Boosting et Generalized Boosted Regression
      • 6.1 Les grands principes
      • 6.2 Les paramètres et les usages (package GBM)
        • 6.2.1 Covariance
        • 6.2.2 Loss
        • 6.2.3 Optimisation de l'algorithme
      • 6.3 Mise en pratique
  • Full Stack R
    • 1. Pourquoi ce chapitre ?
    • 2. Programmation fonctionnelle et/ou défensive
    • 3. Persistance, bases de données et R
    • 4. Parallélisme
    • 5. Collecter des données externes
    • 6. Créer une API avec R
  • Partager ses analyses
    • 1. Rédiger en Markdown
      • 1.1 Introduction
      • 1.2 Syntaxe Markdown
    • 2. Création d'un fichier R Markdown
      • 2.1 En-tête R Markdown
      • 2.2 Mise en forme du code
      • 2.3 Insertion et exécution de code R
      • 2.4 Exécuter du code R
      • 2.5 Générer le rapport
      • 2.6 Publier son rapport avec RPubs
    • 3. Créer sa première application Shiny
      • 3.1 Introduction
      • 3.2 Installation dans RStudio et préambule
      • 3.3 Organisation des fichiers de l'application
      • 3.4 Syntaxe des inputs et outputs
      • 3.5 Mise en page et organisation visuelle du contenu
      • 3.6 Modifier le thème de l'application
      • 3.7 Générer l'application
      • 3.8 Déployer l'application sur le Web
      • 3.9 Shiny Dashboard
  • Cartographie
    • 1. Pourquoi étudier les représentations cartographiques ?
    • 2. Accéder à l’information géographique
    • 3. Création de cartes statiques avec R
    • 4. Création de cartes dynamiques avec R
  • Autour des données
    • 1. Présentation du chapitre
    • 2. Appréhension directe et rapide d’un dataset
    • 3. Analyse de la conformation des distributions par rapport à la loi normale
    • 4. Dépendance linéaire entre variables
    • 5. Mise en évidence de différences sur les distributions
    • 6. Points étrangers
    • 7. Tris et agrégats
      • 7.1 Tris automatisés
      • 7.2 Calculs sur les agrégats
      • 7.3 Extraction, pivot et tri rapide de données d’un dataframe
      • 7.4 Utilisation des jointures
        • 7.4.1 Enrichissement d’un dataframe par une jointure
        • 7.4.2 Jointures pour décodage ou transformation - ex. : factor to integer
      • 7.5 Applications de fonctions variables sur les données
      • 7.6 Compléments en matière de métaprogrammation
        • 7.6.1 Quoting appliqué aux graphiques
        • 7.6.2 Définition d’une macro
  • Analyse numérique et maths opérationnelles
    • 1. Calculs numériques dans l’esprit Matlab
      • 1.1 Considérations pratiques
      • 1.2 Un aperçu de la précision de notre machine
      • 1.3 Un package possédant les mêmes instructions que Matlab
      • 1.4 Quelques compléments sur les complexes
      • 1.5 Quelques compléments sur les matrices
        • 1.5.1 Création de matrices basiques
        • 1.5.2 Création de matrices de nombres aléatoires
        • 1.5.3 Calculs sur les matrices d’entiers
    • 2. Un peu d’algèbre linéaire
      • 2.1 Exemple de création d’une base orthonormale
      • 2.2 Projection sur un sous-espace vectoriel
    • 3. Fonctions et systèmes d’équations, 1 à n variables
      • 3.1 Fonctions d’une variable
        • 3.1.1 Exploration de divers tracés
        • 3.1.2 Autour des racines d’une fonction
      • 3.2 Fonctions de plusieurs variables
        • 3.2.1 Représentation d’une fonction réelle de deux variables réelles
        • 3.2.2 Recherche de minima d’une fonction en deux dimensions
      • 3.3 Systèmes d’équations non différentielles, linéaires ou non
        • 3.3.1 Système d’équations linéaires
        • 3.3.2 Système d’équations non linéaires non différentielles, n = m
    • 4. Dérivation de fonctions
      • 4.1 Dérivée symbolique et numérique avec R-base
      • 4.2 Dérivées en utilisant des packages spécifiques
      • 4.3 Dérivée de fonctions spéciales
    • 5. Autour de l’intégration
      • 5.1 Calcul d’une intégrale multiple
      • 5.2 Autres intégrales, dont intégrale impropre
    • 6. Fonctions spéciales et équations différentielles
      • 6.1 Autres fonctions spéciales
        • 6.1.1 Fonctions d’Airy et de Bessel
        • 6.1.2 La fonction d’erreur erf
      • 6.2 Équation différentielle ordinaire normalisée d’ordre 1
      • 6.3 Équation différentielle du second degré (problème aux limites)
        • 6.3.1 EQD linéaire (2nd degré)
        • 6.3.2 EQD non linéaire (2nd degré)
    • 7. Éléments pratiques de calcul différentiel
      • 7.1 Fonctions réelles d’un réel
      • 7.2 Fonctions réelles d’un vecteur
        • 7.2.1 Calcul des dérivées partielles
        • 7.2.2 Calculs d’opérateurs utilisant les dérivées partielles
      • 7.3 Fonctions vectorielles d’un vecteur
    • 8. Calcul symbolique avec SymPy
      • 8.1 Documentation à consulter
      • 8.2 Accéder aux résultats dans Rmarkdown
  • R et Python
    • 1. Une polémique stérile, mais une vraie question : R ou Python ?
    • 2. Exemples de codes R et Python comparables
      • 2.1 Codes triviaux
      • 2.2 Packages
      • 2.3 Fonctions simples
      • 2.4 Structures de données
      • 2.5 Booléens
      • 2.6 Programmation de base
      • 2.7 Création de fonctions
      • 2.8 Blocs et indentation
      • 2.9 Datasets
    • 3. Accéder à Python à partir de R
      • 3.1 Installation et initialisation du contexte technique
      • 3.2 Interactions R et Python, du point de vue R
        • 3.2.1 Partage de variables et exécution de code Python dans le biotope R
        • 3.2.2 Librairies Python dans du code R, exemples NLP
    • 4. Considérations sur les cas difficiles
  • Deep learning avec TensorFlow et Keras
    • 1. Deep learning selon Google
    • 2. Installation et initialisation de votre contexte technique
    • 3. Tenseurs TensorFlow/Keras
      • 3.1 Forme des tenseurs
      • 3.2 Manipulation des tenseurs
      • 3.3 Autre usage du framework
    • 4. Mise au point d’un modèle de référence en utilisant caret
    • 5. Création d’un modèle avec TensorFlow 2 et Keras
      • 5.1 Initialisation et préparation des données
      • 5.2 Étape 1 : décrire la structure du réseau
      • 5.3 Étape 2 : compiler le modèle
      • 5.4 Étape 3 : training
  • BigML, le machine learning pour tous
    • 1. Introduction
    • 2. Pour qui ?
    • 3. Présentation de la démarche
    • 4. Manipulation des sources de données
    • 5. Création de projets
    • 6. Manipulation de datasets
    • 7. Division du jeu de données
    • 8. Création d’un modèle de machine learning
      • 8.1 Paramétrages des modèles
      • 8.2 Visualisation du modèle
      • 8.3 Filtrage et élagage
      • 8.4 Autres visualisations
    • 9. Évaluation du modèle
    • 10. Partage de ses modèles
    • 11. Réalisation d’une première prédiction
    • 12. Utilisation du modèle dans R
  • Déploiement Shiny sur votre propre Cloud
    • 1. Introduction
    • 2. Location d’un serveur
    • 3. Création d’une machine virtuelle
    • 4. Se connecter à distance à votre machine
      • 4.1 Installation du client SSH
        • 4.1.1 OpenSSH
        • 4.1.2 GitBash
      • 4.2 Génération des clés publique et privée
      • 4.3 Gestion des paquets
    • 5. Ajout des composants logiciels de base
    • 6. Installation de R et de Shiny
    • 7. Paramétrage réseau et Linux
      • 7.1 Paramétrer le VCN (Virtual Cloud Network)
      • 7.2 Gestion du firewall
      • 7.3 Se doter d’une application de monitoring : htop
      • 7.4 Se doter d’un serveur HTTP (Apache)
      • 7.5 Installation de Webmin
  • Annexes
    • 1. De l'utilité de ces annexes
    • 2. Formulas
    • 3. Stratégies suivant la nature des données
      • 3.1 Comptages
      • 3.2 Proportions
      • 3.3 Variable de réponse binaire
      • 3.4 Données induisant un modèle mixte (mixed effect)
      • 3.5 Graphes
      • 3.6 Analyse de survie (survival analysis)
    • 4. Filtres (sur images)
    • 5. Distances
    • 6. Astuces et petits conseils
      • 6.1 Sur les tests
      • 6.2 Gestion des variables
      • 6.3 Analyse et manipulation de résultats
        • 6.3.1 Résidus
        • 6.3.2 Manipulation des modèles
    • 7. Packages et thèmes à étudier
      • 7.1 Créer son propre package
      • 7.2 Règles d'association
      • 7.3 Exporter un modèle
      • 7.4 Tenseurs
      • 7.5 SVM pour la détection de nouveautés (novelty detection)
    • 8. Vocabulaire et "tricks of the trade"
      • 8.1 Compléments sur les bases du machine learning
      • 8.2 Compléments sur les aspects bayésiens
      • 8.3 Vocabulaire (dont anglais) des modèles gaussiens
    • 9. Algorithmes à étudier
    • 10. Quelques formulations d'algèbre linéaire
    • 11. Bibliographie
    • Conclusion
    • Index

Auteurs

Eva LAUDEEn savoir plus

Eva LAUDE exerce ses activités de conseil et de chefferie de projet en Data science dans des secteurs variés (INSEE, entreprises de biotechnologie ou ESN). Parallèlement à ses activités professionnelles de développeuse R-Shiny, elle organise des data-challenges dans différents organismes et écoles où elle intervient comme enseignante associée. Geek et passionnée par R , la DataViz et le Data Journalisme, elle n’hésite pas à partager ses connaissances au travers de nombreux tutoriels et participe à la revue académique Management&Data Science.

Henri LAUDEEn savoir plus

Henri LAUDE est un professionnel reconnu des Computer Sciences. Il a encadré de nombreux travaux de R&D sur les data sciences, l'IA, les Fintech, la détection de fraudes et le déploiement d’architectures Big Data. Il est co-fondateur d’Advanced Research Partners, où il anime la conception d'algorithmes très novateurs. Primé à plusieurs reprises pour ses solutions innovantes, comme au Data Intelligence Forum avec une IA spécialisée dans l’intelligence économique nommée DxM (pour Deus eX Machina), il intervient sur des projets aussi variés que l’élaboration d’un exosquelette intelligent ou les IA de cyber protection.

Caractéristiques

  • Nombre de pages 870 pages
  • Parution juillet 2021
    • Livre (broché) - 17 x 21 cm
    • ISBN : 978-2-409-03099-4
    • EAN : 9782409030994
    • Ref. ENI : EP3DASR
  • Parution juin 2021
    • HTML
    • ISBN : 978-2-409-03100-7
    • EAN : 9782409031007
    • Ref. ENI : LNEP3DASR

Téléchargements

En complétant ce formulaire, vous acceptez d'être contacté afin de recevoir des informations sur nos produits et services ainsi que nos communications marketing. Vous aurez la possibilité de vous désabonner de nos communications à tout moment. Pour plus d'informations sur notre politique de protection des données, cliquez ici.
  • Des fichiers complémentaires (24 798 Ko)
  • Des fichiers complémentaires (39 733 Ko)
  • Des fichiers complémentaires (44 037 Ko)