Data Scientist et langage R Autoformation aux bases de l'intelligence artificielle dans l'univers de la data (3e édition)

1 avis

Ce livre, pour lequel deux axes de lecture sont possibles, a pour objectif de proposer une formation complète et opérationnelle sur les data sciences. Le premier axe permet au lecteur d’apprendre à délivrer des solutions complètes via l'usage du langage R et de son écosystème, et le second lui permet d’acquérir une culture approfondie des data sciences tout en faisant abstraction du détail du code R grâce à l’utilisation d’un outillage interactif qui ne nécessite pas d’apprendre à...

Consulter des extraits du livre en ligne Aperçu du livre papier

Niveau Expert
Nombre de pages 870 pages
Parution juillet 2021

Niveau Expert
Parution juin 2021

Présentation

Ce livre, pour lequel deux axes de lecture sont possibles, a pour objectif de proposer une formation complète et opérationnelle sur les data sciences. Le premier axe permet au lecteur d’apprendre à délivrer des solutions complètes via l'usage du langage R et de son écosystème, et le second lui permet d’acquérir une culture approfondie des data sciences tout en faisant abstraction du détail du code R grâce à l’utilisation d’un outillage interactif qui ne nécessite pas d’apprendre à coder en R.

Ainsi, les auteurs proposent un parcours didactique et professionnalisant qui, sans autre prérequis qu'un niveau Bac en mathématiques et une grande curiosité, permet au lecteur :
• de s'intégrer à une équipe de data scientists ;
• d'aborder la lecture d'articles de recherche en IA ou data sciences ;
• de développer en langage R ;
• et de dialoguer avec une équipe projet comprenant des data scientists.

Le livre ne se cantonne pas aux algorithmes classiques du Machine Learning (arbres de décision, réseaux neuronaux…), il aborde divers sujets importants comme le traitement du langage naturel, les séries temporelles, la logique floue ou la manipulation des images.

Les sujets pratiques ou difficiles ne sont pas éludés. Le livre appréhende l’accès aux bases de données, les processus parallèles, la programmation fonctionnelle et la programmation objet, la création d’API, le partage de résultats d'analyse avec R Markdown et les dashboard Shiny, l'étude des représentations cartographiques ou encore l'implémentation du Deep Learning avec TensorFlow-2 et Keras.

À la demande des lecteurs, cette troisième édition présente également une ouverture vers le langage Python et son interface avec R ainsi que l’installation d’une application R/shiny accessible sur internet via un serveur Linux abrité sur un cloud professionnel. Une extension vers l’utilisation de R pour les calculs numériques et les calculs mathématiques pour l’ingénierie dans le même esprit que MatLab ainsi que l’usage basique d’un outil de prototypage rapide de modèles de Machine Learning (BigML) en « point and click » permettront au lecteur ne voulant pas utiliser R de produire des modèles de prédiction sans coder !

La dynamique de l'ouvrage soutient le lecteur pas à pas dans sa découverte des data sciences et l'évolution de ses compétences théoriques et pratiques. Le manager pourra surfer sur l'ouvrage après avoir lu attentivement le bestiaire des data sciences de l'introduction, qui sans vulgarisation excessive présente le sujet en faisant l'économie de mathématiques ou de formalismes dissuasifs.

Les programmes R décrits dans le livre sont accessibles en téléchargement sur le site www.editions-eni.fr et peuvent être exécutés pas à pas.

Quizinclus dans
la version en ligne !

Testez vos connaissances à l'issue de chaque chapitre
Validez vos acquis

Téléchargements

Table des matières

Introduction

1. Data scientist, un métier à la mode
2. Un nouveau métier : citizen data scientist
1. 2.1 Un objectif réaliste, devenir citizen data scientist
2. 2.2 Analyse et valorisation
3. 2.3 Animation et spécification
4. 2.4 Modélisation et inférence
5. 2.5 Déploiement et maintien en conditions opérationnelles
3. Les data sciences
4. Le Big Data
5. La dynamique de cet ouvrage
1. 5.1 Nos objectifs
2. 5.2 La structure de l'ouvrage
  1. 5.2.1 Les deux parcours complémentaires
  2. 5.2.2 Ressources complémentaires à utiliser
6. Petit bestiaire des data sciences
1. 6.1 Les fondamentaux
  1. 6.1.1 Apprentissage et classification
  2. 6.1.2 Petit vocabulaire graphique du machine learning
  3. 6.1.3 Régression
  4. 6.1.4 Régression linéaire généralisée
  5. 6.1.5 Arbres de décision, prune, élagage
  6. 6.1.6 Clustering, k-means
  7. 6.1.7 k-NN
  8. 6.1.8 Modèles paramétriques
  9. 6.1.9 Lazy algorithm (algorithme paresseux)
  10. 6.1.10 Overfitting : sur-détermination, sur-apprentissage
  11. 6.1.11 Validation croisée, régularisation, bagging
  12. 6.1.12 Optimisation, méthode du gradient
  13. 6.1.13 Algorithme glouton (greedy algorithm)
  14. 6.1.14 Programmation linéaire, simplexe, point intérieur
  15. 6.1.15 Estimation via la méthode de Monte-Carlo
  16. 6.1.16 Entropie, indépendance et information mutuelle
  17. 6.1.17 Discrétisation
2. 6.2 Méthodes "ensemble"
  1. 6.2.1 Random forest
  2. 6.2.2 AdaBoost (adaptative boosting)
3. 6.3 Lois de probabilité et distribution
  1. 6.3.1 Généralités
  2. 6.3.2 Petit bestiaire des lois de probabilité
4. 6.4 Les graphes
  1. 6.4.1 Vocabulaire de base
  2. 6.4.2 Conversion d'un tableau d'observations en graphe, similarité
7. Informatique professionnelle et data sciences
1. 7.1 La technologie
2. 7.2 Business Intelligence versus Big Data
  1. 7.2.1 Différences en termes d'architecture
  2. 7.2.2 Différences en termes d'usage
  3. 7.2.3 Synthèse
8. Notations
1. 8.1 Notations des paramètres
2. 8.2 Autres notations
  1. 8.2.1 Fonctions et applications ... f(x), d(x,y) ...
  2. 8.2.2 Quelques confusions possibles
9. À vous de jouer !

Premiers pas avec R

1. Installation des composants
1. 1.1 Installation et lancement de R
2. 1.2 Installation et lancement de RStudio
3. 1.3 Installation de nouveaux packages
4. 1.4 Installation de packages : compléments
2. Prise en main de R
1. 2.1 R, une calculatrice efficace
2. 2.2 R, un langage vectorisé
3. 2.3 Fonctions agissant sur des vectors
  1. 2.3.1 Une première analyse rapide des données
  2. 2.3.2 Quelques statistiques simples sur les vectors
  3. 2.3.3 Trier un vector
  4. 2.3.4 Diverses fonctions avec somme, produit, min et max
4. 2.4 Types de données simples
  1. 2.4.1 Les booléens
  2. 2.4.2 Les ensembles
  3. 2.4.3 Les listes
  4. 2.4.4 Les facteurs
  5. 2.4.5 Les tableaux
5. 2.5 Les fonctions
  1. 2.5.1 Création et utilisation d'une fonction simple
  2. 2.5.2 Création d'un opérateur à partir d'une fonction de deux variables
  3. 2.5.3 Usage des fonctions et portée des variables
  4. 2.5.4 Application des fonctions sur les matrices : apply
  5. 2.5.5 Compléments utiles
6. 2.6 Structures de contrôle
  1. 2.6.1 Des instructions communes avec d'autres langages
  2. 2.6.2 Parcourir une matrice via des boucles for
7. 2.7 Les chaînes de caractères
8. 2.8 Le formatage des nombres
9. 2.9 Les dates et les temps
10. 2.10 Mesure de la durée d'un algorithme
11. 2.11 Les nombres complexes
  1. 2.11.1 Manipulations de base des nombres complexes
  2. 2.11.2 Visualisation de nombres complexes
12. 2.12 Programmation orientée objet
  1. 2.12.1 Classes et objets, en bref
  2. 2.12.2 Constructeurs
  3. 2.12.3 Héritage
  4. 2.12.4 Objets mutables
  5. 2.12.5 Gestion de pile : implémentation orientée objet avec RC
3. Manipulation des données
1. 3.1 Lecture des données : les bases
2. 3.2 Manipulation des colonnes d'un data.frame
3. 3.3 Calculs simples sur un data.frame
  1. 3.3.1 Calculs sur les colonnes et les lignes
  2. 3.3.2 Manipulation des lignes
  3. 3.3.3 Application : comparaison effectifs de classes et Khi-2
  4. 3.3.4 Création de colonnes calculées
  5. 3.3.5 Tri d'un data.frame via order()
4. 3.4 Analyse visuelle des données
  1. 3.4.1 Visualisation simple des données
  2. 3.4.2 Visualisation des variables numériques 2 à 2 avec mention des classes
  3. 3.4.3 Corrélations entre variables numériques
  4. 3.4.4 Séparation par classe, ggplot2, qplot
  5. 3.4.5 Visualisation 3D, relation entre trois variables numériques
  6. 3.4.6 Graphiques par paires
  7. 3.4.7 Boîtes à moustaches et tentative d'élimination des outliers
  8. 3.4.8 Création d'un modèle par arbre de décision

Maîtriser les bases

1. Se mettre en harmonie avec les données
1. 1.1 Quelques notions fondatrices
  1. 1.1.1 Phénomène aléatoire
  2. 1.1.2 Probabilité, variable aléatoire et distribution
  3. 1.1.3 Un peu de mathématiques : notations et définitions utiles
  4. 1.1.4 Moments d'une variable aléatoire discrète X
  5. 1.1.5 Premières considérations sur les erreurs et estimations
2. 1.2 Se familiariser avec ses données
  1. 1.2.1 R Commander
  2. 1.2.2 Rattle
2. Matrices et vecteurs
1. 2.1 Conventions, notations, utilisations basiques
2. 2.2 Matrices, vecteurs : vers une introduction à la notion d'apprentissage supervisé
3. 2.3 Plus loin dans la manipulation des matrices avec R
  1. 2.3.1 Opérations basiques
  2. 2.3.2 Quelques savoir-faire utiles sur les matrices de R
  3. 2.3.3 Normes de vecteurs et normes de matrices
  4. 2.3.4 Matrices et vecteurs : diverses syntaxes utiles
3. Estimations
1. 3.1 Positionnement du problème d'estimation
  1. 3.1.1 Formulation générale du problème
  2. 3.1.2 Application et reformulation du problème d'estimation
2. 3.2 Les indicateurs d'écart utilisés en machine learning
  1. 3.2.1 MSE, RMSE, SSE, SST
  2. 3.2.2 MAE, ME
  3. 3.2.3 NRMSE/NRMSD, CV_RMSE
  4. 3.2.4 SDR
  5. 3.2.5 Accuracy, R2
4. Mise en pratique : apprentissage supervisé
1. 4.1 Préparation
2. 4.2 Tester des hypothèses, p_value
  1. 4.2.1 Analyse graphique interactive avec iplots
  2. 4.2.2 Test de Breusch-Pagan et zoom sur p_value
3. 4.3 Création d'un modèle (régression linéaire multiple)
4. 4.4 Établissement d'une prédiction
5. 4.5 Étude des résultats et représentations graphiques
6. 4.6 Indicateurs courants - calculs
7. 4.7 Étude du modèle linéaire généré
8. 4.8 Conclusion sur le modèle linéaire
9. 4.9 Utilisation d'un modèle "Random Forest"

Techniques et algorithmes incontournables

1. Constituer sa boîte à outils
2. Représentation graphique des données
1. 2.1 Un graphique "simple"
2. 2.2 Histogrammes évolués
  1. 2.2.1 Distribution multiclasse
  2. 2.2.2 Mixture de plusieurs distributions par classe
  3. 2.2.3 Visualisation de la densité d'une distribution
  4. 2.2.4 Une autre mixture par classe
  5. 2.2.5 Une variable, mais un histogramme pour chaque classe
  6. 2.2.6 Graphique avec une densité par classe
3. 2.3 Diagramme par paires et à facettes
  1. 2.3.1 Diagramme par paires, version simple
  2. 2.3.2 Classes en configuration XOR
  3. 2.3.3 Diagramme par paires avec "factors"
  4. 2.3.4 Facettes et échelle logarithmique
3. Machine learning : pratiques courantes
1. 3.1 Parcours théorique accéléré
  1. 3.1.1 Linéarité
  2. 3.1.2 Erreurs in et out, notion de VC dimension
  3. 3.1.3 Hyperplans, séparabilité avec marges
  4. 3.1.4 Kernel Trick, noyaux, transformations, feature space
  5. 3.1.5 Problèmes de la régression : introduction à la régularisation
2. 3.2 Pratique par pratique
  1. 3.2.1 Cross validation : k-fold CV
  2. 3.2.2 Naive Bayes
  3. 3.2.3 C4.5 et C5.0
  4. 3.2.4 Support Vector Machines (SVM)
  5. 3.2.5 Clusterisation, k-means
4. Où en sommes-nous dans notre apprentissage ?
1. 4.1 Vos acquis opérationnels
2. 4.2 Les lacunes éventuelles à combler maintenant

Cadre méthodologique du data scientist

1. Le problème méthodologique au niveau du projet
1. 1.1 L'expression du besoin
2. 1.2 La gestion du projet
2. Le cycle interne des data sciences
1. 2.1 Revue de détail du problème posé
2. 2.2 Travaux préliminaires sur les données
  1. 2.2.1 Exigences sur les données
  2. 2.2.2 Collecte, nettoyage et compréhension des données
3. 2.3 Le cycle de modélisation
  1. 2.3.1 Feature engineering
  2. 2.3.2 Modélisation et évaluation
  3. 2.3.3 Choix du meilleur modèle
  4. 2.3.4 Test, interprétation et confrontation avec le métier
4. 2.4 Préparation de l'industrialisation et déploiement
5. 2.5 Préparation des itérations suivantes
  1. 2.5.1 Éléments à prendre en compte
  2. 2.5.2 Documentation gérée par les data scientists
3. Compléments méthodologiques
1. 3.1 Classifier vos objectifs
2. 3.2 Trucs et astuces

Traitement du langage naturel

1. Positionnement du problème
2. Analyse sémantique latente et SVD
1. 2.1 Aspects théoriques
  1. 2.1.1 SVD : généralités
  2. 2.1.2 Une justification de la décomposition SVD
  3. 2.1.3 SVD dans le contexte LSA
  4. 2.1.4 Interprétation
  5. 2.1.5 Alternative non linéaire, Isomap (MDS, géodésique, variété, manifold)
2. 2.2 Mise en pratique
  1. 2.2.1 Initialisation
  2. 2.2.2 Au cœur de LSA
  3. 2.2.3 Résultats
  4. 2.2.4 Manipulations, interprétations récréatives et non fondées

Graphes et réseaux

1. Introduction
2. Premiers pas
1. 2.1 Quelques notions et notations complémentaires basiques
2. 2.2 Manipulations simples de graphes avec R
3. 2.3 Structure des graphes
3. Graphes et réseaux (sociaux)
1. 3.1 Analyse des réseaux sociaux : concepts de base
2. 3.2 Mise en pratique
3. 3.3 Détection de communautés

Autres problèmes, autres solutions

1. Séries temporelles
1. 1.1 Introduction
2. 1.2 Modèle stationnaire
  1. 1.2.1 Processus stationnaire : les bases
  2. 1.2.2 Processus autorégressif AR : aller plus loin
  3. 1.2.3 Considérations (très) utiles
3. 1.3 Processus non stationnaires
  1. 1.3.1 Le modèle ARIMA
  2. 1.3.2 Processus saisonniers : SARIMA
  3. 1.3.3 Modèles ARCH et GARCH
  4. 1.3.4 Convolution et filtres linéaires
4. 1.4 Mise en pratique
  1. 1.4.1 Les bases de la manipulation des séries temporelles en R
  2. 1.4.2 Étude de séries temporelles
  3. 1.4.3 Prédictions sur ARIMA (AR MA SARIMA)
5. 1.5 Mini-bestiaire ARIMA
2. Systèmes flous
1. 2.1 Introduction
2. 2.2 La logique floue en pratique (systèmes experts)
3. Essaim (swarm)
1. 3.1 Swarm et optimisation : l'algorithme PSO
  1. 3.1.1 Présentation de PSO
  2. 3.1.2 Description de PSO
2. 3.2 Mise en pratique de PSO

Feature Engineering

1. Feature Engineering, les bases
1. 1.1 Positionnement du problème
2. 1.2 Ce sur quoi il faut être très attentif
  1. 1.2.1 La qualité de la distribution
  2. 1.2.2 La nature des features
3. 1.3 Maîtriser la dimensionnalité
4. 1.4 Une solution éprouvée : la PCA
5. 1.5 Un exemple simple d'utilisation de la PCA
6. 1.6 Les valeurs inconnues et les features mal conditionnées
7. 1.7 Création de nouvelles features
8. 1.8 En guise de conclusion
2. PCA classique, éléments mathématiques
3. Réduction des données (data reduction)
4. Réduction de la dimensionnalité et entropie
1. 4.1 Description théorique du problème
2. 4.2 Implémentation en R et discussion

Compléments utiles

1. GAM : généralisation de LM/GLM
2. Manipulation d'images
1. 2.1 Création, visualisation, lecture et écriture d'images
2. 2.2 Transformation des images
  1. 2.2.1 Exemples de manipulation de la couleur et des intensités
  2. 2.2.2 Exemples de manipulation de la géométrie de l'image
  3. 2.2.3 Application de filtres sur les images
3. Comment créer un échantillon : LHS (hypercube latin)
4. Travailler sur des données spatiales
1. 4.1 Variogramme
  1. 4.1.1 Champ et variable régionalisée
  2. 4.1.2 Détermination du variogramme
2. 4.2 Krigeage (kriging)
  1. 4.2.1 La théorie, en bref
  2. 4.2.2 Implémentation en R
5. Savoir-faire utiles
1. 5.1 Tracer une courbe ROC
2. 5.2 Un réseau neuronal (premiers pas vers le deep learning)
6. Gradient Boosting et Generalized Boosted Regression
1. 6.1 Les grands principes
2. 6.2 Les paramètres et les usages (package GBM)
  1. 6.2.1 Covariance
  2. 6.2.2 Loss
  3. 6.2.3 Optimisation de l'algorithme
3. 6.3 Mise en pratique

Full Stack R

1. Pourquoi ce chapitre ?
2. Programmation fonctionnelle et/ou défensive
3. Persistance, bases de données et R
4. Parallélisme
5. Collecter des données externes
6. Créer une API avec R

Partager ses analyses

1. Rédiger en Markdown
1. 1.1 Introduction
2. 1.2 Syntaxe Markdown
2. Création d'un fichier R Markdown
1. 2.1 En-tête R Markdown
2. 2.2 Mise en forme du code
3. 2.3 Insertion et exécution de code R
4. 2.4 Exécuter du code R
5. 2.5 Générer le rapport
6. 2.6 Publier son rapport avec RPubs
3. Créer sa première application Shiny
1. 3.1 Introduction
2. 3.2 Installation dans RStudio et préambule
3. 3.3 Organisation des fichiers de l'application
4. 3.4 Syntaxe des inputs et outputs
5. 3.5 Mise en page et organisation visuelle du contenu
6. 3.6 Modifier le thème de l'application
7. 3.7 Générer l'application
8. 3.8 Déployer l'application sur le Web
9. 3.9 Shiny Dashboard

Cartographie

1. Pourquoi étudier les représentations cartographiques ?
2. Accéder à l’information géographique
3. Création de cartes statiques avec R
4. Création de cartes dynamiques avec R

Autour des données

1. Présentation du chapitre
2. Appréhension directe et rapide d’un dataset
3. Analyse de la conformation des distributions par rapport à la loi normale
4. Dépendance linéaire entre variables
5. Mise en évidence de différences sur les distributions
6. Points étrangers
7. Tris et agrégats
1. 7.1 Tris automatisés
2. 7.2 Calculs sur les agrégats
3. 7.3 Extraction, pivot et tri rapide de données d’un dataframe
4. 7.4 Utilisation des jointures
  1. 7.4.1 Enrichissement d’un dataframe par une jointure
  2. 7.4.2 Jointures pour décodage ou transformation - ex. : factor to integer
5. 7.5 Applications de fonctions variables sur les données
6. 7.6 Compléments en matière de métaprogrammation
  1. 7.6.1 Quoting appliqué aux graphiques
  2. 7.6.2 Définition d’une macro

Analyse numérique et maths opérationnelles

1. Calculs numériques dans l’esprit Matlab
1. 1.1 Considérations pratiques
2. 1.2 Un aperçu de la précision de notre machine
3. 1.3 Un package possédant les mêmes instructions que Matlab
4. 1.4 Quelques compléments sur les complexes
5. 1.5 Quelques compléments sur les matrices
  1. 1.5.1 Création de matrices basiques
  2. 1.5.2 Création de matrices de nombres aléatoires
  3. 1.5.3 Calculs sur les matrices d’entiers
2. Un peu d’algèbre linéaire
1. 2.1 Exemple de création d’une base orthonormale
2. 2.2 Projection sur un sous-espace vectoriel
3. Fonctions et systèmes d’équations, 1 à n variables
1. 3.1 Fonctions d’une variable
  1. 3.1.1 Exploration de divers tracés
  2. 3.1.2 Autour des racines d’une fonction
2. 3.2 Fonctions de plusieurs variables
  1. 3.2.1 Représentation d’une fonction réelle de deux variables réelles
  2. 3.2.2 Recherche de minima d’une fonction en deux dimensions
3. 3.3 Systèmes d’équations non différentielles, linéaires ou non
  1. 3.3.1 Système d’équations linéaires
  2. 3.3.2 Système d’équations non linéaires non différentielles, n = m
4. Dérivation de fonctions
1. 4.1 Dérivée symbolique et numérique avec R-base
2. 4.2 Dérivées en utilisant des packages spécifiques
3. 4.3 Dérivée de fonctions spéciales
5. Autour de l’intégration
1. 5.1 Calcul d’une intégrale multiple
2. 5.2 Autres intégrales, dont intégrale impropre
6. Fonctions spéciales et équations différentielles
1. 6.1 Autres fonctions spéciales
  1. 6.1.1 Fonctions d’Airy et de Bessel
  2. 6.1.2 La fonction d’erreur erf
2. 6.2 Équation différentielle ordinaire normalisée d’ordre 1
3. 6.3 Équation différentielle du second degré (problème aux limites)
  1. 6.3.1 EQD linéaire (2nd degré)
  2. 6.3.2 EQD non linéaire (2nd degré)
7. Éléments pratiques de calcul différentiel
1. 7.1 Fonctions réelles d’un réel
2. 7.2 Fonctions réelles d’un vecteur
  1. 7.2.1 Calcul des dérivées partielles
  2. 7.2.2 Calculs d’opérateurs utilisant les dérivées partielles
3. 7.3 Fonctions vectorielles d’un vecteur
8. Calcul symbolique avec SymPy
1. 8.1 Documentation à consulter
2. 8.2 Accéder aux résultats dans Rmarkdown

R et Python

1. Une polémique stérile, mais une vraie question : R ou Python ?
2. Exemples de codes R et Python comparables
1. 2.1 Codes triviaux
2. 2.2 Packages
3. 2.3 Fonctions simples
4. 2.4 Structures de données
5. 2.5 Booléens
6. 2.6 Programmation de base
7. 2.7 Création de fonctions
8. 2.8 Blocs et indentation
9. 2.9 Datasets
3. Accéder à Python à partir de R
1. 3.1 Installation et initialisation du contexte technique
2. 3.2 Interactions R et Python, du point de vue R
  1. 3.2.1 Partage de variables et exécution de code Python dans le biotope R
  2. 3.2.2 Librairies Python dans du code R, exemples NLP
4. Considérations sur les cas difficiles

Deep learning avec TensorFlow et Keras

1. Deep learning selon Google
2. Installation et initialisation de votre contexte technique
3. Tenseurs TensorFlow/Keras
1. 3.1 Forme des tenseurs
2. 3.2 Manipulation des tenseurs
3. 3.3 Autre usage du framework
4. Mise au point d’un modèle de référence en utilisant caret
5. Création d’un modèle avec TensorFlow 2 et Keras
1. 5.1 Initialisation et préparation des données
2. 5.2 Étape 1 : décrire la structure du réseau
3. 5.3 Étape 2 : compiler le modèle
4. 5.4 Étape 3 : training

BigML, le machine learning pour tous

1. Introduction
2. Pour qui ?
3. Présentation de la démarche
4. Manipulation des sources de données
5. Création de projets
6. Manipulation de datasets
7. Division du jeu de données
8. Création d’un modèle de machine learning
1. 8.1 Paramétrages des modèles
2. 8.2 Visualisation du modèle
3. 8.3 Filtrage et élagage
4. 8.4 Autres visualisations
9. Évaluation du modèle
10. Partage de ses modèles
11. Réalisation d’une première prédiction
12. Utilisation du modèle dans R

Déploiement Shiny sur votre propre Cloud

1. Introduction
2. Location d’un serveur
3. Création d’une machine virtuelle
4. Se connecter à distance à votre machine
1. 4.1 Installation du client SSH
  1. 4.1.1 OpenSSH
  2. 4.1.2 GitBash
2. 4.2 Génération des clés publique et privée
3. 4.3 Gestion des paquets
5. Ajout des composants logiciels de base
6. Installation de R et de Shiny
7. Paramétrage réseau et Linux
1. 7.1 Paramétrer le VCN (Virtual Cloud Network)
2. 7.2 Gestion du firewall
3. 7.3 Se doter d’une application de monitoring : htop
4. 7.4 Se doter d’un serveur HTTP (Apache)
5. 7.5 Installation de Webmin

Annexes

1. De l'utilité de ces annexes
2. Formulas
3. Stratégies suivant la nature des données
1. 3.1 Comptages
2. 3.2 Proportions
3. 3.3 Variable de réponse binaire
4. 3.4 Données induisant un modèle mixte (mixed effect)
5. 3.5 Graphes
6. 3.6 Analyse de survie (survival analysis)
4. Filtres (sur images)
5. Distances
6. Astuces et petits conseils
1. 6.1 Sur les tests
2. 6.2 Gestion des variables
3. 6.3 Analyse et manipulation de résultats
  1. 6.3.1 Résidus
  2. 6.3.2 Manipulation des modèles
7. Packages et thèmes à étudier
1. 7.1 Créer son propre package
2. 7.2 Règles d'association
3. 7.3 Exporter un modèle
4. 7.4 Tenseurs
5. 7.5 SVM pour la détection de nouveautés (novelty detection)
8. Vocabulaire et "tricks of the trade"
1. 8.1 Compléments sur les bases du machine learning
2. 8.2 Compléments sur les aspects bayésiens
3. 8.3 Vocabulaire (dont anglais) des modèles gaussiens
9. Algorithmes à étudier
10. Quelques formulations d'algèbre linéaire
11. Bibliographie
Conclusion
Index

Avis clients

28/01/2023

livre intéressant pour débuter avec le langage R mais sans grand intérêt pour les data sciences

GILLES S

Réponse de ENI,

17/05/2023

Bonjour Gilles, Nous vous remercions pour votre retour. Le livre se découpe en 2 grandes parties : l'apprentissage du langage R dans un premier temps, puis la découverte des data sciences dans une seconde partie. Nous regrettons votre insatisfaction. Peut-être étiez vous déjà en partie formé aux data sciences ? Aviez-vous des attentes précises sur cette thématique ? Nos 2 auteurs sont des professionnels reconnus, impliqués dans des projets de data science. N'hésitez pas à découvrir leur parcours pour mieux comprendre leur approche :)L'équipe Editions ENI vous remercie.

Auteurs

Eva LAUDE

Eva LAUDE a dispensé de nombreuses formations sur le machine learning et les sciences de la donnée dans différents établissements supérieurs ou organismes privés. Elle a exercé des activités de conseil dans des secteurs variés (INSEE, entreprises de biotechnologies ou ESN) et participé à la revue académique "Management & Data Science". Geek et passionnée, elle s'exprime au travers d'une "stack" logicielle très étendue, dans des contextes de développement en Python ou R, et intervient dans des environnements Linux particulièrement sensibles en termes de disponibilité et de confidentialité.

Henri LAUDE

Henri LAUDE est un professionnel reconnu des Computer Sciences. Il a encadré de nombreux travaux de R&D sur les data sciences, l'IA, les Fintech, la détection de fraudes et le déploiement d’architectures Big Data. Il est co-fondateur d’Advanced Research Partners, où il anime la conception d'algorithmes très novateurs. Primé à plusieurs reprises pour ses solutions innovantes, comme au Data Intelligence Forum avec une IA spécialisée dans l’intelligence économique nommée DxM (pour Deus eX Machina), il intervient sur des projets aussi variés que l’élaboration d’un exosquelette intelligent ou les IA de cyber protection.