1. Livres et vidéos
  2. Langage R - Prendre en main les statistiques - Complément vidéo : Accéder à tous types de données

Langage R - Prendre en main les statistiques Complément vidéo : Accéder à tous types de données

  • Accès illimité 24h/24, 7J/7
  • Tous les livres en ligne, les vidéos et les cours enregistrés ENI
  • Plus de 10 nouveautés livres et vidéos chaque mois
  • Les nouveautés disponibles le jour de leur sortie
  • Accès 100% en ligne
  • En stock
  • Expédié en 24h00
  • Livraison à partir de 0,01 €
  • Version en ligne offerte
  • 1 h d'accès gratuit à tous nos livres et vidéos pour chaque commande
  • Accessible immédiatement
  • Version HTML
  • Accès illimité 24h/24, 7J/7

Présentation

Ce livre de la collection vBook se compose d'un livre de référence sur le langage R pour lever la complexité apparente de ce puissant langage et permettre une prise en main aisée des statistiques de premier cycle et d'un approfondissement sous forme de vidéo pour apprendre à récupérer des données issues de diverses sources avec ce langage dédié à la Data Science.


Livre Langage R - Prendre en main les statistiques

R est un langage statistique très riche en fonctionnalités de traitement des données. Il permet l'extraction de données de sources variées, leur traitement et leur organisation. Plus encore, la multiplicité des systèmes de visualisation graphique et les nombreuses fonctions de modélisation statistique font de ce langage un outil statistique redoutable.

Avec ce livre, les auteurs proposent une présentation de R ayant pour objectif de lever la complexité apparente de ce puissant langage et de permettre une prise en main aisée des statistiques de premier cycle.

Dans la première partie du livre, le lecteur découvre de manière détaillée les fondamentaux du langage R : les variables et la syntaxe des opérations de base, les structures de données, les outils du langage pour programmer notamment les structures de contrôles, les fonctions et même la conception de packages.

Dans la seconde partie, les auteurs traitent des problématiques métiers liées aux outils d'importation et d'exportation de données, d'analyse basique et de visualisation des données, aux outils de simulation et d'inférences statistiques et aux modèles statistiques classiques (ANOVA, régression linéaire, etc.).

Chaque concept abordé est accompagné d'exemples pratiques commentés pour guider le lecteur dans son apprentissage du langage pour le traitement des statistiques de base.

Des éléments complémentaires sont disponibles en téléchargement sur le site www.editions-eni.fr.


Vidéo Langage R - Accéder à tous types de données

Cette vidéo de formation s'adresse à toute personne souhaitant récupérer des données issues de diverses sources avec le langage R, langage open source dédié à la Data Science.

Après quelques rappels sur R et son environnement R Studio, vous découvrirez, à travers différents exemples de jeux de données, qu'il est très facile d'y accéder et ce quel que soit le format initial (CSV, Excel, base de données relationnelle SQL, API et base de données NoSQL MongoDB).

Pour chaque jeu de données, vous verrez ainsi comment les importer dans R et comment réaliser un exemple de visualisation graphique (nuage de points, graphique en bâtons, nuage de mots ou encore graphiques dynamiques pour le web).

Table des matières

  • Introduction à R
    • 1. Introduction
    • 2. R, un langage statistique
      • 2.1 Histoire de R
      • 2.2 Les caractéristiques de R
      • 2.3 Installer une distribution R
        • 2.3.1 R-Project de CRAN
        • 2.3.2 Autres distributions R
    • 3. Quelques IDE pratiques
      • 3.1 RStudio
        • 3.1.1 Téléchargement et installation
        • 3.1.2 Exploration de RStudio Desktop
        • 3.1.3 Créer un projet avec RStudio
      • 3.2 Outils R pour Visual Studio (RTVS)
        • 3.2.1 Installation de RTVS avec VS 2017
        • 3.2.2 Découverte de RTVS
  • Types de variables et opérations R
    • 1. Introduction
    • 2. Session interactive R
      • 2.1 La console R
        • 2.1.1 Exécution d'une instruction
        • 2.1.2 Commentaire R
        • 2.1.3 Configuration des sorties ou affichage des résultats
        • 2.1.4 Quitter la console
      • 2.2 L'aide interactive R
        • 2.2.1 L'aide de base
        • 2.2.2 Les vignettes et démonstrations
    • 3. Les variables R
      • 3.1 Création de variables
      • 3.2 Variables et espace de travail
        • 3.2.1 Le cycle de vie des variables
        • 3.2.2 Gestion de l'espace de travail
      • 3.3 Les noms de variables et mots réservés
        • 3.3.1 Les noms de variables
        • 3.3.2 Les mots réservés
      • 3.4 Les constantes natives R
    • 4. Types de vecteur atomique
      • 4.1 Les nombres
        • 4.1.1 Créer des objets numériques
        • 4.1.2 Créer des nombres complexes
        • 4.1.3 Opérateurs et opérations arithmétiques
      • 4.2 Les chaînes de caractères
      • 4.3 Les booléens
    • 5. Les dates et heures
      • 5.1 La classe Date
        • 5.1.1 Création des dates
        • 5.1.2 Les opérations sur les dates
      • 5.2 La classe POSIXt
        • 5.2.1 Création d'objet POSIXct et POSIXcl
        • 5.2.2 Opération sur les objets POSIXt
    • 6. Les valeurs ou données spéciales
      • 6.1 Les valeurs manquantes ou Missing data
      • 6.2 Inf ou infini
      • 6.3 NaN ou « Not a Number »
      • 6.4 NULL
    • 7. Les packages
      • 7.1 Gestion des packages
        • 7.1.1 Télécharger et installer un package
        • 7.1.2 La mise à jour et la suppression des packages
      • 7.2 Charger et décharger un package
        • 7.2.1 Charger le package dans l'environnement
        • 7.2.2 Solliciter le package sans le charger
        • 7.2.3 Décharger un package
      • 7.3 Création de package
  • Structure des données avec R
    • 1. Introduction
    • 2. Les vecteurs
      • 2.1 Création de vecteur
      • 2.2 Manipulations d’un vecteur
        • 2.2.1 Indexation numérique d’un vecteur
        • 2.2.2 Indexation booléenne d’un vecteur
        • 2.2.3 Indexation nommée d’un vecteur
        • 2.2.4 Quelques fonctions d'extraction ou d'indexation
      • 2.3 Travailler avec des vecteurs numériques
        • 2.3.1 Générer des vecteurs séquentiels
        • 2.3.2 Les opérations sur les vecteurs numériques
      • 2.4 Créer des séries de dates
      • 2.5 Les fonctions de vecteur de chaînes de caractères
        • 2.5.1 La fonction paste()
        • 2.5.2 La fonction cat()
        • 2.5.3 La fonction sprintf()
        • 2.5.4 La fonction nchar()
        • 2.5.5 Les fonctions substr() et substring()
        • 2.5.6 Les fonctions toupper() et tolower()
        • 2.5.7 Les fonctions chartr() et replace()
        • 2.5.8 La fonction strsplit()
        • 2.5.9 Les fonctions grep() et grepl()
        • 2.5.10 Les fonctions regexpr() et gregexpr()
        • 2.5.11 La fonction gsub()
      • 2.6 Cas des vecteurs booléens
      • 2.7 Autres opérations génériques sur les vecteurs
        • 2.7.1 Suppression de doublons
        • 2.7.2 Les opérations ensemblistes
        • 2.7.3 La gestion de valeurs manquantes
    • 3. Les matrices
      • 3.1 Construction d'une matrice
        • 3.1.1 Le constructeur matrix()
        • 3.1.2 Combiner des vecteurs en matrice
        • 3.1.3 Convertir un objet en matrice
      • 3.2 Dimension d’une matrice
      • 3.3 Nommer les lignes et colonnes d’une matrice
      • 3.4 Manipuler une matrice
        • 3.4.1 Indexation numérique des matrices
        • 3.4.2 Indexation booléenne des matrices
        • 3.4.3 Indexation par les noms des colonnes et des lignes
      • 3.5 Calculs matriciels
        • 3.5.1 Opérations arithmétiques
        • 3.5.2 Les multiplications matricielles
        • 3.5.3 Les matrices spéciales
        • 3.5.4 La transposée, le déterminant et l'inverse d'une matrice
        • 3.5.5 Valeurs et vecteurs propres d'une matrice
        • 3.5.6 Décomposition d'une matrice
    • 4. Les tableaux multidimensionnels avec array()
      • 4.1 Création d'un tableau multidimensionnel
      • 4.2 Nommer un tableau multidimensionnel
      • 4.3 Extraction d'éléments d'un tableau multidimensionnel
    • 5. Les facteurs ou variables catégoriels
      • 5.1 Création d’un facteur
      • 5.2 Modification des modalités d’un facteur
      • 5.3 Cas des variables ordinales
      • 5.4 Cas des variables continues
      • 5.5 Les variables catégorielles et la fonction table()
      • 5.6 Les dates et la fonction factor()
    • 6. Les data frame
      • 6.1 Description d’un data frame
      • 6.2 Construction d’un data frame
      • 6.3 Dimension d’un data frame
      • 6.4 Nommer les colonnes et lignes d’un data frame
      • 6.5 Manipulation d’un data frame
        • 6.5.1 Extraction de colonnes ou variables
        • 6.5.2 Extraction des lignes ou des individus
        • 6.5.3 Extraire un élément ou une valeur quelconque
        • 6.5.4 Ajout de colonnes ou de lignes dans un data frame
        • 6.5.5 Suppression des colonnes ou de lignes
        • 6.5.6 Empiler et désempiler un data frame
        • 6.5.7 La transposition de data frame avec reshape()
        • 6.5.8 Le tri d’un data frame
        • 6.5.9 La fonction aggregate()
        • 6.5.10 La fonction summary()
        • 6.5.11 La fonction by()
        • 6.5.12 La famille des fonctions apply()
    • 7. Les listes
      • 7.1 Construction d’une liste
      • 7.2 Indexation des objets d’une liste
        • 7.2.1 Extraction à l'intérieur des crochets ou doubles crochets
        • 7.2.2 Extraction avec l'opérateur dollar $
        • 7.2.3 Extraction avec la structure attach() ... detach()
  • La programmation avec R
    • 1. Introduction
    • 2. Les structures de contrôle
      • 2.1 Les structures de groupage d'instructions
        • 2.1.1 Le point-virgule
        • 2.1.2 Les accolades
      • 2.2 Les structures conditionnelles
        • 2.2.1 La structure if...else
        • 2.2.2 La structure switch()
      • 2.3 Les structures de répétition ou boucles
        • 2.3.1 La boucle for et les commandes break, next
        • 2.3.2 La boucle while
        • 2.3.3 La boucle repeat ... break
    • 3. Les fonctions
      • 3.1 Création d'une fonction
      • 3.2 Les arguments par défaut
      • 3.3 La commande return()
      • 3.4 Les fonctions avec des arguments ... (indéfinis)
      • 3.5 Les fonctions avec do.call()
      • 3.6 Les fonctions anonymes
      • 3.7 Les fonctions replacement
      • 3.8 Les fonctions infixes
      • 3.9 Les fonctions récursives
    • 4. L’environnement R et la portée des objets
    • 5. Optimisation du code
      • 5.1 La vectorisation
        • 5.1.1 La fonction apply()
        • 5.1.2 La fonction sapply() ou lapply() et mapply()
        • 5.1.3 La fonction rapply()
        • 5.1.4 La fonction tapply()
        • 5.1.5 La fonction eapply()
        • 5.1.6 La fonction replicate()
      • 5.2 R et le langage C/C++
      • 5.3 Gestion des exceptions et des erreurs
        • 5.3.1 Alerter sur une erreur
        • 5.3.2 Gérer les exceptions avec try()
        • 5.3.3 Gérer les exceptions avec tryCatch()
    • 6. La programmation orientée objets (POO) avec R
      • 6.1 Classe S3
        • 6.1.1 Définition d'une classe
        • 6.1.2 Définir un constructeur
        • 6.1.3 Définir des méthodes membres d'une classe
        • 6.1.4 Modèle UML de la classe stock()
      • 6.2 Classe S4
        • 6.2.1 Définition de la classe et ses attributs
        • 6.2.2 Constructeur new()
        • 6.2.3 Définir les méthodes membres de classes
      • 6.3 Classe R5 ou RC
        • 6.3.1 Créer une classe R5 ou RC
        • 6.3.2 Les méthodes membres de la classe
    • 7. Conception de package ou R
      • 7.1 Structure d'un package
        • 7.1.1 Installer les outils
        • 7.1.2 Générer l'architecture du package
      • 7.2 Le fichier DESCRIPTION
      • 7.3 Doter le package de jeux de données
        • 7.3.1 Créer le dossier data
        • 7.3.2 Documenter les jeux de données
      • 7.4 Ajouter les fonctions
      • 7.5 Créer une vignette
      • 7.6 Documenter le package
      • 7.7 Installer et utiliser le package
      • 7.8 Partager le package
  • Importer et exporter des données avec R
    • 1. Introduction
    • 2. Saisir/éditer les données depuis le clavier
      • 2.1 Les fonctions readline(), scan() et readClipboard()
        • 2.1.1 La fonction readline()
        • 2.1.2 La fonction scan()
        • 2.1.3 La fonction readClipboard()
      • 2.2 La fonction textConnection()
      • 2.3 Les fonctions edit()/fix() et la fonction data.entry()
        • 2.3.1 La fonction edit()
        • 2.3.2 La fonction fix()
        • 2.3.3 La fonction data.entry()
    • 3. Accéder aux données depuis un fichier de données
      • 3.1 Fichier texte délimité
        • 3.1.1 La fonction read.table()
      • 3.2 Fichier CSV
      • 3.3 Fichier Excel
        • 3.3.1 Package xlsx
        • 3.3.2 Package XLConnect
        • 3.3.3 Package readxl
      • 3.4 Fichier XML
        • 3.4.1 Analyse de la structure d'un fichier XML
        • 3.4.2 La conversion en data frame
      • 3.5 Fichier JSON
    • 4. Importer des données d’autres logiciels d’analyse de données
      • 4.1 Logiciel IBM SPSS : *.sav
        • 4.1.1 Le package foreign
        • 4.1.2 Le package haven
      • 4.2 Logiciel SAS : *.sas7bdat
        • 4.2.1 Le package sas7bdat
        • 4.2.2 Le package haven
      • 4.3 Logiciel Stata : *.dta
      • 4.4 Le logiciel MATLAB : *.mat
    • 5. Télécharger des données depuis le Web
      • 5.1 Télécharger un fichier de données grâce à l'URL
      • 5.2 Extraire les données d'un tableau HTML
      • 5.3 Importer spécialement des données financières
    • 6. Accéder aux données depuis une base de données
      • 6.1 Base de données MySQL
        • 6.1.1 Le package RMySQL
        • 6.1.2 Le package RODBC
      • 6.2 Base de données Microsoft Access
      • 6.3 Importer de gros volumes de données
        • 6.3.1 Le package data.table
        • 6.3.2 Le package readr
        • 6.3.3 Le package sqldf
    • 7. Exporter des données
      • 7.1 Fichier texte délimité
      • 7.2 Fichier CSV
      • 7.3 Fichier Microsoft Excel
      • 7.4 Exporter les données sous les formats de données R
        • 7.4.1 Les fonctions save() et save.image()
        • 7.4.2 Les fonctions dput() et dump()
      • 7.5 Exporter des données sous des formats lisibles par d'autres logiciels statistiques
        • 7.5.1 Le package haven
        • 7.5.2 Le package foreign
  • Introduction à l'analyse de données
    • 1. Introduction
    • 2. Préparation des jeux de données
      • 2.1 Charger et comprendre les données
      • 2.2 La gestion des données manquantes
        • 2.2.1 Inspecter l'existence des données manquantes
        • 2.2.2 Le traitement des données manquantes
    • 3. Analyse descriptive des variables quantitatives
      • 3.1 Cas univarié
        • 3.1.1 Mesures de tendance centrale
        • 3.1.2 Mesures de dispersion
        • 3.1.3 Mesures de forme
        • 3.1.4 Indice de Gini et Courbe de Lorenz
        • 3.1.5 Les fonctions sommaires des indicateurs
      • 3.2 Cas bivarié
        • 3.2.1 La covariance
        • 3.2.2 Le coefficient de corrélation
    • 4. Analyse descriptive des variables catégorielles
      • 4.1 Tableaux statistiques pour les variables catégorielles
        • 4.1.1 Les tableaux de fréquences
        • 4.1.2 Les tableaux de contingence
      • 4.2 Statistique des tableaux de contingence
        • 4.2.1 Les tableaux de fréquences et les statistiques marginales
        • 4.2.2 Le package prettyR
        • 4.2.3 Sommaire statistique avec les variables catégorielles
    • 5. Visualisation graphique des données
      • 5.1 Explorer le package ggplot2
        • 5.1.1 Aperçu graphique rapide avec qplot()
        • 5.1.2 Graphique avancé avec ggplot()
      • 5.2 Visualisation graphique avec ggplot2
        • 5.2.1 Diagramme en barres
        • 5.2.2 Diagramme en secteurs
        • 5.2.3 Histogramme
        • 5.2.4 Boxplot ou diagramme en boîte à moustache
        • 5.2.5 Graphique à lignes
        • 5.2.6 Graphique à nuage de points
        • 5.2.7 Matrice de corrélation avec GGally
        • 5.2.8 Autres fonctions statistiques
  • Probabilité et inférence paramétrique
    • 1. Introduction
    • 2. Simulation
      • 2.1 Probabilité et dénombrement
        • 2.1.1 Arrangement
        • 2.1.2 Permutation
        • 2.1.3 Combinaison
      • 2.2 Tirage aléatoire d'échantillon
        • 2.2.1 La fonction sample()
        • 2.2.2 La reproductibilité des valeurs aléatoires
        • 2.2.3 Répétition d'une expérience avec replicate()
      • 2.3 Notion de variable aléatoire
        • 2.3.1 Cas d'une variable aléatoire discrète
        • 2.3.2 Cas d'une variable aléatoire continue
      • 2.4 Les fonctions R des distributions de probabilité
        • 2.4.1 Vocabulaire des fonctions de distribution R
        • 2.4.2 Tables des lois et leur équivalent R
      • 2.5 Quelques lois de densité univariées
        • 2.5.1 La loi Normale
        • 2.5.2 La loi de Student ou T- distribution
        • 2.5.3 La loi de Khi-deux
        • 2.5.4 La loi de Fisher
      • 2.6 Le théorème central limite
    • 3. Estimation par intervalle de confiance
      • 3.1 Intervalle de confiance d'une moyenne
        • 3.1.1 Formulation
        • 3.1.2 Application avec R
      • 3.2 Intervalle de confiance d'une médiane
        • 3.2.1 Formulation
        • 3.2.2 Application avec R
      • 3.3 Intervalle de confiance d'une proportion
        • 3.3.1 Formulation
        • 3.3.2 Application avec R
      • 3.4 Intervalle de confiance d'une variance
        • 3.4.1 Formulation
        • 3.4.2 Application avec R
    • 4. Tests d'hypothèses
      • 4.1 Terminologie
        • 4.1.1 Formulation d'un test
        • 4.1.2 Les types d'erreurs et puissance d'un test
        • 4.1.3 La statistique du test et la p-value
      • 4.2 Tests d'indépendance
        • 4.2.1 Test de Khi-deux
        • 4.2.2 Test de Khi-deux avec correction de Yates
        • 4.2.3 Simulation de Monte-Carlo
        • 4.2.4 Test de Fisher exact
      • 4.3 Tests d'hypothèses de la moyenne
        • 4.3.1 Test de conformité
        • 4.3.2 Test de comparaison de deux échantillons indépendants
        • 4.3.3 Test de comparaison de deux échantillons appariés
        • 4.3.4 ANOVA
      • 4.4 Tests d'hypothèses de la proportion
        • 4.4.1 Test de conformité
        • 4.4.2 Test de comparaison à échantillons indépendants
      • 4.5 Tests d'hypothèses de la variance
        • 4.5.1 Test de conformité
        • 4.5.2 Test de comparaison pour deux échantillons
      • 4.6 Tests d'hypothèse de la corrélation
        • 4.6.1 Test de conformité
        • 4.6.2 Test de comparaison
      • 4.7 Analyse de puissance
        • 4.7.1 Les fonctions R
        • 4.7.2 Les fonctions du package pwr
      • 4.8 Tests non paramétriques
        • 4.8.1 Test de normalité Shapiro-Wilk
        • 4.8.2 Test de distribution de Kolmogorov-Siminorov
        • 4.8.3 Test d'ajustement de X 2
        • 4.8.4 Test de corrélation de Kendall et de Spearman
        • 4.8.5 Test d'égalité de variance de Bartlett
        • 4.8.6 Le test U de Mann-Whitney ou test de somme de rangs de Wilcoxon
        • 4.8.7 Test de Kruskall-Wallis
    • 5. Méthodes de rééchantillonnage
      • 5.1 Boostrap
        • 5.1.1 Démarche
        • 5.1.2 Illustration avec le package boot
      • 5.2 Jackknife
        • 5.2.1 Démarche
        • 5.2.2 Illustration avec le package boostrap
  • Modèles statistiques classiques
    • 1. Introduction
    • 2. Analyse de la variance (ANOVA)
      • 2.1 Expression de modèles avec les objets formula
        • 2.1.1 Formulation d'un modèle
        • 2.1.2 Les opérateurs R pour l'expression de relations
        • 2.1.3 Quelques opérations et fonctions utiles aux objets formula
      • 2.2 ANOVA à un facteur ou simple entrée
        • 2.2.1 Modèle et hypothèses
        • 2.2.2 ANOVA à un facteur avec R
        • 2.2.3 Tests « post-hoc »
      • 2.3 ANOVA à double facteur ou entrée
        • 2.3.1 ANOVA à deux facteurs avec R
        • 2.3.2 Tests « post-hoc »
    • 3. Modèles de régression linéaire
      • 3.1 Régression linéaire simple
        • 3.1.1 Formalisation et estimation
        • 3.1.2 Modèle de régression linéaire simple avec R
        • 3.1.3 Sommaire du résultat de lm()
        • 3.1.4 Diagnostic de la régression
        • 3.1.5 Détection des points ou observations atypiques
        • 3.1.6 Prédiction
      • 3.2 Régression linéaire multiple
        • 3.2.1 Formalisation et estimation
        • 3.2.2 Régression linéaire multiple avec R
      • 3.3 Sélection de variables et choix du modèle
        • 3.3.1 Les indicateurs ou critères de sélection
        • 3.3.2 Algorithmes de sélection
        • 3.3.3 Application avec R
      • 3.4 Problème de colinéarité et régressions robustes
        • 3.4.1 Définition et détection de la colinéarité
        • 3.4.2 Les régressions régularisées
        • 3.4.3 Les régressions régularisées en pratique
        • 3.4.4 La régression sur composantes principales
  • Conclusion
    • Index

Auteurs

Aline DESCHAMPSEn savoir plus

Issue d'une formation en mathématiques appliquées à la statistique, Aline DESCHAMPS est Data Scientist et spécialiste du langage R depuis presque 10 ans. Fondatrice de la société DACTA, dont la mission principale est d'accompagner les entreprises dans la valorisation de leurs données, Aline est également évangéliste du langage R via de nombreux vecteurs : formations, tutoriels, vidéos et organisations de rencontres Meetup.

Daname KOLANIEn savoir plus

Consultant scientifique chez EphiQUANT Sarl, Daname KOLANI dispense des formations en statistique, en finance, économétrie et bien des domaines connexes aux sciences des données.

Vincent ISOZEn savoir plus

Consultant scientifique chez Scientific Evolution Sarl, Vincent ISOZ exerce depuis plusieurs années dans le conseil et la formation sur les techniques quantitatives pour les hauts potentiels.

Caractéristiques

  • Niveau Initié à Confirmé
  • Nombre de pages 748 pages
  • Parution novembre 2019
    • Livre (broché) - 17 x 21 cm
    • ISBN : 978-2-409-02155-8
    • EAN : 9782409021558
    • Ref. ENI : VKRISTATR
  • Niveau Confirmé à Expert
  • Parution novembre 2019
    • HTML
    • ISBN : 978-2-409-02156-5
    • EAN : 9782409021565
    • Ref. ENI : LNVKRISTATR

Téléchargements

En complétant ce formulaire, vous acceptez d'être contacté afin de recevoir des informations sur nos produits et services ainsi que nos communications marketing. Vous aurez la possibilité de vous désabonner de nos communications à tout moment. Pour plus d'informations sur notre politique de protection des données, cliquez ici.
  • Des fichiers complémentaires (RISTATR) - 46,2 Mo
  • Des fichiers complémentaires (VTRDO) - 589 Ko