Blog ENI : Toute la veille numérique !
🐠 -25€ dès 75€ 
+ 7 jours d'accès à la Bibliothèque Numérique ENI. Cliquez ici
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
  1. Livres et vidéos
  2. Data Scientist et langage R
  3. Premiers pas avec R
Extrait - Data Scientist et langage R Autoformation aux bases de l'intelligence artificielle dans l'univers de la data (3e édition)
Extraits du livre
Data Scientist et langage R Autoformation aux bases de l'intelligence artificielle dans l'univers de la data (3e édition)
1 avis
Revenir à la page d'achat du livre

Premiers pas avec R

Installation des composants

L’installation et l’invocation des composants de base sont aisées. Voyons comment procéder.

1. Installation et lancement de R

Tout d’abord il faut installer R lui-même en fonction de votre plateforme de travail.

R est disponible à l’URL suivante : https://cran.r-project.org/

Si vous travaillez sous Unix, Linux ou l’un de leurs OS dérivés, il serait plus pratique d’utiliser votre gestionnaire de packages habituel plutôt que d’installer à partir du site CRAN (Ubuntu [Synaptic], dpkg [Debian], pkg [Mac OS X], RPM [Red Hat]...).

En ce qui concerne Windows, au moment où on vous demande de choisir entre la version 64 bits (le plus courant aujourd’hui) et 32 bits, essayez 64 bits si votre machine le permet. À notre sens, il faut éviter d’installer les deux simultanément car cela crée parfois de petits problèmes techniques, en particulier pour les packages R qui font appel à Java en arrière-plan.

Après l’installation, pour lancer l’interface homme-machine de R, il vous suffit de cliquer sur son icône.

Pour tester votre installation, il est judicieux de créer un nouveau script R. Pour cela tapez simultanément sur les touches [Ctrl] N, ce qui ouvrira une deuxième fenêtre.

Dans cette fenêtre, entrez un calcul simple comme 1+1. Puis entrez [Ctrl] R sur la ligne du calcul à effectuer (ou sur une sélection de lignes). Le résultat apparaît alors dans la première fenêtre qui se nomme console.

Pour sauver ce script, entrez [Ctrl] S, parcourez votre système de fichiers, choisissez un lieu pour déposer le fichier et nommez-le monscript.R en faisant bien attention à lui donner l’extension .R en majuscule. Pour ouvrir un script existant, il suffit d’entrer [Ctrl] O et de chercher le script sur votre machine.

Toutes ces manipulations peuvent être effectuées en utilisant les menus et les icônes à votre disposition dans l’interface homme-machine de R.

Il existe des interfaces homme-machine plus agréables pour manipuler R, pour notre part nous aimons utiliser RStudio.

2. Installation et lancement de RStudio

Vous trouverez RStudio à l’URL suivante : https://www.rstudio.com/...

Prise en main de R

Suivant ses besoins et ses compétences, l’utilisateur peut utiliser R à des niveaux d’abstraction et de puissance très variables. R peut donc servir de calculatrice sophistiquée, d’univers d’initiation aux statistiques, aux data sciences et à la programmation ou comme puissant outil pour les chercheurs ou les data scientists confirmés, y compris dans les environnements Big Data. 

Les sections qui suivent ont la prétention de vous permettre un usage efficace de R dans le cadre des data sciences, non comme développeur de packages R, mais comme data scientist mettant au point des prototypes de bonne facture. Notre choix de syntaxe et de style de programmation est d’abord didactique, dans un souhait de bonne lisibilité et d’illustration de diverses idées importantes dans nos pratiques. Notre objectif n’est pas d’effectuer un parcours systématique de R ni de vous décrire R comme pourrait l’appréhender un informaticien ou même un statisticien.

La bonne assimilation de ce chapitre n’en est pas moins importante, car elle devrait vous ouvrir le chemin vers une véritable efficacité opérationnelle de l’utilisation de R comme data scientist. L’efficacité opérationnelle dont nous parlons ici ne signifie pas une expertise en R, une quelconque orthodoxie à la philosophie de ce langage ou la garantie de bonnes performances. À l’inverse, nous imaginons que cette prise en main vous permettra d’exprimer toutes vos idées, de comprendre le code de vos pairs et les exemples disponibles dans la littérature scientifique et dans l’aide des packages R à votre disposition.

1. R, une calculatrice efficace

Les commandes décrites plus bas peuvent être directement exécutées dans la console de RStudio, mais nous vous conseillons de saisir ce code dans un script R dans RStudio, puis de l’exécuter ligne par ligne pour bien vous imprégner de la syntaxe.

Après chaque ligne, regardez attentivement l’évolution des variables dans la fenêtre Environnement (en haut à droite de RStudio par exemple). Pour progresser dans la maîtrise du langage, il est impératif de se donner de petits challenges personnels...

Manipulation des données

1. Lecture des données : les bases

Pour vos manipulations de base, les fichiers que vous aurez le plus souvent l’occasion de manipuler sont les fichiers .csv (c’est un format d’export commun à de nombreuses applications, dont Excel).

Pour charger de tels fichiers, il faut définir les séparateurs de champs, le symbole qui encode la virgule des décimaux, le fait qu’il y ait ou pas des titres aux colonnes, les caractères correspondant à des données manquantes et le type d’encodage du fichier (typiquement UTF8). Si vous n’avez pas ces informations, vous pouvez procéder par essais successifs et converger rapidement vers une lecture efficace de votre fichier. Souvent il suffit d’ouvrir le fichier avec un éditeur comme Emacs ou Notepad++ pour savoir ce à quoi vous avez affaire.

Voici un code typique, qui va lire un fichier que vous trouverez sur le site compagnon de cet ouvrage. Vérifiez préalablement que vous avez bien déposé votre fichier .csv dans votre répertoire de travail RStudio (panneau Files).

Sinon, spécifiez votre nouvel emplacement de travail avec la commande setwd().

## Lire les données                                              ## 
 
data <- read.csv("datatest1.csv",  
               sep=";",  
               dec=",",  
               na.strings=c(".", "NA", "", "?","#DIV/0!"),  
               strip.white=TRUE,  
               encoding="UTF-8") 

Si vous double cliquez sur data dans la fenêtre en haut à droite de RStudio, vous obtenez un tableau dont voici les premières lignes.

images/C0207.png

Visualisation de data dans RStudio

La dernière colonne correspond à une classe que nous allons transformer en factors.

data$classe=as.factor(data$classe) # il est prudent de transformer 
                            ...