Mise en place de l'environnement de travail

Name: Python pour la Data Science Analysez vos données par la pratique avec NumPy, Pandas, Matplotlib et Seaborn
Rating: 3.5 (4 reviews)

Introduction : pourquoi utiliser Python pour la Data Science ?

Python est un langage de programmation libre de droits, populaire et utilisé dans énormément de domaines. Il est utilisé dans le domaine scientifique pour l’analyse de données, et plus généralement la Data Science, mais aussi pour développer des applications web, des jeux, des interfaces graphiques d’outils, ou encore pour faire du développement logiciel en général. Il propose un ensemble complet de librairies dédiées à la Data Science et donc des fonctions facilitant la manipulation de données, les analyses statistiques sur ces données et leur visualisation, notamment.

Son concurrent direct est le langage R, langage dédié à l’analyse statistique pensé par les statisticiens, contrairement à Python qui est un langage très généraliste et applicable à de larges domaines. Ces deux langages, R et Python, sont très utilisés en Data Science, mais depuis quelques années, Python est devenu plus populaire auprès du Data Scientist, en fait, depuis l’apparition des librairies dédiées à la Data Science.

Python est un langage de programmation facile à apprendre car il possède une syntaxe très simple et une documentation très fournie. De plus, dans...

Introduction à IPython et Jupyter

1. Introduction à IPython

iPython (pourInteractive Python ou Python interactif en français) est apparu avant le projet Jupyter et avait pour but de fournir un interpréteur interactif pour le langage de programmation Python. Il simplifiait le développement en Python avec des fonctionnalités avancées comme la coloration syntaxique, la complétion des noms de fonctions, mots-clés, variables, etc.

Plus tard, d’autres composants ont été ajoutés à IPython, comme les notebooks. Les notebooks sont des pages web interactives permettant de représenter et interpréter le code Python et donc d’afficher les résultats de ce code, cela simplifiant notamment l’analyse de données.

Plus tard, le projet Jupyter a vu le jour et tous les composants non spécifiques du langage Python, comme par exemple les notebooks, ont été ajoutés au projet Jupyter. Le but de cette manœuvre était de pouvoir se concentrer sur le développement des notebooks et de les adapter à d’autres langages de programmation que Python. L’autre objectif était de recentrer IPython sur son rôle premier : faire du Python interactif en développant toujours plus le shell interactif Python plutôt que les notebooks.

Un shell, ou terminal interactif est un interpréteur...

Qu’est-ce qu’Anaconda ?

Anaconda est tout simplement la distribution Python et R la plus connue et la plus utilisée en Data Science car cette plateforme est dédiée à ce domaine précisément. En effet, c’est une distribution libre qui contient non seulement les environnements Python et R mais aussi toutes les librairies essentielles pour pouvoir faire de la Data Science (par exemple pour Python : NumPy, Pandas, Matplotlib, pour ne citer qu’elles). De plus, la distribution Anaconda inclut Jupyter Notebook, RStudio et beaucoup d’autres applications essentielles à la Data Science. Nous utiliserons uniquement Jupyter Notebook et le kernel IPython sous Anaconda, mais il est bon de savoir que cette distribution inclut les deux langages de programmation les plus populaires en Data Science.

Cette distribution est très simple à installer, elle est supportée sur Windows, MacOS et Linux et possède une large communauté d’utilisateurs ainsi qu’une documentation très complète (en anglais). Encore mieux, une interface graphique a été développée pour cette distribution ; elle s’appelle Anaconda Navigator et permet en quelques clics d’installer de nouveaux packages (ou librairies), de créer de nouveaux environnements, d’accéder aux applications, etc.

En vous espérant convaincus...

Installation d’Anaconda

1. Installation sur Windows

Rendez-vous à l’adresse https://www.anaconda.com/products/individual.

En fin de page, vous accédez à la partie de téléchargement d’Anaconda. Si vous êtes sous Windows, cliquez sur le lien Python 3.7 correspondant à l’architecture Windows que vous avez, 64-Bit ou 32-Bit. Si votre ordinateur est récent, prenez la version 64-Bit, si vous ne savez pas, prenez la 32-Bit. Un fichier à l’extension .exe se téléchargera.

Une fois téléchargé, exécutez le fichier.exe en cliquant dessus. La fenêtre d’installation d’Anaconda s’ouvre, comme sur l’image suivante :

Cliquez sur Next, puis I Agree pour accepter la licence, laissez cochée l’option Just Me et cliquez sur Next. Laissez le chemin d’installation par défaut et cliquez sur Next. Laissez la case cochée par défaut et cliquez sur Install. Une fois l’installation terminée, cliquez sur Next, Next et Finish.

Si vous cliquez sur le bouton Démarrer de Windows et que vous recherchez le motAnaconda, vous verrez une icône appelée Anaconda Navigator. Vous pouvez cliquer dessus pour ouvrir Anaconda Navigator, c’est par là que tout va commencer, et cela vous sera expliqué juste après la partie Installation....

Découverte d’Anaconda Navigator

1. Applications disponibles dans Anaconda Navigator

Anaconda Navigator propose différentes applications disponibles directement lors de l’ouverture de l’outil. Sur l’image ci-dessous, voici les trois outils dont nous parlerons dans cette section, car tous les trois concernent Python et la Data Science.

Parlons tout d’abord de Jupyter Notebook, l’application que nous utiliserons tout au long de ce livre. Cette application permet donc de créer des notebooks avec Python, notamment, et dans notre cas, de créer des rapports d’analyse.

Jupyter Lab intègre Jupyter Notebook mais aussi d’autres fonctionnalités et est, dans un sens, plus compliquée à prendre en main et ne nous apporterait pas grand-chose par rapport à Jupyter Notebook. Ainsi, nous ne l’utiliserons pas dans ce livre car son interface est plus complexe que celle de Jupyter Notebook et parce que Jupyter Notebook est largement suffisant pour apprendre à utiliser Python pour le domaine de la Data Science.

Ensuite vient l’application Spyder (Scientific Python Development EnviRonment), qui est un environnement de développement intégré (abrégé IDE) pour Python adapté à l’usage scientifique, avec des librairies très utilisées en Data Science directement intégrées (Matplotlib, Numpy...

Prise en main de Jupyter Notebook

1. Tableau de bord de Jupyter Notebook

Pour ouvrir Jupyter Notebook, il faut ouvrir Anaconda Navigator, puis cliquer sur le bouton Launch situé sous l’application Jupyter Notebook.

L’application démarre et un navigateur web s’ouvre. En regardant l’adresse de l’application, vous pouvez voir qu’elle se lance sur le port 8888 de votre machine (ou éventuellement sur le port 8889 ou 8890).

Sur l’exemple de l’auteur, le lien est le suivant : http://localhost:8890/tree

En lançant Jupyter Notebook, vous êtes renvoyé automatiquement sur son tableau de bord, que nous allons découvrir ensemble à présent.

Vous pouvez voir qu’il y a trois onglets disponibles sur le tableau de bord : Files (fichiers),Running (en cours d’exécution) et Clusters (grilles de calcul).

Le premier ongletFiles, affiche les dossiers et fichiers du dossier dans lequel vous êtes, par défaut. Il est conseillé de vous créer un dossier de travail pour ce cours.

Par exemple, nous pouvons créer un dossier nommé Python_data_science dans le dossier Documents, puis y accéder via l’interface Jupyter Notebook en cliquant sur le dossier Documents, puis Python_data_science dans l’onglet Files.

Nous voyons bien que l’arborescence a changé, nous sommes maintenant dans Documents/Python_data_science. Ce dossier est pour l’instant vide, mais plus tard, nous y créerons notre premier Notebook.

Lorsque vous fermerez Jupyter Notebook et le relancerez, vous serez à nouveau dans votre dossier courant par défaut, que vous aviez au début avant de changer le chemin. Vous devrez donc aller dans votre dossier de travail, où se trouvent vos notebooks, avant de commencer à travailler. Il est possible de changer le chemin par défaut où Jupyter Notebook se lance, mais ce n’est pas forcément utile, car vous changerez souvent de dossier selon vos analyses. Il vaut mieux se déplacer dans le bon dossier au démarrage de Jupyter Notebook, puis commencer à travailler.

Un notebook est associé à chaque chapitre et est disponible au téléchargement en complément de ce livre. Vous pouvez les télécharger et les mettre dans votre dossier de travail....

Les packages Python essentiels pour la Data Science

Quand vous installez Anaconda, les packages (paquets) les plus utilisés en Data Science sont installés également automatiquement. Parmi ces packages figurent les quatre packages principaux que nous verrons dans ce livre : NumPy, Pandas, Matplotlib et Seaborn.

Tout au long du livre, il est possible que nous utilisions le terme package ou librairie ou encore bibliothèque. Sachez que ces trois mots définissent la même chose en Python, conceptuellement : un ensemble de modules et de fonctions. Ces termes seront expliqués plus tard dans le livre.

1. NumPy

NumPy est le package le plus utilisé en calcul scientifique et sert de base pour de nombreux autres packages qui dépendent de lui. Ce package a été optimisé pour traiter de grands tableaux ou matrices multidimensionnelles très rapidement et propose de nombreuses méthodes clé en main pour effectuer des opérations diverses sur ces tableaux ou matrices.

2. Pandas

Pandas est un package dédié à l’analyse de données et propose une structure originale appelée DataFrame, très utilisée en analyse de données. Le package Pandas est basé sur NumPy. Cette librairie est fournie avec un nombre impressionnant de méthodes qui facilitent grandement le travail du Data Scientist. Le but de ce package...