Sommaire

Utiliser Pandas Pandas

Le package CSV permet de manipuler rapidement des données CSV, mais il n’est pas des plus ergonomiques, de simples manipulations sont très vite chronophages et sources de bogues. Il existe une alternative à la librairie CSV : Pandas. CSV

Pandas est une librairie sous licence BSD issue d’un travail collaboratif d’une communauté de contributeurs d’horizons divers et soutenue par des organismes publics, mais également des entreprises privées.

La première chose à faire est d’installer Pandas à l’aide du gestionnaire pip :

pip install pandas

Pandas dépend d’une autre librairie qui devrait être installée directement lors de l’installation de Pandas. En cas de problème lors de l’installation, vérifiez que les outils suivants sont installés :

  • setuptools

  • NumPy

  • python-dateutil

  • pytz

Pandas permet l’accès à différents types de données, dont les fichiers CSV et les fichiers MS Excel. 

Pour cet ouvrage, la manipulation est limitée aux fichiers CSV. Cependant, la manipulation d’autres fichiers comme les fichiers MS Excel est strictement identique à l’ouverture des fichiers près. Avant d’effectuer l’ouverture, il faut importer Pandas :

import pandas as pd

L’ouverture d’un fichier à l’aide de Pandas s’effectue de la manière suivante :

df = pd.read_csv("./data/titanic.csv") ...