Exercice complet sur jeu de données réel

Name: Python pour la Data Science Analysez vos données par la pratique avec NumPy, Pandas, Matplotlib et Seaborn
Rating: 3.5 (4 reviews)

Introduction

Le but de ce chapitre est d’analyser un nouveau jeu de données afin de s’entraîner sur les notions acquises dans ce livre. Bien sûr, vous pouvez aller plus loin que les questions qui vous seront posées : elles ne couvrent pas forcément toutes les tendances et informations intéressantes à découvrir dans ce nouveau jeu de données.

Dans un premier temps, nous vous présenterons le jeu de données, puis l’énoncé de l’exercice. Pour chaque question qui vous sera posée, ou action qui vous sera demandée, le but sera d’écrire le code permettant de résoudre le problème.

Comme pour les autres chapitres, un notebook associé à ce chapitre est disponible en téléchargement et contient la correction de cet exercice. Bien sûr, si vous trouvez la réponse à la question sans écrire le même code que celui disponible dans le notebook, il n’y a aucun problème. Il existe toujours plusieurs façons et plusieurs codes pour arriver à une même solution. Tout le monde n’a pas la même manière de penser et donc de procéder. Si votre code vous permet d’arriver à la même solution que celle affichée dans le notebook, alors considérez votre code comme juste. Il se peut même que votre...

Présentation du jeu de données

Le jeu de données proposé regroupe l’ensemble des films et séries disponibles sur Netflix jusqu’en 2019. Il est disponible sur le site kaggle.com présenté en introduction de ce livre : https://www.kaggle.com/shivamb/netflix-shows

Ce jeu de données est sous licence CC0 : Public Domain. Ainsi, il peut être copié, modifié, distribué et analysé, même à des fins commerciales.

Il contient douze variables que l’on pourra étudier :

show_id : correspond à l’ID unique du film ou de la série
type : permet de dire s’il s’agit d’un film ("Movie") ou d’une série télévisée ("TV Show")
title : le titre du film/de la série
director : le directeur de production
cast : les acteurs présents dans le film/la série
country : pays dans lequel le film/la série a été produit
date_added : date à laquelle le film/la série a été ajouté sur Netflix
release_year : l’année de sortie réelle du film/de la série
rating : classement du contenu (TV-MA, TV-14, TV-PG, R, PG-13, NR, TV-Y7, TV-G, TV-Y, TV-Y7-FV, G, UR, NC-17). Pour voir la signification des différents classements de contenu : https://fr.wikipedia.org/wiki/TV_Parental_Guidelines...

Énoncé de l’exercice

Vous pouvez télécharger le fichier netflix_titles.csv disponible avec ce livre et de vous créer un nouveau notebook via le tableau de bord Jupyter (pour créer un nouveau notebook, voir la section Premiers pas avec les notebooks du chapitre Mise en place de l’environnement de travail).

1. Lire le fichier

Ici, il s’agit de récupérer le fichier disponible en téléchargement de ce livre : netflix_titles.csv. Vous pouvez aussi le récupérer directement via le site : https://www.kaggle.com

Action : écrire le code qui permet de lire le fichier netflix_titles.csv, de définir la première colonne du fichier comme l’index du dataframe et de stocker ce dataframe dans une variable nommée donnees. Enfin, afficher un aperçu de ce dataframe pour prendre connaissance visuellement des différentes variables du tableau.

Indices :

N’oubliez pas d’importer la librairie Pandas pour pouvoir utiliser ses fonctions.
La fonction read_csv() de Pandas permet de lire un fichier.
L’option index_col permet de définir le numéro de colonne à utiliser comme index.
La méthode head() permet d’afficher un aperçu.

2. Afficher les dimensions du dataframe

Action :écrire le code pour afficher les dimensions du dataframe, c’est-à-dire le nombre de lignes et le nombre de colonnes. Cela vous permettra de connaître le nombre de films/séries stockés dans ce tableau (nombre de lignes), ainsi que le nombre de variables (nombre de colonnes).

Indice :

L’attribut shape permet d’afficher la dimension d’un dataframe.

3. Compter les films et les séries

Action : écrire le code qui permet d’afficher le nombre de films et le nombre de séries stockés dans ce jeu de données.