Python pour la Data Science
Présentation
L’arrivée du Big Data et la multiplicité des sources de données font que les besoins en matière d’analyse de données deviennent de plus en plus importants. Les statistiques sont le moyen le plus performant pour décrire et interpréter les données et ainsi mettre en lumière de nouvelles connaissances.
L’objectif de cette vidéo est de vous montrer comment utiliser le langage Python dans le cadre de la Data Science pour être en mesure d’analyser de gros volumes de données.
Après une présentation de Numpy et Pandas, deux bibliothèques dédiées à la Data Science, nous travaillerons sur la préparation et la visualisation de données. Nous verrons ensuite l’application des statistiques pour analyser des variables et réaliser des estimations de modèles avec la bibliothèque Scikit-Learn.
L’objectif de cette vidéo est de vous montrer comment utiliser le langage Python dans le cadre de la Data Science pour être en mesure d’analyser de gros volumes de données.
Après une présentation de Numpy et Pandas, deux bibliothèques dédiées à la Data Science, nous travaillerons sur la préparation et la visualisation de données. Nous verrons ensuite l’application des statistiques pour analyser des variables et réaliser des estimations de modèles avec la bibliothèque Scikit-Learn.
Table des matières
- Durée totale02h35
- Python et la Data Science
- Choisir Python pour la Data Science04:22
- La bibliothèque NumPy07:21
- Le type et la taille des vecteurs NumPy06:15
- Initialisation et tableau NumPy01:57
- Accéder aux données d'un tableau NumPy à une dimension04:50
- Accéder aux données d'un tableau NumPy à deux dimensions05:14
- Algèbre linéaire avec NumPy05:29
- Tableau NumPy versus liste Python05:24
- Statistique descriptive avec NumPy02:00
- Visualisation de données
- Installer Anaconda et Jupyter01:42
- Travailler avec Jupyter02:42
- La bibliothèque Pandas03:34
- Accéder aux données d'un Data Frame 02:21
- Filtrer les données d'un Data Frame06:16
- Trier les données d'un Data Frame03:58
- Les statistiques de base avec un Data Frame04:21
- Lecture des fichiers de grandes tailles avec Pandas06:44
- Les statistiques inférentielles avec Python
- Utilisation des méthodes melt et apply08:13
- Extraire des informations à partir des données existantes04:42
- Créer de nouvelles variables à partir des données existantes 06:30
- Visualiser les données avec Matplotlib05:56
- La loi Normale 03:44
- Introduction aux tests d'hypothèses08:00
- Test statistique de comparaison de deux moyennes 07:42
- Modélisation multivariée avec Python
- Introduction à la régression linéaire05:10
- Exemple de modélisation avec la régression linéaire06:54
- Introduction à l'algorithme Support Vector Machine04:30
- Exemple de modélisation avec un Support Vector Machine07:07
- Introduction à l'algorithme de K-Means08:45
- Exemple de l'algorithme K-Means03:06
- Conclusion00:55
Auteur
Madjid KHICHANE En savoir plus
Après un diplôme d'ingénieur en Informatique obtenu à l'université Mouloud Mammeri à Tizi-Ouzou en Algérie puis un Master en Intelligence Artificielle - Systèmes multi-agents obtenu à l'université Paris 5 (René Descartes), Madjid KHICHANE a soutenu son PhD en Intelligence Artificielle en collaboration entre l'Université Claude Bernard Lyon 1 et IBM. Cette thèse doctorale a donné naissance à des innovations algorithmiques dans le domaine de l'apprentissage par renforcement qui sont aujourd’hui publiées dans des conférences internationales de premier niveau.
Caractéristiques
- Niveau Débutant à Initié
- Durée 2h35
- Parution février 2022
- Vidéo en ligne
- Ref. ENI : VTPYTDAS
Téléchargements
- Des fichiers complémentaires (78 869 Ko)