Conclusion

Name: Machine Learning Implémentation en Python avec Scikit-learn
Rating: 4.5 (2 reviews)

Le Machine Learning, une compétence-clé

Une bonne compréhension du Machine Learning fait partie des compétences-clés recherchées en informatique. Les métiers en Data-* (Data Analyst, Data Scientist, Data Engineer, Data Architect) sont de plus en plus recherchés. Le marché est tendu, avec de nombreux postes non pourvus faute de candidats.

Pour pallier ce manque de compétences, de nombreuses formations ont vu le jour, visant soit des publics déjà à l’aise avec les mathématiques ou avec l’informatique (masters spécialisés en Data Science et Data Engineering), soit des personnes en reconversion sans aucune formation préalable dans le domaine (généralement pour des postes de Data Analyst).

Dans les entreprises, les services orientés data se multiplient, avec l’apparition des CDO (Chief Data Officer), des datalabs et d’autres initiatives poussant à une meilleure valorisation des données disponibles.

Et pourtant, de nombreux projets de Machine Learning ne dépassent pas le stade du PoC (Proof of Concept, correspondant à une démonstration de faisabilité) et restent donc au stade de l’expérimentation.

Plusieurs raisons peuvent expliquer ce décalage :

Les demandes en amont sont parfois floues, sans réelle réflexion sur la valeur ajoutée...

Mener un projet jusqu’au bout

La méthode CRISP-DM est justement là pour aider à la mise en place de tels projets et en faire une réussite au-delà du PoC.

Chaque phase a donc un rôle particulier permettant de lever des barrières :

Business Understanding : cette phase permet de mieux comprendre et définir les besoins métiers, de poser un vocabulaire commun entre les "clients" du système et les Data Scientists et donc de poser les premières briques d’une collaboration.
Data Understanding : dans cette phase très orientée statistique, l’étude des données permettra d’anticiper les problèmes potentiels dus à leur qualité. Par cette analyse, une compréhension plus fine des besoins apparaîtra, à la suite de sessions de questions/réponses avec les métiers.
Data Preparation : cette phase a pour but de tracer et justifier toutes les modifications faites sur les données. Grâce à la revue ultérieure de ce processus, il est possible d’éviter d’avoir un modèle inutilisable par manque de données en production, et de valider que le modèle sera représentatif des cas d’usages réels.
Modelisation : phase purement dédiée à la Data Science, elle permet au Data Scientist, fort...

Au-delà de la méthodologie

L’utilisation d’une méthodologie permet d’éviter de nombreux écueils rencontrés lorsque le Data Scientist se consacre au cœur de son métier : la création de modèles.

Ce livre présente donc une triple approche :

Méthodologique d’abord, avec l’utilisation de CRISP et des différentes étapes comme fil conducteur
Théorique avec la présentation des principaux algorithmes, en précisant leurs avantages et limites
Pratique avec l’implémentation des différents algorithmes en Scikit-learn

Comprendre les concepts de chaque algorithme est en effet crucial pour savoir s’il est adapté ou non au cas d’usage rencontré, et savoir comment préparer les données pour maximiser les résultats.

Malheureusement, trop de "Data Scientists" juniors utilisent plusieurs algorithmes de manière aléatoire jusqu’à tomber sur des résultats "pas trop mauvais" sans trop savoir ni pourquoi ni comment. Cette approche, en plus d’être très chronophage, ne garantit pas de bons résultats.

Quand le ou les algorithmes à tester ont été choisis, la partie pratique du livre permet de savoir comment implémenter les phases de compréhension, de préparation ou...

Expérimentation et expérience

Un livre ne suffit pas à se former. Il est important d’expérimenter, pour valider ses acquis et les mettre à l’épreuve.

Le code est donc fourni en téléchargement sur le site de l’éditeur. L’exécuter en une fois est certes utile, mais pas autant que de le modifier ou de s’en inspirer pour résoudre d’autres problèmes.

Le site Kaggle est un très bon point de départ pour trouver des datasets et essayer de challenger les meilleurs Data Scientists présents sur le site. Il faut cependant être attentif : si ce site est un excellent moyen d’apprendre, il ne faut pas courir après des résultats à la troisième décimale, au risque de s’éloigner des contraintes métiers.

En effet, il faut faire attention au "syndrome Kaggle" consistant à améliorer les modèles sans prendre en compte le métier. Les modèles obtenus via cette approche sont souvent inutilisables, et mettent en péril la réussite du projet, même si les résultats du PoC peuvent sembler excellents au premier regard.

En plus de l’expérimentation sur des sujets nouveaux, et/ou avec de nouveaux algorithmes, il est important de valoriser les différentes expériences pour progresser plus...

Pour aller plus loin

Le Machine Learning est un domaine qui évolue très vite. Il est donc important non seulement de connaître les algorithmes fondateurs présentés ici mais aussi les variantes et nouveautés.

De plus, le Deep Learning, branche du Machine Learning, n’est pas abordé dans ce livre.

D’autres livres aux Éditions ENI dont "Machine Learning et Deep Learning" et "Intelligence Artificielle Vulgarisée" abordent le Deep Learning.

De très bonnes formations existent, autant dans des écoles qu’en ligne. En école, les formations vont de la reconversion vers Data Analyst en 6 mois à un diplôme de Data Scientist ou Data Engineer de niveau M2 (bac+5).

Pour les formations en ligne, il est important de valider à la fois les compétences du formateur et la pédagogie de la formation. Certaines sont d’ailleurs soutenues par des universités connues, ce qui leur donne un poids plus important.

Une série de formations en ligne réputée est celle donnée par Andrew Ng (qui a énormément contribué aux avancées de l’Intelligence Artificielle ces dernières années) sur la plateforme Coursera. Il a notamment réalisé un cours sur le Machine Learning et un sur le Deep Learning.

Attention : ces cours sont très orientés...