Blog ENI : Toute la veille numérique !
🐠 -25€ dès 75€ 
+ 7 jours d'accès à la Bibliothèque Numérique ENI. Cliquez ici
Accès illimité 24h/24 à tous nos livres & vidéos ! 
Découvrez la Bibliothèque Numérique ENI. Cliquez ici
  1. Livres et vidéos
  2. Data Scientist et langage R
  3. Cadre méthodologique du data scientist
Extrait - Data Scientist et langage R Autoformation aux bases de l'intelligence artificielle dans l'univers de la data (3e édition)
Extraits du livre
Data Scientist et langage R Autoformation aux bases de l'intelligence artificielle dans l'univers de la data (3e édition)
1 avis
Revenir à la page d'achat du livre

Cadre méthodologique du data scientist

Le problème méthodologique au niveau du projet

Les data sciences opérationnelles procèdent de la volonté de satisfaire les aspirations, les besoins ou les exigences d’un client interne à une organisation.

Nous abordons ici les caractéristiques du déroulé d’un projet comportant des data sciences dans l’ensemble de ses activités.

Nous aborderons ensuite la part du déroulé du projet propre aux aspects data- sciences.

L’objectif est de fournir une forme de "checklist" commentée aux managers, chefs de projet et data scientists.

1. L’expression du besoin

La formulation du besoin nécessite souvent un travail assidu d’assistance. Ce besoin est parfois exprimé sous des formes qui ne sont pas directement interprétables en termes de problème de data sciences :

  • Je voudrais aller plus loin dans l’analyse de nos données clients/patients/administrés/contreparties/concurrents/marchés/risques/fraudes/sûreté/fournisseurs/logistiques/productions/pays/tendances/sociétales/environnementales... 

  • Je voudrais valoriser ces données (profiter de la ruée vers l’or des data).

  • Je ne veux pas "louper le coche" du Big Data.

  • Je voudrais fournir de nouveaux services et produits à mes clients.

  • Je veux révolutionner mon offre (disruption).

  • Je veux digitaliser mon organisation.

  • Je voudrais optimiser ou transformer mes processus.

  • Je voudrais anticiper les mouvements du marché, des concurrents, le churn (fidélité client)...

La démarche d’extraction du besoin est en fait une démarche d’ajustement mutuel. L’idée étant d’établir un cycle qui permette au "client interne" et au data scientist (ici un business analyst ou un directeur de projet compétent en data sciences) de partager au moins les cinq aspects fondamentaux suivants :

  • Des critères de réussite communs permettant de juger à terme de la réussite de leur projet de data sciences (KPI : key business/process/product/project indicators).

  • Une compréhension commune de ce qui peut être espéré du traitement de ces données (contrôle, compréhension, connaissances...

Le cycle interne des data sciences

Au sein du cycle projet, le data scientist va mener ses propres itérations spécifiques d’un cycle de développement qui lui est propre, mais qu’il devra synchroniser soigneusement avec les cycles de production et de décision du projet.

À partir d’un certain état "fonctionnel" identifié du projet, à savoir une définition de ses objectifs, diverses exigences métier, des questions posées, des cas d’utilisation, des données à disposition et une logistique matérielle, le data scientist va entamer une nouvelle itération.

Il devra planifier soigneusement cette itération et prendre garde à ne pas se laisser emporter dans un perfectionnisme ou un laxisme mathématique, algorithmique ou technique incompatible avec les objectifs de sa planification. Planifier une activité de R&D est particulièrement délicat et nécessite donc beaucoup d’attention.

En premier lieu, le data scientist ayant qualifié un besoin et un contexte va procéder à une étude plus ou moins analytique de ceux-ci.

1. Revue de détail du problème posé

La première tâche est d’exprimer le problème en termes de techniques propres aux data sciences. Attention, il ne faut pas se focaliser exclusivement sur les techniques statistiques ou de machine learning mais parcourir la gamme des algorithmes à notre disposition ayant un lien avec les objectifs fonctionnels énoncés.

Pour ce qui est des aspects machine learning, il faut identifier rapidement si le problème posé se traduit en termes d’apprentissage supervisé ou non. Dans les cas complexes, il faudrait s’intéresser aux cycles de techniques itératives du deep learning ou du reinforcement learning.

La sémantique générale des données idéales à manipuler doit être abordée avec soin. Est-il utile de manipuler des concepts, des mots, des expressions nommées (nom de personnes, d’organisations), des évènements, des informations agrégées (chiffres d’affaires), des relations (réseaux), des séries temporelles (cours de bourses), des images, des vidéos, des sons, des données...

Compléments méthodologiques

1. Classifier vos objectifs

Afin d’organiser son travail, le data scientist doit soigneusement identifier la nature réelle des objectifs qui lui sont assignés.

Pour évaluer la nature de chacun des objectifs ou besoins, inspirez-vous d’une typologie comme celle qui suit, mais transformez-la en fonction de vos connaissances et habitudes. 

Les besoins suivants sont plus ou moins classés par niveau de difficulté. En tout état de cause, ils ne mobilisent pas le même panel de techniques de data sciences :

  • Décrire des données (ex : 13 % des ... sont des ...).

  • Interpréter des données (ex : en 2015 les électeurs de ... votent ... parce que ...).

  • Optimiser un processus logistique ou mécanique.

  • Prédire des évolutions de tendances.

  • Soutenir des acteurs dans leur prise de décision.

  • Prédire des comportements individuels.

  • Identifier des comportements anormaux (fraudes, attaques...).

  • Identifier l’impact d’une évolution potentielle de tendance sur une autre tendance.

  • Identifier les stratégies pour changer les tendances (c’est-à-dire trouver des enchaînements de causes à effets, par exemple pour influencer des influenceurs).

  • Identifier l’impact d’un évènement potentiel sur des acteurs précis.

  • Changer le comportement ponctuel d’acteurs (c’est-à-dire déterminer où...