Benoit Cayla : « la data doit être mise en perspective

10/10/2022 | Paroles d’experts, Portraits d’experts

Temps de lecture  11 minutes

Nous en produisons tous les jours, c’est d’ailleurs un sujet récurrent de l’actualité mais pourtant il est difficile de s’y repérer. L’univers de la data est en effet au cœur des débats, dans les entreprises mais pas seulement. Travailler autour de la donnée nécessite donc de bien appréhender cette vaste jungle et avec l’ouvrage « La data, guide de survie dans le monde de la donnée », vous disposez à la fois « d’une boussole et d’une machette » pour reprendre les mots de son auteur.

Benoit Cayla, Ingénieur en informatique avec plus de 20 ans d’expérience dans la gestion et l’utilisation de données est en effet aussi passionnant à lire qu’à écouter ! Rencontre avec un expert très didactique.

ENI : Ce guide de la survie est votre premier livre ? Comment s’est déroulé son écriture ?

Benoit Cayla : C’est en effet mon premier livre. Et pour tout dire, cela fut beaucoup plus facile que je l’aurais cru ! Peut-être parce que c’était quelque chose de latent chez moi, qui ne demandait qu’à sortir. J’y pensais depuis un moment car je trouvais qu’il manquait une approche généraliste entre enjeux et technicité sur la data. Peut-être aussi grâce à mon expérience, bref, je n’ai pas eu en fin de compte à forcer, aucun blocage et c’est tant mieux.

Livre ALa data Guide de survie dans le monde de la donnée

ENI : Quel était le manque selon vous dans la littérature actuelle sur la donnée ?

BC : Il y a déjà beaucoup de livres « high-level » sur la donnée, très macro, et c’est très bien. A contrario, on trouve aussi beaucoup d’expertises très fines, pointues, mais qui ne couvrent qu’une seule facette du sujet. Une fois de plus c’est très bien Mais je voulais apporter une nouvelle vision de la data entre les deux.

L’idée était de proposer une sorte de couteau-suisse entre l’approche généraliste et celle qui amène au fond des détails. Une sorte de panorama du comment et non du pourquoi, pour tous ceux qui travaillent dans la data. Vous savez, c’est un monde vaste et plus complexe qu’il n’y paraît. Il y a beaucoup de mécanismes, de solutions, de concepts … à vrai dire ce n’est pas si évident de s’y retrouver.

C’est un peu comme un aventurier perdu au beau milieu de la jungle. Il aura certainement besoin d’une boussole pour commencer. Puis très vite d’une machette. Ce livre c’est un peu une machette et une boussole pour vous permettre de traverser la jungle de vos data !

ENI : Comment êtes-vous devenu auteur ?

BC : C’est moi qui me suis proposé à ENI après être allé sur le site. J’aime l’approche de vos livres, j’en possède déjà bien sûr plusieurs, et puis en plus vous êtes une boîte française.

J’ai décrit le contenu, le plan, il y a eu des échanges, des envois d’extraits… Le processus que vous proposez est simple et efficace. D’autant que j’ai l’habitude des process ! Finalement, il m’a fallu 3-4 mois d’écriture. Pour être totalement franc, j’avais déjà commencé et si je n’avais pas trouvé ENI, j’aurais opté pour l’auto-édition.

ENI : Quel sentiment avez-vous eu une fois le livre finalisé ?

BC : J’étais super content, entre l’émotion et la satisfaction, mais il y a aussi un coté frustrant car on a toujours envie de s’améliorer, de changer des détails, etc.

ENI : D’un point de vue grand public, on entend parler de la data à toutes les sauces ? Quels concepts y sont le plus souvent associés ?

BC : La data est partout, on l’a tous bien compris maintenant. Il n’y a qu’à voir avec les smartphones et tous les objets connectés avec qui on cohabite : on crée et fournit de la data tout le temps.

 

La première problématique qui arrive alors est souvent le stockage. Pour prendre une métaphore, comme l’électricité, la data n’est pas et ne doit pas toujours être utilisée immédiatement. Il faut donc la stocker avec tout ce que cela implique en coût, en énergie…

La question qui vient ensuite est : qu’est-ce que l’on en fait ? Les données sont finalement des informations à l’état brutes qui peuvent être sous plusieurs formats. Pour l’exploiter, pour l’analyser, il faut donc la transformer en fonction de sa composition, comme un produit chimique doit être raffiné par exemple. C’est là que le rôle d’analyste de données est fondamental pour diagnostiquer l’état de vos data. C’est une étape souvent mise de côté car on peut croire – à tort – que les données sont par définition « propres » et qu’elles respectent le cahier des charges.

Une fois le(s) diagnostic(s) posé(s), il est possible d’apporter la composante nettoyage ou corrective des data. Cela nécessite aussi souvent de retransformer les informations traitées. Ensuite on peut songer à transporter la data pour qu’elle puisse répondre à ses usages, ou pourquoi pas directement l’utiliser dans un modèle de Machine Learning. Dans tous les cas, il faut la mettre à disposition et c’est aussi un point qu’il n’est pas aussi évident qu’il y paraît car il y a plusieurs formes d’usages, plusieurs manières de consommer la data.

Toutes les étapes « préalables » à l’exploitation représente une part colossale du travail autour de la data. Or, pour rester sur des chiffres, 74% des entreprises disent savoir analyser mais pas exploiter (voir l’article des échos) ! Vous n’imaginez pas le nombres de projets data qui dérapent ou qui juste échouent faute d’avoir bien traité ces phases préparatoires.

ENI : IA, machine Learning, KPI… la data semble s’inviter partout. Bonne ou mauvaise chose ?

BC : Le mot IA est souvent cité à tort. En réalité, peu – encore – en font réellement. Souvent pour la simple raison qu’il faut beaucoup de données. Comme la data, l’IA est un domaine extrêmement vaste. Aujourd’hui, la notion d’intelligence artificielle est assimilée au machine learning, au Deep Learning ou encore au NLP (Natural Language Processing : traitement automatique du langage naturel).

Mais il n’y a en fait aucune intelligence dans l’IA ! En une phrase, le Machine Learning se base sur des données historiques pour repérer et reproduire des tendances. L’humain y ajoute du contexte, de la sensibilité, de la morale, de l’initiative, etc. Or, ces critères ne sont pas toujours quantifiables et il est donc complexe voire impossible pour l’instant de les faire ingérer par un modèle de Machine Learning. Bien sûr il y a beaucoup de recherches pour apporter plus d’autonomie et donc en quelque sorte d’intelligence aux IA mais nous en sommes encore aux balbutiements.

 

Aujourd’hui, il est clair que les IA peuvent aider à la prise de décision. Mais c’est surtout la vision par l’ordinateur et la compréhension du langage qui constitue un gros apport en matière de fonctionnalités. Le volume de données explose dans les entreprises car beaucoup de ces data ne sont pas structurées. Prenez juste comme exemple la loi Finances (PLF) qui imposera la gestion dématérialisée des factures en 2024, et ses conséquences pour toutes les entreprises. Nous sommes clairement entrés dans l’ère de la digitalisation et les entreprises comptent énormément de documents (souvent scannés) à traiter. Or pour exploiter ces documents, il est nécessaire d’utiliser des outils spécialisés qui incorporent des fonctions avancées de vision par l’ordinateur et/ou de NLP. Ces derniers peuvent d’ailleurs aller plus loin et analyser les sentiments, comme sur des messages dans un réseau social par exemple.

Mais clairement, il y a une tendance autour de la donnée car il y a beaucoup d’évolution dans son usage. Mais ce qui est encore plus nouveau c’est que les gens prennent de plus en plus conscience que les données peuvent avoir un caractère personnel, privé et confidentiel. Alors, tout cela, est-il bien ou mal ? On en a déjà donné beaucoup au GAFAM, en contrepartie on s’est habitué et on est finalement content d’en avoir reçu certains bienfaits indirects comme des recommandations sur Netflix, Spotify, Deezer, Amazon. La vraie question que l’on doit tous se poser finalement est plutôt « peut-on maintenant vivre sans tout ça ? Beaucoup répondront sans doute oui sur le coup … mais en réalité ? A titre d’exemple pouvez-vous vous imaginer de vivre sans votre portable? Tout est finalement question de contrôle et de régulation.

ENI : Pour reprendre le sous-titre de votre livre, et sans trop le dévoiler, peut-on alors survivre dans ce monde ?

BC : Oui et heureusement. Mais uniquement si on a une vision d’ensemble. On ne peut en effet pas être expert sur tout. Par contre, il est absolument vital de bien comprendre les grands rouages qui permettent de traiter de la donnée. Il est ensuite beaucoup plus simple d’aller dans le détail de ce dont on a besoin au moment où on en a besoin.

Ces grands concepts existent depuis longtemps mais ils sont souvent mis de côté ou ne sont pas complètement maîtrisés. Les technologies, elles, permettent d’aller plus loin mais s’appuient inexorablement sur ces mêmes concepts. C’est tout l’objectif du livre, réunir ces deux dimensions du monde de la data.

Mais pour revenir à la question et tenter d’y répondre: les clés de la réussite sont l’humain et l’organisation.

Prenons par exemple les « Data Lake ». Sans gouvernance, c’est juste le bazar, impossible d’y retrouver quoi que ce soit. Bien souvent, cela se finit par une sorte de boulimie incessante de données. On stocke, on stocke… Comme un particulier remplit son garage tant qu’il a de la place! Mais à un moment, ce n’est plus possible, il faut donc faire le ménage et trier intelligemment pour pouvoir rendre la data utilisable par ceux qui en ont vraiment besoin. C’est ce que tente d’apporter le Data Mesh d’une certaine manière.

Finalement, c’est l’histoire de l’Homme, pas seulement de la data ou de l’entreprise. Mais pour s’organiser. Mais quoiqu’il en soit, il faut avant tout comprendre comment cet univers fonctionne et les possibilités qu’il peut apporter.

ENI : Récolter des chiffres est une pratique « ancienne » mais pas toujours optimisée. L’émergence de ces méthodes et outils de la data ont-ils permis de corriger l’éventuel biais du « chiffre pour le chiffre » ?

BC : On veut malheureusement trop souvent aujourd’hui quantifier le qualitatif. Malheureusement ce n’est pas toujours voire rarement possible d’un point de vue exhaustif. Il n’y a donc pas de réponse, c’est un problème purement humain.

A titre d’exemple, la même information peut être présentée et donc comprise différemment. C’est un peu ce que l’on voit quand on écoute des combats de chiffres dans un débat politique. Chacun prend le même chiffre mais le présente dans un prisme qui l’arrange bien. C’est d’ailleurs un véritable problème. Dans le livre, j’ai aussi voulu sensibiliser sur les outils de visualisation de données et la manière dont on peut interpréter les rendus.

L’information, la data, doit toujours être mise en perspective. Un chiffre tout seul ne veut rien dire. Par exemple, si je vous donne un CA de 5M seul, on est d’accord que cela ne veut rien dire ? Par contre si je mets en perspective ce chiffre avec les CA des années précédentes, c’est mieux ? si j’y ajoute une composante géographique … c’est encore mieux non ? car il peut y avoir une composante géopolitique, etc.

.

ENI : La data doit faciliter les prises de décision. Avec l’IA et le Machine Learning, ces dernières doivent-elles, elles aussi, s’automatiser ?

BC : Cela va s’amplifier. Nous sommes dans une sorte de phase de transition qui propose souvent un mode hybride: la machine propose sa décision à l’humain qui doit alors l’amender. Cela permet aussi d’enrichir les phases d’apprentissage automatique.

Bien sûr, les machines font aussi des erreurs. Mais bien souvent elles sont moins nombreuses que celles que peut faire un être humain. Par contre on les accepte beaucoup moins, car dans notre inconscient collectif la machine ne doit pas faire d’erreur. Cela nécessite un peu de temps pour changer les états d’esprits et vous verrez dans quelques années, ce sera adopté par tous. Qui plus est les biais vont se réduire puisque la machine apprend grâce par exemple à la validation de l’humain.

Cela m’amène à un autre pan autour l’IA qui consiste à expliquer les décisions prises par les algorithmes. C’est un peu le côté obscur de l’IA : son fonctionnement en « boîte noire ». Cela laisse l’humain dubitatif mais surtout cela entame la part de confiance que l’on peut accorder à un algorithme de Machine Learning.

En effet jusque-là l’informatique se basait surtout sur des règles plutôt faciles à comprendre pour nous humains. Mais voilà le Machine Learning lui ne s’y entend pas de la sorte et à la place ingère des données y appose un ensemble de calculs probabiliste, statistiques et algébriques pour au final proposer un résultat plutôt magique ! C’est presque trop beau et à la fois inquiétant car ce n’est pas explicable d’une manière compréhensible et accessible. D’où l’émergence de Explainable IA, XIA qui tente d’apporter des explications sur les choix portés par les algorithmes.

ENI : Quelles sont vos prochaines actus et projets ? L’écriture d’un nouveau livre ?

BC : J’ai déjà une autre idée, sur un sujet légèrement différent mais bien sur lié aux data. Vous savez je commence à avoir une belle expérience et puis j’aime transmettre. Par ailleurs, quand on explique, on se challenge soi-même, on se teste sur du concret. Quelque part dans le travail d’écriture, il y a peut-être aussi un côté égoïste.

Coté perso, je suis coureur de marathon et prépare celui de Paris en avril, j’aimerai bien aussi gagner mon dossard pour le marathon pour tous de 2024. Bien sûr j’ai un nouveau challenge de performance bien sûr, et d’ailleurs j’avoue travailler pas mal avec les stats de ma montre de running. Pour répondre à votre précédente question ici, je fourni par mal de données avec, mais j’avoue aussi que j’aurais beaucoup de mal à m’en passer pour mes entrainements !

Benoit CAYLA

Ingénieur en informatique avec plus de 20 ans d’expérience dans la gestion et l’utilisation de données, Benoit CAYLA a mis son expertise au profit de projets très variés tels que l’intégration, la gouvernance, l’analyse, l’IA, la mise en place de MDM ou de solution PIM pour le compte de diverses entreprises spécialisées dans la donnée (dont IBM, Informatica et Tableau).

Ces riches expériences l’ont naturellement conduit à intervenir dans des projets de plus grande envergure autour de la gestion et de la valorisation des données, et ce principalement dans des secteurs d’activités tels que l’industrie, la grande distribution, l’assurance et la finance. Également, passionné d’IA (Machine Learning, NLP et Deep Learning), l’auteur a rejoint Blue Prism en 2019 et travaille aujourd’hui en tant qu’expert data/IA et processus.

Son sens pédagogique ainsi que son expertise l’ont aussi amené à animer un blog en français (www.datacorner.fr) ayant pour but de montrer comment comprendre, analyser et utiliser ses données le plus simplement possible.

Benoit CAYLA

Pour aller plus loin

Scratch et Raspberry Pi Projets maker pour s'initier à l'électronique et à la robotique

Le livre de Aurélie BÉGAT

La rédaction web
Créez votre stratégie de contenu et boostez votre référencement sur Google
Flutter Développez vos applications mobiles multiplateformes avec Dart

Livre

Du Community au Social Media Management
Stratégies gagnantes pour gérer une communauté et communiquer sur les réseaux sociaux
Flutter Développez vos applications mobiles multiplateformes avec Dart

Livre

SEO : référencer votre site sur Google
Mobile First, recherche vocale, position 0…
formation en live

Formation

Comprendre et améliorer le référencement naturel de son site Web

POUR LES ENTREPRISES

Découvrez nos solutions de formation pour vos équipes et apprenants :

Réfléchir en amont
elearning

En e-learning avec
notre offre pour les professionnels

formateur

Avec un formateur,
en présentiel ou à distance

Restez connecté !

Suivez-nous
LinkedIn
Youtube
X
Facebook
Instagram
Contactez-nous
E-mail

Inscrivez-vous à notre newsletter

Je suis intéressé(e) par :

En vous inscrivant, vous acceptez la politique de protection des données du groupe Eni. Vous aurez la possibilité de vous désabonner à tout moment.