in

Data Insights | Sevann BEREAU (Solution Architect Data, Engie)

ITW-DATA-Sevann BEREAU

Dans le cadre de notre dossier « Data Insights: À la découverte des experts de la science des données », Sevann BEREAU (Solution Architect Data chez Engie) a accepté de faire un point sur l'année écoulée et sur les grands enjeux du secteur de la data. 

Intelligence-Artificielle.Com : Pouvez-vous vous présenter à nos lecteurs ?

Sevann BEREAU (Engie) : Je m'appelle Sevann, je travaille chez Engie depuis 4 ans et demi et j'occupe actuellement le poste de Solution Architect Data..

Quelles sont les tendances émergentes dans le domaine de l' des données en 2023, et comment ces tendances transforment-elles les stratégies et les opérations des entreprises ?

Aujourd'hui, si je ne devais retenir LA tendance émergente dans le domaine de la Data quant à la stratégie d'entreprise, j'évoquerais très certainement « Data Mesh ». Alors bien sûr, aujourd'hui, nous parlons beaucoup d'IA/Machine Learning et plus généralement de Data Science, mais l'aspect le plus important selon moi reste la gouvernance des données et leur qualité. C'est en cela que je trouve le Data Mesh intéressant : chaque donnée reste au plus près de son producteur et ce dernier en garantit donc son accessibilité, ainsi que la qualité associée. Nous sommes dans un monde où nous devons consommer local, en circuit court : pourquoi ne serait-ce pas la même chose pour la consommation de données ?

Comment les technologies émergentes, telles que l' (IA) et l'apprentissage (machine learning), ont-elles un impact sur les capacités d'analyse des données et les possibilités d'innovation ?

Elles permettent de réaliser des analyses relativement simples beaucoup plus rapidement. L'innovation majeure que je pourrais retenir grâce à ces technologies serait que les équipes métiers pourraient comprendre les data liées à leur business beaucoup mieux qu'avant, et de manière autonome. Sans ces outils, il était toujours nécessaire d'avoir une personne « experte » de la donnée (SQL, Python…) pour aider le métier à comprendre.

Quels conseils donneriez-vous aux entreprises qui souhaitent exploiter pleinement le potentiel de leurs données et tirer parti de l'analyse des données pour prendre des décisions stratégiques informées ?

Se concentrer avant tout sur les fondamentaux de leur environnement Data. Aujourd'hui, beaucoup d'entreprises souhaitent innover avant même de modéliser correctement leur environnement Business tout en garantissant son monitoring. Cependant, raisonner de cette façon ne permet pas une mise à l'échelle efficace et pérenne de la consommation des données de son entreprise : il faut toujours aller comprendre pourquoi tel flux/job n'a pas fonctionné, on subit la donnée plutôt que de la maîtriser. En effet, très souvent, si personne ne constate un problème dans un reporting, alors c'est qu'il n'y a pas de problèmes. Cela est d'autant plus difficile à déceler lorsque les dashboards sont des agrégats/rapprochements de nombreuses sources de données. Quoi de pire que d'afficher de la donnée faussée sur des KPI stratégiques ? Ne mieux vaut-il pas faire comprendre que l'on a des soucis sur notre qualité afin de mettre en place des process clairs et automatisés pour les corriger en amont ?

Quels sont les principaux défis auxquels sont confrontées les entreprises en matière de gestion et d'analyse des données, et quelles sont les meilleures pratiques pour les surmonter ?

Gouverner efficacement l'ensemble des « Assets' Data de toutes les équipes prenant parti dans ce Data Journey : Datasets, Tables, Models, Metadata, etc… Pour ce faire, il faut impérativement faire prendre conscience à l'ensemble du collectif que nous devons tous suivre la même direction : que ce soit les personnes plutôt IT/ Data, mais surtout les personnes côté Business/ Excom. En effet, ce sont ces derniers qui pourront insuffler ce nouveau souffle quant à l'importance de revoir les sous-jacents à nos données, et ainsi faire prendre conscience aux personnes que faire des calculs sur une donnée ne se cantonne pas à un fichier Excel. J'ai souvent tendance à dire que pour rendre une entreprise Data Driven, il faut 50 % d'IT et d'expertise autour de la Data ; mais aussi 50 % de Business pour comprendre réellement le quotidien des métiers, notamment par le biais de Data Owner/ Data Steward.

Quels sont les avantages et les limites des différentes plateformes et outils d'analyse des données, tels que les entrepôts de données, les data lakes ou les outils de visualisation des données ?

Entrepôts de données/Data Warehouse:

– Avantages : Calculer rapidement des agrégats/regroupements de données à la volée, afficher rapidement la donnée dans un rapport/Garde la notion ACID des bases de données traditionnelles.

– Inconvénients : Coûte très cher si l'on souhaite stocker toutes ces données ici, doit souvent fonctionner de pair avec un Data Lake, donc risque de désynchro de données, il faut maintenir 2 systèmes, avoir 2 types de compétences différentes.

Data Lake :

– Avantages : Le stockage de la donnée est peu coûteux, il est facile de faire des use cases orientés Big Data (notamment Data Science), car on peut garder énormément d'historique de données, on peut paralléliser énormément les traitements sur de grosses volumétries de données (via Spark par exemple).

– Inconvénients : Il n'y a pas la notion ACID ici : si une donnée est corrompue ou incorrecte, il est toujours compliqué de revenir sur l'historique de ce qu'il s'est passé. Il est nécessaire de recruter des profils un peu plus expertisés (Data Engineer) ce qui, aujourd'hui, peut se révéler complexe à la vue du marché actuel. Lors de l'affichage de données directement depuis un Data Lake en source, les temps de réponse sont bien inférieurs à un Data Warehouse.

Aujourd'hui, la notion de Lakehouse, via de nouveaux mécanismes de stockage (Hudi, Iceberg, Delta), permet de réunir le meilleur des deux mondes afin d'unifier complètement son environnement Data et ne plus avoir à choisir. Ainsi, nous retrouvons les coûts relativement bas de stockage associés au Data Lake, la capacité de calcul sur de la grosse volumétrie de données, les transactions ACID permettant de retravailler la donnée si nécessaire (Update/Merge/Delete), afficher de la donnée relativement rapidement (toujours moins bien qu'une data warehouse, mais est suffisant dans la plupart des cas).

Finalement, selon moi, les outils de visualisation de données sont, quelque part, la partie émergée de l'iceberg. En effet, à partir du moment où le socle de données est propre, tous les outils proposent relativement la même chose. Le choix va souvent se faire par rapport aux choix groupes (PowerBI/ Tableau/ Qlik selon l'équation Coûts/ Fonctionnalité/ Interactivité/ Connecteurs principalement)

Quels sont les nouveaux rôles et compétences nécessaires pour réussir dans le domaine de l'analyse des données en 2023, et comment les professionnels de l'analyse se préparent-ils à ces évolutions ?

Il faut avoir une grande capacité d'adaptation. En effet, le monde évoluant sans cesse, et encore plus dans le monde de l'IT et de la Data, il est nécessaire de pouvoir comprendre rapidement de quoi sera fait le marché demain afin d'anticiper les changements, les solutions que nous pourrions apporter aux problèmes d'hier et d'aujourd'hui au sein de l'entreprise.

Concernant les rôles, je ne pense pas qu'il y ait aujourd'hui réellement de nouveaux rôles. Nous entendrons toujours de nouveaux pseudo-rôle afin de mettre des mots sur une énième nouvelle fiche de poste, mais si l'on retrace les 10-15 dernières années, nous pouvons aisément dire que si l'on a un Data Analyst, Data Engineer, un Data Scientist, un Data Architect et un DevOps, alors il est possible de réaliser n'importe quoi avec ces compétences : On ne parle donc plus ici de MLOPS Engineer, DevSecOps ou autre rôle qui ne sont, finalement, qu'une somme de compétences des rôles mentionnés ci-dessus. N'est-ce pas mieux d'avoir des référents dans chaque domaine qui savent communiquer et comprennent totalement leur sujet respectif, plutôt que des personnes sachant survoler chaque domaine sans réellement les maîtriser ?

La communication et le travail d'équipe sont donc, encore plus aujourd'hui, les compétences les plus importantes à avoir pour naviguer tous dans le même bateau !

 

Propos recueillis par Mathilde Flory

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *