IA et infrastructures : la performance commence par l’accès à des données exploitables – interview avec Gabriel Ferreira

Les données exploitables sont le socle d’une infrastructure réellement intelligente. Entretien avec Gabriel Ferreira, directeur avant-vente et consultant avant-vente chez Pure Storage France.

À l’heure où l’IA générative s’impose dans tous les secteurs – santé, finance, industrie –, l’engouement pour les GPU et les modèles massifs masque souvent une réalité plus prosaïque. Sans données accessibles, propres et exploitables, les infrastructures les plus puissantes restent sous-utilisées.

En 2026, les entreprises européennes, soumises au RGPD, au NIS2 et aux exigences de souveraineté, mesurent le coût d’un accès fragmenté aux données. Gabriel Ferreira, qui pilote l’avant-vente chez Pure Storage France depuis le lancement de la filiale il y a près de 12 ans et cumule plus de 30 ans en data management, stockage et sauvegarde, insiste sur ce préalable souvent sous-estimé.

L’IA générative face au mur des données, un constat partagé

L’IA ne se résume pas à l’IA générative. De nombreuses entreprises exploitent des techniques de machine learning depuis très longtemps, notamment dans la finance. Ces modèles ne génèrent pas de contenu, mais analysent, prédisent et optimisent des processus métiers existants.

L’IA générative, en revanche, connaît un essor plus récent et spectaculaire. Un boom d’applications en inférence et RAG (Retrieval-Augmented Generation) sur des LLM existants comme ceux d’OpenAI, de Mistral ou de Meta.

Nous observons une adoption très forte dans plusieurs secteurs, en particulier la santé. En France, hôpitaux, CHU et laboratoires emploient l’IA pour le diagnostic, la détection de cancers, l’analyse d’imagerie médicale et le décodage du génome. On y voit également émerger des SLM ou des LLM dédiés à des usages très spécifiques.

Mais tout cela repose sur un socle fondamental : la donnée. Sans données de qualité, rien ne fonctionne. « Sans data, on ne peut pas faire de training, ni d’inférence », rappelle Gabriel Ferreira.

Le problème est structurel. Les données sont dispersées dans des silos comme l’ERP, l’archivage et la sauvegarde, gérés par des équipes différentes. L’accès aux données se heurte ainsi à deux obstacles.

D’un côté, des contraintes techniques comme une bande passante insuffisante ou un réseau inadapté empêchent de récupérer les volumes nécessaires. De l’autre, des barrières logiques et réglementaires – autorisations restreintes, RGPD, confidentialité interne – bloquent l’accès à des données sensibles.

Enfin, même lorsque l’accès est possible, la donnée n’est pas toujours exploitable. Elle doit être nettoyée, transformée, structurée. Ces phases préparatoires prennent du temps et ne doivent jamais être sous-estimées.

Investir dans des GPU sans données prêtes revient à mettre la charrue avant les bœufs, martèle-t-il. Cartographier les données, vérifier conformité et accessibilité avant tout calcul intensif.

Briser les silos, unifier la gestion des données

Dans la chaîne de valeur de l’IA, le stockage forme la couche de base. Mais dans la plupart des organisations, les données restent cloisonnées. Lac de données pour l’analytique, ERP pour les processus métiers, systèmes d’archivage ou de sauvegarde séparés…

Chaque équipe gère son environnement avec ses outils et ses règles, générant frictions, duplications et gouvernance incohérente pour les projets IA transversaux. Face à l’explosion des données structurées et non structurées liées à l’IA, les entreprises recherchent des procédés qui limitent les déplacements inutiles de données (data gravity).

« Avec Enterprise Data Cloud, nous proposons une plateforme commune, reposant sur un même socle technologique », partage Gabriel Ferreira. Cette approche repose sur une plateforme logicielle qui virtualise le stockage en un pool unifié. Tous les protocoles (block, file, object) partagent le même socle technologique, avec une gouvernance centralisée des accès et des privilèges.

« Chaque équipe conserve la maîtrise de ses données, tout en bénéficiant de règles d’accès, de privilèges et de gouvernance unifiées », explique-t-il.

Cette interconnexion facilite considérablement l’exploitation des données par les algorithmes d’IA. Elle réduit les frictions, améliore la collaboration entre équipes et accélère le passage à l’échelle des projets data.

Stockage local et chiffrement avec clés privées pour sécuriser les données

En Europe, nombreux sont ceux qui hésitent à utiliser des outils d’IA développés à l’étranger, par peur de perdre le contrôle sur leurs données sensibles. Gabriel Ferreira est clair : quand la plateforme de stockage est installée directement dans les locaux de l’entreprise (on-premise) ou dans un centre d’hébergement choisi par elle, tout reste à l’intérieur de son réseau privé, protégé par des pare-feu et des cloisonnements stricts.

Le fournisseur n’a aucun moyen d’accéder physiquement ou à distance aux données. C’est techniquement impossible sans être sur place et avec les autorisations explicites.

Les données sont chiffrées automatiquement dès leur arrivée, et les clés de déchiffrement restent exclusivement chez le client, jamais partagées. Même si quelqu’un parvenait à y accéder, il ne pourrait rien en faire sans connaître les logiciels et les règles métiers.

Le conseil ultime de Gabriel Ferreira reste le même, simple et prioritaire : commencer par les données. Avant de dépenser en serveurs puissants ou en algorithme d’IA, il faut d’abord faire l’inventaire complet des données de l’entreprise.

Il faut vérifier qu’on peut y accéder facilement, qu’elles respectent les lois et qu’elles sont propres et utilisables. Une IA performante ne tient que sur une base de données solide et évolutive.