La plateforme collaborative Dataiku se propose de répondre aux besoins de tous les professionnels de Data Science. Elle fournit des outils pour le développement des projets data allant de la préparation des données à la création de nouvelles applications.
Une plateforme de data science correspond à un environnement logiciel qui permet de traiter les données de bout en bout. En tant qu’espace de travail collaboratif, Dataiku donne la possibilité aux équipes de Data Science de communiquer entre elles en plus de bénéficier des outils nécessaires pour la mise à l’échelle des projets. Découvrez tout ce qu’il y a à savoir sur Dataiku.
Dataiku : qu’est-ce que c’est ?
Dataiku Data Science Studio (DSS) est une plateforme collaborative de Data Science pour le développement bout en bout d’un projet data. Il permet aux data engineers, aux data analysts ainsi qu’à tous les professionnels de données de développer efficacement et de mettre à l’échelle les applications. Dataiku fournit les outils (code, notebook, graphiques, etc.) nécessaires pour le traitement intégral des données.
La startup a été créée en 2013 à Paris par Florian Douetteau, Clément Sténac, Marc Batty et Thomas Cabrol. Ils ont ensuite installe le siège social à New York. Elle vise à aider les entreprises de tous les secteurs à valoriser les données grâce à l’analyse prédictive. Comme sur toutes les plateformes de Data Science, l’interface workflow de Dataiku transforme les datasets (inputs) en de nouveaux jeux de données (outputs) qui sont applicables au business.
Pourquoi utiliser Dataiku ?
Encore une fois, Dataiku DSS permet le développement de bout en bout des projets data allant de la préparation et du nettoyage des données au déploiement d’API. Entre ces deux bouts se tiennent l’exploration et la visualisation des données, l’analyse prédictive par le machine learning, l’extraction d’informations, l’automatisation et la surveillance des versions.
D’autre part, étant donné qu’il s’agit d’une plateforme collaborative, Dataiku offre la possibilité de travailler ensemble sur les projets. Les fonctionnalités de l’environnement partagé incluent les discussions, les listes de tâches ou encore le partage de documentation, de code, etc.
Dataiku est aussi une plateforme intégrée qui peut être mise en œuvre dans les clouds publics et les services des différents fournisseurs. Il est conçu pour être facile à utiliser même pour les analystes commerciaux non techniques qui n’ont pas une expérience de codage haut niveau. Enfin, il s’adapte nativement à toutes les technologies de Data Science.
Une plateforme tout-en-un
Comme nous l’avons mentionné plus tôt, Dataiku est une plateforme qui permet un traitement intégral des données. Autrement, il fournit au même endroit tous les outils nécessaires pour la réalisation d’un projet.
Dataiku DSS inclut donc avant tout une interface de codage pour les différents langages de programmation (R, Python, Hive, SQL, etc.). Celle-ci correspond à un notebook Jupyter. Par ailleurs, elle fournit également une interface graphique que les utilisateurs peuvent personnaliser et qui fonctionne par glisser-déposer.
En outre, la plateforme contient plus de 30 connecteurs pour l’intégration agnostique des données. Pour faire simple, cela permet de détecter automatiquement le schéma des données et d’appliquer le calcul vers l’infrastructure SQL, Hadoop ou Spark de l’utilisateur. De plus, il est possible d’étendre les connecteurs avec des plug-ins personnalisés.
Le traitement des données implique la préparation, le mélange et la visualisation. Dataiku dispose de plusieurs fonctionnalités pour prendre en charge toutes ces étapes ainsi que le déploiement des modèles.
Quelles sont les meilleures fonctionnalités de Dataiku DSS ?
Dataiku comporte plusieurs dizaines de fonctionnalités pour le développement d’un projet data, l’analyse de données ou la collaboration. Néanmoins, voici en quelques points les meilleurs d’entre elles.
La collaboration
En tant que plateforme collaborative, une des fonctionnalités proposées par Dataiku est la boîte de réception pour les discussions. Une discussion permet par exemple de trouver plus facilement la solution à un problème qui peut ralentir le développement d’un projet. Les fonctions incluses dans une discussion sont l’édition, l’intégration et les notifications.
En outre, les outils de collaboration offrent également la transparence sur les projets. Nous parlons ici d’une fonctionnalité de contrôle de version qui permet d’expliquer chaque modèle grâce à la sauvegarde des visuels et processus. Pour faire ce type de suivi, des dépôts Git sont disponibles, permettant de savoir qui a travaillé sur le projet ou quand il a été modifié.
L’interface
La page d’accueil de Dataiku a été conçue pour simplifier la navigation pour les utilisateurs. De ce fait, elle affiche les éléments les plus pertinents et les plus récents. Pour trouver les outils, il suffit de dérouler le menu.
Par ailleurs, pour la visualisation du flux, DSS utilise des icônes avec différentes couleurs qui représentent les éléments et les étapes du traitement des données. Par conséquent, l’utilisateur peut facilement voir l’origine des données ainsi que les modifications qui y ont été apportées. Une autre fonction de pliage de flux améliore encore plus la visualisation en permettant de masquer certains segments pour se concentrer sur les parties importantes du flux.
Le machine learning
Avec Dataiku DSS, le machine learning se traduit par plus de valeur sans la maîtrise de Python ou encore une accélération de la création de modèles. La plateforme a même intégré le deep learning basé sur Keras et TensorFlow pour créer des modèles de pointe plus puissants. De ce fait, il suffit au développeur d’écrire le code Keras pour un modèle et DSS se charge du reste. Autrement dit, le prétraitement, l’alimentation et l’entraînement du modèle, la création de graphiques et l’intégration dans Tensorboard s’exécutent automatiquement.
L’agnosticisme technologie
Le fait d’être agnostique signifie qu’il n’existe aucune limite au type de données ni à la méthode utilisée pour leur traitement. Ainsi, qu’un utilisateur soit un « codeur » ou un « cliqueur », Dataiku est accessible à tous.
Les autres fonctionnalités de Dataiku
Le site de Dataiku offre une liste complète ainsi qu’une catégorisation par thèmes de ses fonctionnalités. Ce sont notamment, les applications pour l’analytique, l’architecture des données, les outils de collaboration, la préparation des données, DataOps, la gouvernance, le machine learning, MLOps et la visualisation.
En gros, la plateforme fournit des tableaux de bord et des graphiques pour le partage et la publication des informations. Elle propose également des fonctionnalités d’organisation qui permettent d’accéder plus facilement aux projets (dossiers, applications, etc.).
En termes de codage et de programmation, Dataiku prend en charge les travaux en Python, R, Hive, SQL, Pig ou encore Impala. Les codeurs peuvent travailler aisément sur les notebooks natifs. De plus, DSS fournit des outils pour accélérer les différentes tâches comme un moteur Spark ou différents API. D’autre part, Dataiku est intégré aux services AWS, Azure ou encore GSP et peut être déployé sur les distributions Linux.
Concernant les données, nous avons déjà mentionné l’utilisation des connecteurs de données et des plug-ins. D’autre part, elle propose de nombreuses fonctionnalités pour le traitement des données de bout en bout.
Utilisation de Dataiku
Avant tout, précisons que Dataiku offre un choix aux utilisateurs sur la manière de l’utiliser. Autrement dit, il est possible de passer d’une interface graphique à un notebook (ou l’inverse), même au cours d’un même projet.
DSS fait ensuite une analyse visuelle des valeurs dans le flux visuel (distribution, aberrances, statistiques, etc.). Par ailleurs, chaque projet dispose d’un flux visuel DataOps incluant le pipeline des données et les recettes. Pour MLOps, le déplacement des fichiers entre les nœuds de conception et les nœuds de production est géré par un déployeur unifié.
Le tutoriel de Dataiku
Dataiku DSS propose des tutoriels pour différents types d’utilisateurs (analystes commerciaux, data scientists, data engineers, consommateurs d’AI). Dans le cas du tutoriel pour les data scientists, il existe un flux pour préparer les données et un autre pour évaluer le modèle.
Pour la visualisation des données, DSS dispose de notebooks prédéfinis qui apparaissent en cliquant sur l’icône d’un ensemble de données. Un notebook effectue une analyse exploratoire des données qui génère des graphiques et des statistiques descriptives. Le flux pour la préparation des données supprime des lignes ou des colonnes de valeurs. En revanche, le flux d’évaluation génère de nouvelles colonnes à l’ajout d’une recette après avoir effectué les calculs.
Pour les sessions AutoML, Dataiku peut créer des modèles interprétables tels que Random Forest, des modèles haute performance ou des modèles de deep learning comme Keras/TensorFlow. Une fois que le modèle est créé, les Scénarios d’automatisation permettent d’explorer les MLOps.
En somme, Dataiku est une plateforme idéale pour tous travaux de data science, de data engineering ou de data analytics. Il propose également un environnement collaboratif pour les MLOps et la navigation dans l’IA. Pour les codeurs expérimentés ou les analystes commerciaux non-programmeurs, il fournit tous les supports nécessaires pour la réalisation des projets. Enfin, la possibilité de passer d’un aspect visuel à un autre permet de gagner beaucoup de temps.
- Partager l'article :