Le machine learning franchit la barrière de l'exaoctet de données

En termes de traitement de données, l'IA est de plus en plus capable. La dernière création : un algorithme de machine learning capable de traiter plus d'un exaoctet de données.

Un algorithme d'apprentissage automatique (ou machine learning) a montré son aptitude à traiter des données supérieures à celle d'une mémoire d'ordinateur. Il est même capable de relever les caractéristiques clés de données massives et les partager en lots gérables qui ne submergent pas le dispositif informatique. Cet algorithme a été créé dans un laboratoire national de Los Alamos. Il a réalisé un record universel pour la factorisation de grande quantité de données pendant un test réalisé sur le Summit du labo d'Oak Ridge. Ce dernier est d'ailleurs à la cinquième place du supercalculateur le plus rapide de l'univers.

Un algorithme automatique polyvalent

Cet algorithme est compatible avec les ordinateurs portables et les superordinateurs. Il est extrêmement évolutif et peut résoudre les brèches d'étranglement à l'origine des détournements du traitement d'informations résultant des applications riches en données. Il peut s'agir d'informations sur l'imagerie satellite, des recherches sur le cancer, la recherche sur les tremblements de terre, la science de la sécurité nationale, les réseaux sociaux, etc.

Le processus est simple, car il consiste à décomposer le Big Data en plus petites unités, que l'on peut par la suite traiter avec n'importe quelle ressource. C'est pour cette raison que cet outil se révèle être un dispositif indispensable pour suivre des ensembles d'informations en croissance exponentielle.

Selon Manish Bhattarai, scientifique en apprentissage automatique à Los Alamos, le concept a été conçu pour remettre en question la notion de l'analyse de données traditionnelle. Cette dernière demande d'ailleurs que les données honorent les contraintes de mémoire.

Une technique plus poussée pour traiter plus d'un exaoctet de données

D'après toujours Manish Bhattarai, ils ont utilisé une solution de manque de mémoire. Ainsi, dès que le volume de données est supérieur à la mémoire existante, l'algorithme se charge de le décomposer en des petits segments.

Améliorez la performance de vos projets grâce à l’IA générative ?

Je me lance dans l’IA avec mon entreprise !

Par la suite, ces segments seront traités un par un, entraînant leur entrée et leur sortie de la mémoire. Il s'agit d'un procédé qui offre la possibilité de gérer et d'analyser de manière efficace les ensembles de données très volumineux.

Selon Boureima, cet algorithme dispensé pour les systèmes informatiques hautes performances récentes et hétérogènes se révèle être un grand atout sur une machine assez petite qu'un ordinateur de bureau. De même pour les modèles extrêmement complexes et grands que Summit et Chicoma ou encore les imminents supercalculateurs Venado.

À partir de ce moment, la factorisation d'une grande matrice n'est plus un problème. Le plus important à connaître est le temps que cette tâche va prendre.

L'utilisation de Los Alamos profite des fonctionnalités matérielles comme les GPU qui permettent de précipiter le calcul. Il fait usage d'interconnexion rapide qui a pour objectif de déplacer les informations entre les machines de manière efficace. Par la même occasion, l'algorithme réalise différentes tâches en même temps.

Les algorithmes hautes performances conçus dans le cadre du projet SmartTensors à Los Alamos impliquent aussi la factorisation matricielle non négative.

Partager l'article :