Guide pour la recherche en machine learning

La recherche est la première étape dans la réalisation d'un projet de machine learning. Elle permet de trouver comment la technologie peut résoudre un problème donné. Mais aussi simple que cela puisse paraître, il y a des étapes à suivre et des éléments à prendre en compte pour ne pas se tromper de direction.

Le machine learning est un terme très en vogue actuellement. Souvent, les gens y font référence en parlant d'intelligence artificielle. Mais en réalité, le ML ne constitue qu'une partie de l'IA. Par ailleurs, les entreprises s'orientent de plus en plus vers les solutions technologiques pour devenir plus compétitives et garder le rythme. À cet effet, elles engagent des experts de différents types pour mettre en place leur stratégie et leurs projets. La recherche occupe donc une place importante dans l'ensemble du processus. Nous vous proposons un guide pour mener à bien une recherche en machine learning et nous vous donnerons ensuite des conseils sur les choses à faire et à éviter.

En quoi consiste la recherche en machine learning ?

Avant de parler de recherche, commençons par définir ce qu'est le machine learning. Il s'agit donc d'une branche de l'intelligence artificielle qui permet aux machines d'apprendre par elles-mêmes. En d'autres termes, les modèles ML peuvent résoudre automatiquement des problèmes de manière autonome tout en améliorant ses capacités à chaque itération.

Pour procéder, le système apprend à reconnaître des modèles dans un ensemble de données. Ensuite, il applique les connaissances qu'il a acquises sur un nouvel ensemble de données d'entrée. Il effectue donc des calculs et des analyses pour prendre des décisions sans aucune intervention humaine. En pratique, cela signifie par exemple qu'un ordinateur qui a été formé sur un ensemble d'images de chats peut reconnaître un chat dans une image qu'il n'a jamais vu auparavant.

La recherche en machine learning consiste donc à trouver comment cette capacité d'apprentissage automatique peut aider à résoudre un problème donné. Les principales tâches d'un chercheur ML impliquent donc une analyse du problème avant de chercher et concevoir une solution.

Comment faire une recherche en machine learning ?

En gros, la recherche en machine learning se concentre sur deux éléments principaux : le problème et la solution (le modèle). Et entre ces deux points se tiennent les données. Pour faire simple, l'objectif est de trouver la solution à un problème en s'appuyant sur les données.

Guidé par l'objectif

Chaque projet doit effectivement être dirigé par un objectif précis. Cela permet de limiter les domaines de la recherche aux points essentiels. Par ailleurs, définir un objectif aide également à identifier les données adéquates dans un grand ensemble. Il s'agit, comme nous l'avons mentionné précédemment, de résoudre un problème réel. Pour mieux atteindre l'objectif, il est préférable de se concentrer sur un seul problème. Dans le cas où celui-ci serait trop important, vous pouvez le fragmenter en sous-problèmes. Par exemple, si le problème concerne une entreprise, vous pouvez vous concentrer sur un département à la fois. Vous pouvez également choisir en fonction d'autres facteurs comme un cycle périodique.

Prenons un exemple. En sachant que l'objectif est de concevoir un modèle de machine learning sur l'appareil, vous ne gaspillerez pas votre temps à effectuer une recherche sur les grands réseaux neuronaux. L'Edge ML ne nécessite pas non plus de grandes quantités de mémoire. Il vous suffira donc de trouver une solution capable de fonctionner dans un environnement qui utilise peu de ressources.

Les données

Dès lors qu'il est question d'analyse, les données en constituent le cœur. Elles alimentent les modèles pour les entraîner à exécuter des tâches. En outre, c'est aussi à travers des données que le système identifie les solutions au problème relatif. Pour finir, c'est encore des données qui résultent de chaque analyse. Par conséquent, une grande partie du temps de recherche en machine learning doit être impartie aux données.

Tout d'abord, il est important de garantir la fiabilité de la source des données. Vous devez notamment tenir compte de la réputation des endroits où elles ont été publiées et de leurs auteurs ainsi que des éventuels problèmes mentionnés dans les notes. Dans le domaine de la data science, nous entendons souvent l'adage « garbage in garbage out ». Cela signifie que les résultats de tout traitement de données dépendent de la qualité des données d'entrée. Si celles-ci sont médiocres, le modèle créé le sera également.

Notons également que parfois, il n'est pas nécessaire de garder toutes les données. Un problème spécifique se traduit par un point de données spécifique. De ce fait, une autre étape de la recherche en machine learning consiste à extraire les données pertinentes lors du data mining. Toutefois, la quantité de données reste primordiale. Si le modèle n'est pas suffisamment alimenté, il sera moins performant.

Trouver une solution : le modèle

À cette étape vous devez répondre à la question : « quel type de modèle correspond à mon problème ? ». Les types de données influent également sur le choix d'un modèle. Parfois, la meilleure solution est la plus simple et parfois non. En d'autres termes, faire une recherche en machine learning c'est aussi essayer de déterminer quand il faut utiliser un modèle complexe et quand cela n'est pas nécessaire.

Précisons alors qu'il existe déjà divers modèles ML qui ont été créés, testés et utilisés par différents experts. Maintenant, grâce aux frameworks ML comme Scikit-Learn, Pytorch ou Keras, vous pouvez tester différents modèles pour trouver celui le mieux adapté.

Recherche en machine learning : nos conseils

Les étapes que nous venons d'énumérer constituent donc la base de toute recherche en machine learning. Maintenant, voici quelques conseils pour mener à bien votre investigation.

À faire

Se documenter

Avant de vous lancer dans des travaux de recherches, vous devez avoir des connaissances de base sur le sujet qui vous intéresse. Vous devez donc lire beaucoup de documents et d'articles qui traitent de problèmes similaires aux vôtres. Ils constitueront une base sur laquelle vous cadrerez vos recherches. Par la même occasion, une bonne documentation permet de justifier vos travaux. Vous pouvez commencer par les articles les plus récents et utiliser les références pour vous diriger vers des études plus anciennes.

Se concerter

Il convient de noter que faire une recherche en machine learning implique de discuter avec d'autres chercheurs qui travaillent autour du même sujet. En intégrant un groupe de recherche, vous pouvez exposer vos idées pour avoir des retours et également tirer des leçons de l'expérience des autres. Ensemble, vous pouvez explorer les théories les plus récentes et les plus utilisées. De plus, cela vous permettra d'élargir vos horizons de recherche sans pour autant vous égarer.

Consulter l'avis des experts

En dehors de votre groupe, parlez également avec des experts en machine learning. Ils peuvent vous aider à différents niveaux, allant du choix des problèmes à traiter aux exigences du domaine. Par ailleurs, ils pourront vous aider à trouver le public cible auquel vous pourrez présenter votre travail ainsi que les meilleures conférences, revues, etc. Cela vous ouvrira davantage de portes pour accéder à toute la communauté de recherche en machine learning.

Astuces pour la collecte de données

Rappelons encore l'importance d'avoir une quantité de données suffisante pour alimenter les modèles ML. Si les sources que vous avez sélectionnées ne fournissent pas assez d'informations, vous pouvez utiliser des techniques de data augmentation ou de validation croisée. Il existe différentes approches pour augmenter les données, comme la transformation de données ou la simulation et les données de synthèse.

À ne pas faire

Mélanger les données

Il est important de séparer les données de formation et de test dès le début du processus. Des données de test qui s'infiltrent dans le processus de formation conduiraient à des résultats biaisés. Cela nuirait, entre autres, à l'intégrité du modèle. Certains chercheurs mettent de côté une partie des données pour les soumettre au modèle après la formation. Mais l'idéal serait d'utiliser un ensemble de données de validation qui ne provient pas du même ensemble que les données de formation.

Partir de zéro

L'apprentissage automatique bat son plein, mais il existe depuis des dizaines d'années. Autrement dit, la recherche en machine learning a déjà produit de nombreux résultats. Si vous pensez tenir une nouvelle piste, des recherches approfondies révéleront sûrement que d'autres chercheurs avant vous ont déjà résolu un problème similaire. Évitez donc d'affirmer que vous êtes l'initiateur dans le domaine. Cela ne signifie pas pour autant que vous devez calquer tout votre travail sur ceux de vos prédécesseurs. Vous pouvez commencer par identifier les lacunes pour essayer de les améliorer.

L'instabilité

En choisissant le problème et en définissant votre objectif, il est important de vous y tenir. Parfois, il peut arriver qu'une nouvelle idée prometteuse se présente à vous. Au lieu d'améliorer vos chances de réussite, passer d'une idée à une autre est plus probable d'augmenter le risque d'échecs. En effet, le machine learning, et l'IA en général, est un domaine en constante évolution. Cela signifie que de nouvelles idées et de projets de recherches peuvent naître jour après jour. Si vous décidez d'abandonner votre recherche pour vous réorienter, il y a de fortes chances qu'une nouvelle idée survienne avant l'achèvement de vos investigations.

Néanmoins, cela n'écarte pas la possibilité qu'une nouvelle idée puisse aboutir à des résultats concluants. Dans tous les cas, vous devez évaluer les risques avant de décider de changer de cap ou de poursuivre. Par ailleurs, si une idée trotte dans votre tête, vous pouvez la noter quelque part et consacrer une partie de votre temps libre à l'explorer.

La différence entre la recherche et l'application du machine learning

Avant de clore ce guide, nous tenons à éclaircir ce point qui prête souvent à confusion. La recherche en machine learning est un travail purement scientifique. Elle consiste à exploiter les découvertes scientifiques pour tenter de résoudre un problème réel. Un chercheur ML est une personne qui a fait des études et obtenu un doctorat ou un diplôme équivalent.

Pour sa part, l'application du machine learning est plutôt du ressort d'un ingénieur. Il tire parti des travaux de chercheurs ML pour créer un produit ou un service livrable pour les utilisateurs. Ses compétences tournent principalement autour du développement de logiciels et du cloud computing.

Par ailleurs, les travaux de recherche en machine learning sont publiés dans les journaux et des revues scientifiques populaires. En revanche, un ingénieur ML est un travailleur de l'ombre qui conçoit des solutions qui seront ensuite lancées au nom des entreprises.

Partager l'article :