in

Tout le monde, même vous, peut créer une IA grâce à la technique de distillation

LLM distillation

, , , Microsoft, toutes ces entreprises ont investi des milliards de dollars pour développer peur propre modèle d’IA. Pourtant, aucune d’entre elles ne tient vraiment la place de leader. À l’instar d’OpenAI, propriétaire de qui est aujourd’hui le chatbot le plus utilisé. Parallèlement, une start-up chinoise a pu tenir tête aux géants de l’industrie avec moins de 6 millions de dollars. Ce n’est autre que qui a récemment déployé le modèle R1 qui est devenue l’ la plus téléchargée aux États-Unis. Cela grâce à la technique de distillation de LLM.

Quelque temps après, l’administration Trump a envisagé un projet de loi visant à sanctionner tous ceux qui utilisent l’application DeepSeek.

Or, aujourd’hui, Meta, Microsoft et OpenAI se tournent vers l’approche qu’a adoptée DeepSeek dans le développement de son modèle.

Le processus en question s’appelle Distillation. Et c’est un mécanisme qui permet de réduire le coût de développement des modèles pour une fraction des investissements massifs qu’ont dû réaliser les entreprises américaines.

YouTube video

Un processus rapide et peu coûteux pour créer un modèle d’IA

La technique de Distillation ne date pas d’hier. Mais grâce à DeepSeek, elle est devenue une aubaine pour toutes entreprises et start-ups souhaitant créer des modèles d’IA pour moins cher.

Son fonctionnement repose sur deux modèles de langage. En premier lieu, il y a ce que l’on appelle le modèle enseignant.

Celui-ci, de grande taille, a pour attribution de générer le prochain mot d’une phrase. En d’autres termes, le modèle enseignant va générer les données qui serviront à l’entraînement du second modèle que je nomme « modèle élève » et qui est plus petit. Ainsi, le transfert des données se fait plus rapidement.

Les entreprises et les start-ups qui adoptent le processus de distillation gagnent donc du temps dans la phase d’entraînement de leurs modèles.

Mais elles pourront également économiser leurs ressources tout en bénéficiant d’une marge bénéficiaire assez élevée.

Et comme l’a indiqué le responsable produit d’OpenAI, Olivier Godement, la technique de distillation est un processus magique.

« Grâce à la distillation, on peut facilement créer un modèle plus petit, mais plus performant, très rapide à exécuter et surtout très bon marché », a-t-il ajouté.

DeepSeek aurait-elle distillé un modèle d’OpenAI ?

Llama, -4, , tous ces modèles ont nécessité des investissements massifs et un volume inimaginable de données.

Je n’ose même pas imaginer combien de millions, voire de milliards, OpenAI, Google ou Meta ont-ils investis pour créer ces modèles.

Ce qui est sûr, c’est qu’avec la méthode de distillation, on peut créer des modèles aussi performants que GPT-4 pour une fraction de son coût de développement.

Et c’est justement le cas puisque les développeurs peuvent accéder à la plateforme d’OpenAI pour distiller leurs connaissances.

Il est donc possible de s’inspirer des LLM d’OpenAI pour créer, par exemple, un petit modèle tel que Phi, celui de Microsoft, le principal bailleur d’OpenAI.

De son côté, OpenAI pense que DeepSeek avait distillé ses modèles. Mais est-ce vraiment le cas ? La start-up chinoise n’a pas encore donné son avis. En tout cas, la technique de distillation n’est pas sans limites.

YouTube video

Une fausse bonne idée, peut-être…

Oui, la distillation permet de créer un modèle d’IA de petite taille, mais qui performent dans certaines tâches.

Pourtant, il y a un compromis qu’il ne faut surtout pas négliger dans le processus de distillation. Comme l’a souligné Ahmed Awadallah, responsable de recherche chez Microsoft Research.

Selon lui, plus on distille un modèle, plus on réduit ses capacités. Ce qui veut dire que si un modèle devait être distillé, le modèle élève ne serait efficace que pour les mêmes tâches dont excellait le modèle enseignant.

Pour David Cox, vice-président des modèles d’IA d’ Research, il n’est pas nécessaire d’exécuter un modèle à partir d’un grand modèle.

D’après son , les modèles distillés sont assez performants pour fonctionner sur un appareil de petite taille comme les smartphones ou en tant que chatbot de service client.

Pourtant, si DeepSeek avait vraiment distillé un modèle d’OpenAI, pourquoi il dispose des mêmes capacités, voire des performances surpassant celles de ChatGPT ? David Cox se serait-il trompé dans son analyse ?

Ce qui est sûr, c’est qu’il faudra toujours un plus grand modèle pour pouvoir créer et former un autre qui est plus petit, mais qui est plus performant.

Le vrai défi, c’est que les grandes entreprises puissent se mettre d’accord sur la possibilité de distiller leurs modèles pour que les start-ups aient l’opportunité de créer leur propre modèle sans investir des centaines de millions.

Si les géants ne souhaitent pas que leurs modèles se fassent distiller, fallait pas le mettre en open source. Tout simplement.

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *