in

DeepSeek, la révolution IA à petit budget qui remet en question ChatGPT

DeepSeek interface web et moibile

DeepSeek a beaucoup fait parler d’elle avec le lancement des modèles R1 et V3, il y a quelques semaines. La start-up a même suscité l’intérêt des investisseurs et des leaders américains comme Nvidia qui a vu son cours régresser de 17 % en quelques jours. Aujourd’hui, DeepSeek est devenu le modèle à moins de 6 millions de dollars qui a surpassé (ou presque) ChatGPT d’OpenAI. Mais de quoi s’agit-il exactement ?

DeepSeek est en réalité une start-up chinoise fondée par Liang Wenfeng en 2023 et qui est basée à Hangzhou.

Et à titre d’information, Wenfeng n’est autre que le cofondateur de High-flyer, un fonds d’investissement dédié à la recherche en IA générative dont le portefeuille d’actifs s’élève à 13 milliards d’euros.

YouTube video

Le parcours fulgurant de DeepSeek

Liang Wenfeng et plusieurs collaborateurs de High-Flyer possèdent un background scientifique en intelligence artificielle, soit comme chercheurs, soit comme ingénieurs.

En l’espace de deux années seulement, DeepSeek a constitué une équipe de 150 à 200 personnes.

Bien que ce chiffre reste inférieur aux effectifs d’OpenAI ou de Google DeepMind, il surpasse déjà ceux de la société française Mistral AI.

La réputation de DeepSeek était déjà établie dans les cercles spécialisés de l’IA. Dès novembre 2023, l’entreprise s’est distinguée sur la plateforme Hugging Face avec ses modèles de langage généralistes (comparables à GPT-4) ;

Mais c’est surtout avec ses LLM spécialisés comme DeepSeek Coder et Math, lancés en février 2024, qu’elle a marqué les esprits.

Avant même de connaître sa notoriété actuelle, ses modèles figuraient régulièrement en tête des classements communautaires des LLM open source, aux côtés de ceux développés par Meta, Google, Mistral AI et d’autres acteurs majeurs.

Cela dit, DeepSeek n’est pas vraiment nouveau dans l’industrie de l’IA. Mais c’est le lancement des modèles R1 et V3 qui l’a poussé en tête de liste ses concurrents les plus performants à ChatGPT.

En parlant de concurrents

En parlant de concurrents, DeepSeek se confronte aujourd’hui à des entreprises déjà établies, donc des géants comme OpenAI, Google DeepMind, Anthropic, Meta AI et le français Mistral AI.

Par contre, DeepSeek ne rivalise pas directement avec Nvidia, bien que celle-ci ait vu sa valeur boursière baisser de plusieurs centaines de milliards de dollars à cause de DeepSeek.

Liang Wenfeng ne peut donc pas concurrencer avec Jensen Huang puisque Nvidia n’est pas une entreprise d’IA, mais plutôt un fournisseur de GPU ou de puces graphiques.

Comme principal concurrent à DeepSeek, du modèle R1 en tout cas, il y a o1 d’OpenAI qui excelle dans la résolution des problèmes complexes.

Un modèle à seulement 5 millions qui fait parler de lui

Peu de temps après la sortie du modèle R1, DeepSeek a beaucoup fait parler d’elle. Même jusqu’à aujourd’hui, l’effet DeepSeek se fait encore sentir.

Il y a une raison à cela, et ce n’est autre que l’approche qu’a utilisée la start-up dans le développement de ses modèles d’IA.

Tout comme OpenAI, Google, Microsoft, Meta, Anthropic, et les autres grandes entreprises, DeepSeek a dû entraîner ses modèles de langage.

Mais contrairement à ChatGPT, à Gemini ou Llama, le coût d’entraînement du modèle V3 de DeepSeek n’est que de 5,6 millions de dollars.

C’est déjà un gros point pour la start-up chinoise comparée à OpenAI qui a dépensé des milliards de dollars dans ChatGPT.

À titre d’information, OpenAI a lancé GPT-4 en mois de mars de l’année 2023 avec un coût d’entraînement de 100 millions de dollars.

De son côté, Anthropic, propriétaire de Claude AI, estime le prix du développement d’un modèle d’IA comme Claude entre 100 millions à 1 milliard de dollars.

Si l’on tient compte de ces éléments, l’entraînement de DeepSeek n’a coûté qu’une fraction de celui de ChatGPT et de Claude.

Au fait, DeepSeek aurait utilisé la technique de distillation pour le développement de ses modèles (voir cet article pour plus de détail sur la distillation).

YouTube video

On parle de moins de 6 millions de dollars, mais ce coût est-il réaliste ?

5,6 millions de dollars, ça représente un dixième de l’investissement dont a besoin OpenAI entraîné un modèle.

Pour sa part, Liang Wenfeng, fondateur de Deepeek souligne que c’est une estimation du coût de développement du modèle V3, bien que le prix annoncé, soit bel est bien crédible.

Mais ce n’est possible que si la start-up louait des serveurs chez Google Cloud, Microsoft Azure ou AWS pour un prix de 2 dollars par GPU par heure.

Sauf que des offres de ce genre n’existent pas ni chez Google, ni chez AWS, ni chez Microsoft. Alors comment DeepSeek a-t-elle fait ?

Tout se passe par le biais de High-Flyer, le fonds d’investissement dont je vous ai parlé plus haut dans cet article.

Ce dernier a en effet accès à plus de 13 000 GPU Nvidia, dont des A100 ancienne génération, des H100 et des H800, celui-ci évalué à un nombre de 2 048.

Pourtant, pour SemiAnalyst, un cabinet d’analystes indépendants américain, DeepSeek aurait accès à près de 10 000 GPU H800 et 10 000 H100.

Sauf que cette information n’est pas encore prouvée et que Nvidia n’a pas émis de commentaire sur la question.

Y a-t-il une différence entre le modèle R1 et le modèle V3 de DeepSeek ?

Je n’ai cessé de parler de R1 et de V3 depuis le début de cet article. Mais quelle est la différence entre ces deux modèles ?

Pour saisir les nuances entre ces deux familles de modèles, je vais vous parler de comment se font les étapes d’entraînement des LLM, soit des grands modèles de langage.

En premier lieu, on entraîne les LLM à partir des données, donc des contenus et des documents issus du web.

Il s’agit donc de la phase de pré-entraînement qui ne permet pas encore à un modèle de langage de répondre à une question ou d’exécuter une tâche.

Ensuite vient l’affinage, communément appelé « fine-tuning », une étape dans laquelle les chercheurs affinent les modèles en modelant leur comportement en fonction de leurs objectifs.

Pour le cas de DeepSeek, le V3 Instruct est conçu pour fournir des réponses utiles et pertinentes, à l’image de GPT-4.

En ce qui concerne le modèle R1, il va adopter une approche différente en exposant explicitement son raisonnement.

Pour ce faire, il va introduire des petits mots de liaison du genre « je sais que », « or » et « donc » avant de présenter une conclusion synthétique.

Je tiens tout de même à rappeler que malgré leurs différences fonctionnelles, les modèles V3 et R1 partagent une base commune.

Ils sont tous deux développés à partir du modèle pré-entraîné DeepSeek-V3-base. La question qui se pose est de savoir si l’accès à ces modèles est gratuit ou payant.

YouTube video

ChatGPT Pro à 200 $ ? DeepSeek propose-t-elle mieux sans rien dépenser ?

Eh bien, la question ne devrait même pas se poser. Ça fait plus d’un mois qu’on parle sans cesse de DeepSeek.

Tout le monde, ou presque, connaît désormais DeepSeek et peut l’utiliser gratuitement. Ce qui le diffère de ChatGPT dont certaines fonctionnalités ne sont accessibles que sur abonnement.

Notamment le mode Deep Research ou recherche avancée disponible uniquement en vous abonnant à ChatGPT Pro tarifé à 200 $ par mois.

Il y a cependant deux façons d’utiliser DeepSeek. Soit, vous accédez à la version web dont voici le lien, soit vous téléchargez la version mobile (sur Google Play pour Android et App Store pour iOS).

Vous verrez après inscription qu’il y a une similitude entre l’interface de DeepSeek et celle de ChatGPT.

En parlant d’inscription, petite info que je voudrais partager : l’accès à ChatGPT peut se faire sans avoir à vous inscrire.

Mais l’avantage avec DeepSeek, c’est que les fonctions « Réflexion approfondie » et « Rechercher » sont actifs gratuitement pour tous les utilisateurs.

Celles-ci sont similaires au mode Deep Research et ChatGPT Search qu’OpenAI propose pour les abonnés Pro.

Alors, quelle version de DeepSeek utiliser : web ou mobile ?

Je tiens avant tout à noter que l’efficacité des modèles comme DeepSeek V3 et R1 varie selon le contexte d’utilisation.

Ces systèmes, principalement développés pour l’anglais et le chinois, peuvent présenter des lacunes dans d’autres langues.

Mais comme les préférences des utilisateurs peuvent diverger, certains préfèrent utiliser DeepSeek et d’autres ChatGPT.

Je vous invite donc à visionner cette vidéo de comparaison entre DeepSeek V3 et ChatGPT que nous avions préparée pour vous aider à choisir le bon chatbot.

Sinon, j’ai aussi préparé un petit guide comparatif entre DeepSeek et ChatGPT que vous pouvez lire à partir de ce lien.

Pourtant, bien que DeepSeek V3 et R1 démontrent des capacités notables en programmation, ils ne sont pas exempts d’erreurs.

Les évaluations standardisées indiquent que les grands modèles linguistiques qui alimentent ces applications affichent des performances relativement similaires, avec des écarts minimes entre eux.

Tous ces systèmes continuent de produire des hallucinations, quelle que soit leur sophistication technique.

Et c’est ce dont je parle dans cet article qui indique que le contenu IA inonde internet. Quitte à dire que L’IA se déchaîne, les fausses informations se propagent, même avec l’arrivée des moteurs de recherches IA.

Alors, posez-vous la bonne question ! Utilisez-vous l’IA dans le bon sens du terme ?

Restez à la pointe de l'information avec INTELLIGENCE-ARTIFICIELLE.COM !

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *