Meta a récemment lancé Llama 4, son soi-disant plus performant modèle. Avec des centaines de milliards de paramètres, Llama 4 Scout et Llama 4 Maverick sont dotés d’une architecture MoE (Mixture of Experts). Le géant des réseaux sociaux affirme alors pouvoir offrir la meilleure performance et la meilleure qualité de résultats. Mais cela n’exclut pas les modèles Llama 4 de faire l’objet de reproches. Quitte à dire que Meta a copié sur DeepSeek dans le développement de Llama 4. Je n’ai donc pas pu m’empêcher de faire une comparaison sur Llama 4 vs DeepSeek pour évaluer l’intérêt de cette approche.
À titre d’information, Scout est le plus petit modèle Llama 4 avec 109 milliards de paramètres et 16 experts.
Quant à Maverick, il possède le même nombre de paramètres, mais avec 128 experts actifs. Ce qui fait un total de 400 milliards de paramètres.
Il y a cependant un troisième modèle, mais qui est encore en phase d’entraînement : Llama 4 Behemoth. Celui-ci compte 16 experts et un total de 2 000 milliards de paramètres.
Bien sûr, chaque modèle Llama 4, qu’il s’agisse de Scout ou de Maverick, est assez gourmand à l’inférence.
Atouts Llama 4 face à DeepSeek
L’atout majeur des modèles Llama 4 réside dans l’introduction d’une variable inconnue concernant les ressources de calcul nécessaires pour leur fonctionnement.
Si Meta avait pris du retard pour proposer des modèles capables de traiter 128 000 tokens (considéré comme la norme actuelle), Llama 4 a aujourd’hui dépassé cette limite.
La capacité de traitement contextuel de Scout par exemple, peut traiter jusqu’à 10 millions de tokens. Ce qui équivaut à environ 5 millions de mots. Maverick, de son côté, peut gérer jusqu’à 1 million de tokens.
Celle de Behemoth n’a pas encore été communiquée, étant donné que le modèle n’est pas encore disponible.
Par contre, le site de Meta indiquent que ces performances ont été évaluées en utilisant 512 GPU et des techniques avancées de calcul parallèle.
Durant leur entraînement, Maverick et Scout ont été configurés avec une fenêtre contextuelle de 256 000 tokens.
L’utilisation de couches d’attention entrelacées sans embeddings de position (technique NoPE-No Positional Embeddings) permettrait d’augmenter considérablement cette capacité de traitement.
Llama 4 isn't just good, it's REVOLUTIONARY.
Just tested it against the "big players" and I'm shocked.
What I discovered:
• Beats ChatGPT 4o in multiple tests
• Outperforms Grok with cleaner reasoning
• Creates functional code better than DeepSeek
• Offers 10M… pic.twitter.com/q4FiJvFJv9— Julian Goldie SEO (@JulianGoldieSEO) April 7, 2025
Llama 4 aurait-il copié sur DeepSeek ?
À vrai dire, Meta a dû revoir ses chaînes de traitements en raison de l’architecture MoE et la taille des modèles Llama 4 Scout et Maverick.
Il y a aussi l’intégration d’un autre composant qui vient enrichir le système pour faciliter l’analyse d’images.
Il s’agit d’un composant visuel connu sous le nom de MetaCLIP développé séparément aux côtés d’une version fixe de Llama. Cela pour mieux s’adapter aux grands modèles.
En tout cas, face aux défis d’élargissement du contexte et de reconnaissance visuelle, Scout et Maverick ont absorbé une quantité impressionnante d’informations. Soit respectivement 40 000 et 22 000 milliards de tokens.
Cette masse de données comprend des textes et des images provenant de sources ouvertes. Mais aussi des contenus sous licence issus des plateformes Meta. Notamment les publications accessibles à tous sur Instagram et Facebook.
En gros, c’est une utilisation qui marque un changement de position. Cela puisque l’entreprise avait jusqu’ici maintenu qu’elle n’exploitait pas les données de ses utilisateurs. Du moins pour l’entraînement de ses modèles.
Les modèles ont également été exposés à 200 langues durant leur préparation initiale, dont 100 représentées par au moins un milliard de tokens chacune.
Et la phase de perfectionnement post-entraînement paraît finalement largement empruntée aux approches rendues publiques par DeepSeek.
- Partager l'article :