vLLM, une révolution pour un service LLM rapide

Les coûts et l'efficacité mémoire restent l'un des grands défis que les LLM ou grands modèles de langage doivent relever. vLLM se révèle être ainsi une solution innovante face à ce défi. Cette solution bouleverse l'inférence et propose un débit 24 fois supérieur que les modèles classiques.

Les LLM sont surtout connus pour leurs différentes applications, à savoir les chatbots universels, les assistants de programmation, etc. Néanmoins, ils sont toujours face à un grand obstacle comme les coûts élevés de traitement ou encore les grandes exigences en matière d'accélérateurs matériels. C'est dans ce contexte qu'il devient impératif d'accroître le débit des systèmes de diffusion LLM dans le but de minimiser les coûts par requête. La mise au point de vLLM se révèle être ainsi une excellente solution pour répondre à ce besoin. Cette bibliothèque de machine learning open source se compose d'un algorithme appelé PagedAttention.

Les LLM en plein essor, mais à quel prix ?

Les conséquences grandissantes des grands modèles de langages LLM dans notre vie sont certaines. Toutefois, pour assurer le fonctionnement de ce genre d'application, il est primordial d'avoir des accélérateurs matériels assez coûteux comme les GPU.

Notons que le coût d'une requête LLM peut aller jusqu'à dix fois plus cher que celui d'une recherche basée sur le mot-clé.La réalisation optimale des LLM nécessite ainsi de regrouper de manière efficace des requêtes. Cependant, les systèmes qui existent en ce moment ont du mal à gérer la mémoire cache clé-valeur (cache KV).

Cette dernière se distingue par sa taille qui peut changer dynamiquement. Ainsi, si la technique de gestion n'est pas efficace, la duplication ainsi que la fragmentation peuvent avoir un impact sur la RAM. Cela ne fera que baisser ainsi son aptitude à traiter les données.

PagedAttention : une solution clé pour réussir

vLLM utilise PagedAttention, une solution qui se révèle être indispensable pour relever ces défis. Cette solution ressemble à la mémoire virtuelle classique. Il fragmente le cache KV en blocs sur lequel se trouvent les clés et les valeurs réservées pour un nombre prédéfini de jetons.

C'est une approche flexible qui sert à optimiser la gestion de la mémoire avec une petite inefficacité de 4% seulement. Cette solution permet ainsi d'utiliser les GPU de manière optimale.

Outre le fait de proposer une gestion de mémoire optimale, PagedAttention possède aussi un grand avantage : le partage de mémoire. Cette bibliothèque d'apprentissage open source réduit aussi énormément la mémoire supplémentaire que les techniques d'échantillonnage avancées requièrent. Cela conduit ainsi à un gain de vitesse expressif.

vLLM redéfinit de l'état de l'art

L'ajout de PagedAttention au vLLM permet de changer tout le paysage des LLM. En effet, il propose un débit jusqu'à 24 fois supérieur à ce que les modèles classiques comme Hugging ou FaceTransformers procurent. De plus, il ne change en rien l'architecture de base.

La révélation des premiers tests est assez prometteuse. En effet, si on compare vLLM à des systèmes de référence comme FasterTransformer ou Orca, il est capable de proposer le double ou encore le quadruple du débit des LLM les plus célèbres.

Bref, l'essor des LLM ainsi que leur application ultra-révolutionnaire demande encore plus une inférence rapide et efficace. Avec PagedAttention de vLLM, le futur des grands modèles de langages est encourageant. En effet, il sera beaucoup plus efficace et performant.