Les géants de la tech, tels que Google, rivalisent d’innovation dans le domaine de l’intelligence artificielle. Gemini est l’une des récentes avancées de ce secteur en pleine effervescence et elle attire de plus en plus l’attention. Mais de quoi s’agit-il exactement ? Quelles sont ses capacités ? Comment y avoir accès ? Voici tout ce qu’il faut savoir sur ce modèle révolutionnaire.
Un LLM nativement multimodal
Gemini est un grand modèle de langage dévoilé en décembre 2023 par Google en réponse à celui OpenAI. Comme tout LLM, il s’appuie sur le machine learning et s’entraîne sur des ensembles de données massifs. C’est ce qui lui permet d’acquérir sa capacité à traiter des informations complexes.
Contrairement à la plupart des LLM, qui sont initialement conçus pour le texte uniquement, Gemini a été développé dès le départ pour être multimodal. Dès son lancement, il est capable de comprendre et de traiter du texte, mais aussi des vidéos et des images. Ceci signifie que le modèle n’a pas été entrainé seulement via un vaste de données de textes, mais aussi de fichiers vidéos, audios et images.
Il faut noter que Gemini n’est pas le premier LLM de Google DeepMind. La société a déjà développé LaMDA et PaLM, qui se concentrent principalement sur le traitement du texte. Lancé en 2022, PaLM a bénéficié d’une mise à jour en 2023, mais est resté un modèle unimodal. Gemini se positionne donc comme une innovation majeure dans le domaine des LLM, grâce à sa capacité multimodale native.
Gemini 1.0, 3 versions pour tous les besoins
Première version de ce nouveau LLM de Google, Gemini 1.0 se décline en trois tailles, chacune optimisée pour répondre à des besoins spécifiques : Gemini Nano, Gemini Pro et Gemini Ultra.
Gemini Nano est la plus petite des trois. Conçue pour les smartphones, elle traite les données localement sans passer par un serveur distant. Elle est déjà disponible sur le Pixel 8 Pro. Quant à Gemini Pro, c’est cette version qui a alimenté le chatbot Bard, rebaptisé Gemini par Google. Elle dispose de capacités de compréhension et de raisonnement avancées. Des études comparatives avec GPT-3.5 d’OpenAI ont démontré la supériorité de Gemini Pro dans le traitement de chaînes de raisonnement complexes et longues. Elle est disponible en tant qu’API via la plateforme de développement IA de Google, Vertex AI.
Enfin, Gemini Ultra, la version la plus puissante, est faite pour des tâches hautement exigeantes. Lors de sa présentation, Google a mis en avant ses capacités à identifier des articles scientifiques pertinents, générer des images, assister à la résolution de problèmes de physique, corriger des erreurs de code, et bien plus encore.
Que peut-on faire avec Gemini ? Et, cette IA est-elle gratuite ?
Gemini, le chatbot IA de Google, est disponible en version gratuite. Elle s’appuie sur Gemini Pro et offre des fonctionnalités similaires à GPT-3.5 d’OpenAI, telles que la conversation, la traduction, la synthèse et l’analyse d’articles. Vous pouvez discuter avec cette intelligence artificielle et elle fournit des réponses à vos prompts.
Le 5 février 2024, Google lance Gemini Ultra. Comme nous l’avons vu précédemment, il s’agit de la version la plus performante des trois. Le modèle propose des fonctionnalités avancées. D’après les premiers tests faits par les utilisateurs, Gemini Ultra surpasse GPT-4 d’OpenAI en rapidité et capacités. Elle est intégrée aux services Google comme Maps, Docs ou Gmail.
L’accès à ces fonctionnalités améliorées n’est néanmoins plus gratuit. Google propose désormais un abonnement Premium AI à 20 dollars par mois. C’est donc un peu l’équivalent de ChatGPT Plus d’OpenAI. Celui-ci vous donne accès à Gemini Advanced, un véritable assistant personnel, ainsi qu’à 2To de stockage Drive.
Concrètement, avec Gemini Ultra, vous pouvez générer du texte. Éveillez l’imagination de vos enfants en leur racontant des contes uniques et personnalisés avant de dormir. Ce modèle vous fait aussi devenir un véritable codeur en générant du code informatique complet. La version gratuite ne propose que les grandes lignes du code. Vous avez également la possibilité de traduire des textes, faire des résumés, tenir de longues conversations dans différentes langues, mais également effectuer une recherche plus poussée.
Vous pouvez égaleemnt faire des requêtes à partir d’images. Identifiez facilement le modèle et la marque d’un sac à main, un édifice ou tout autre objet. Ce modèle vous offre, par ailleurs, la possibilité de créer des images à partir de votre imagination en décrivant simplement ce que vous souhaitez voir. Gemini Ultra est donc bien plus qu’un simple chatbot. C’est un véritable assistant personnel qui vous accompagne dans tous vos projets.
Premiers pas : comment utiliser cette IA ?
Si vous voulez utiliser le chatbot IA gratuit de Google, il vous suffit de vous rendre sur Gemini.Google.com. Connectez-vous avec vos identifiants Google. Vous accéderez alors à l’interface intuitive de Gemini.
En bas de votre écran se trouve un champ de texte pour saisir vos requêtes. Il vous suffit de taper votre question puis de cliquer sur « Envoyer » ou d’appuyer sur Entrée pour la soumettre à l’IA. Vous pouvez aussi dicter vocalement votre demande en cliquant sur l’icône micro. Sur la gauche sont disposés le menu principal et quelques raccourcis, ainsi qu’un historique de vos demandes précédentes. Il vous suffit de cliquer sur l’une d’elles pour rouvrir l’onglet correspondant.
Pour accéder aux fonctionnalités avancées de Gemini Ultra, il vous faut vous abonner à « AI Premium » depuis votre compte Google One. Rendez-vous dans la rubrique « Forfaits » et sélectionnez cette option privilégiée. Suivez les instructions à l’écran pour finaliser votre upgrade.
Utiliser Gemini sur smartphone : est-ce possible ?
Oui, Google a déployé une version mobile de son IA. Il faut la télécharger sur le Play Store ou l’AppStore. Pour le moment, son déploiement est limité à certains pays. Si vous n’êtes pas dans l’une des régions concernées, vous pouvez patienter jusqu’à son lancement officiel ou utiliser un VPN pour vous localiser dans un pays où l’application est accessible.
Gemini répond à toutes les questions que vous lui demandez. Il vous assiste dans votre vie quotidienne et peut même remplacer Google Assistant. En fait, grâce à la fonction de commande vocale intégrée, vous n’avez plus besoin de taper vos requêtes. Il suffit d’appuyer sur le bouton micro et de parler à Gemini. Vous pouvez également lui demander de lire les résultats à voix haute. Par exemple, il vous est possible de demander à l’IA des conseils vestimentaires. Elle prend en compte la météo et vos préférences pour vous proposer des tenues adaptées à chaque occasion.
Côté configuration, l’application est assez peu gourmande. Elle fonctionne sur les smartphones Android dotés de 4 Go de RAM et d’Android 12 ou d’une version ultérieure.
Mises à jour Gemini 1.5 et 1.5 Pro : plus de puissance et de possibilités
Début 2024, Google a multiplié les annonces. Après la version Ultra, le géant américain a dévoilé le 15 février les mises à jour Gemini 1.5 et 1.5 Pro de son modèle.
La nouveauté phare de Gemini 1.5 réside dans l’intégration d’une architecture de Mélange d’Experts (MoE), Cette technique de machine learning permet d’augmenter la précision du modèle tout en optimisant son nombre de paramètres. Concrètement, cela consiste à intégrer à l’intérieur d’un réseau neuronal plus grand des plus petits réseaux dits experts. Durant son entrainement, le modèle MoE apprend à activer les voies qui sont les plus pertinentes du réseau. Par conséquent, on obtient un modèle plus performant.
De son côté, Gemini 1.5 Pro a une meilleure compréhension du contexte long. Sa capacité de traitement des informations a donc été élargie. Sa fenêtre contextuelle atteint désormais 128 000 tokens en standard, et jusqu’à 1 million pour certains utilisateurs privilégiés d’AI Studio et Vertex AI.
Avec sa capacité à traiter une telle quantité de tokens, Gemini 1.5 Pro surpasse tous les modèles de fondation à grande échelle existants. En réalité, le modèle peut digérer d’impressionnantes quantités d’informations, équivalant par exemple à 11 heures d’enregistrement audio, 1 heure de vidéo, 30 000 lignes de code source ou 700 000 mots. Il peut analyser, classer et résumer de grandes quantités de contenu en réponse à une simple commande textuelle.
Et même avec cette fenêtre contextuelle décuplée, Gemini 1.5 Pro conserve d’excellentes performances. Pour tester ses capacités, les chercheurs lui ont fourni des transcriptions de la mission Apollo 11. Le modèle a réussi à extraire des dialogues, des évènements et des détails pertinents dans les 402 pages du document. Il comprend donc parfaitement cette mission historique sur la lune.
Google a aussi soumis Gemini 1.5 Pro à une série de tests rigoureux couvrant le texte, le code, les images, l’audio et la vidéo. Et les résultats obtenus sont remarquables. Précisément, il surpasse les performances de Gemini 1.0 Pro sur 87 % des benchmarks que le géant américain utilise pour le développement de ses grands modèles de langage. Comparé à Gemini 1.0 Ultra, 1.5 Pro affiche des performances globalement similaires sur les mêmes benchmarks.
Il ne fait aucun doute que Google DeepMind continuera de faire évoluer ses modèles d’intelligence artificielle dans les mois et années à venir.
- Partager l'article :