Llama 3 : Définition et Exemples

Llama 3 est une famille de grands modèles de langage open source développée par Meta (anciennement Facebook), conçue pour rivaliser avec les meilleurs modèles propriétaires tout en restant librement accessible à la communauté.

Définition complète

Llama 3 (Large Language Model Meta AI, 3e génération) est une famille de modèles de langage publiée par Meta en avril 2024. Elle représente un bond significatif par rapport à Llama 2, avec des performances qui rivalisent avec les modèles propriétaires comme GPT-4 et Claude sur de nombreux benchmarks. Llama 3 est disponible en plusieurs tailles — notamment 8B et 70B paramètres — ce qui permet de l'adapter à des cas d'usage variés, du déploiement sur un ordinateur personnel jusqu'aux infrastructures cloud les plus exigeantes.

La philosophie de Meta avec Llama 3 repose sur l'open source : les poids du modèle sont téléchargeables gratuitement, permettant à quiconque de les utiliser, de les fine-tuner ou de les intégrer dans des applications commerciales (sous licence permissive). Cette approche a catalysé un écosystème entier d'outils, d'adaptations et de modèles dérivés créés par la communauté, faisant de Llama 3 l'un des modèles open source les plus adoptés au monde.

Sur le plan technique, Llama 3 s'appuie sur une architecture Transformer optimisée, un tokenizer amélioré (128K tokens de vocabulaire), et un entraînement sur un corpus massif de plus de 15 000 milliards de tokens. Le modèle excelle en raisonnement, en génération de code, en suivi d'instructions et en compréhension multilingue. Meta a également publié Llama 3.1 (avec une version 405B paramètres) puis Llama 3.2 (intégrant des capacités multimodales vision et des versions légères pour l'edge), consolidant Llama 3 comme une plateforme en constante évolution.

Pour les praticiens du prompt engineering, Llama 3 offre l'avantage majeur de pouvoir être exécuté localement ou sur une infrastructure privée, garantissant le contrôle total des données. Son format de prompt structuré (avec des balises de rôle système, utilisateur et assistant) est compatible avec les techniques de prompting avancées comme le few-shot, le chain-of-thought et le RAG.

Étymologie

"Llama" est l'acronyme de Large Language Model Meta AI. Le chiffre 3 désigne la troisième génération majeure de cette famille de modèles. Le nom fait aussi un clin d'œil au lama, l'animal, que Meta utilise comme mascotte informelle du projet.

Exemples concrets

Déploiement local pour un chatbot d'entreprise confidentiel

Tu es un assistant juridique spécialisé en droit du travail français. Réponds de manière précise et cite les articles de loi pertinents. Question : quelles sont les conditions de validité d'une rupture conventionnelle ?

Fine-tuning de Llama 3 pour un domaine spécifique

En utilisant le format Alpaca, génère 50 paires instruction/réponse pour entraîner un modèle spécialisé en diagnostic médical vétérinaire pour les bovins.

Utilisation via une API compatible (Ollama, vLLM, Together AI)

Usage pratique

En prompt engineering, Llama 3 s'utilise principalement lorsqu'on a besoin de confidentialité des données, de personnalisation poussée via le fine-tuning, ou de maîtrise des coûts d'inférence. On peut le déployer localement avec des outils comme Ollama ou llama.cpp, ou l'utiliser via des fournisseurs cloud compatibles. Les techniques de prompting standard (system prompt, few-shot, chain-of-thought) fonctionnent efficacement, en respectant le format de prompt spécifique à Llama 3 avec ses balises de rôle.

Concepts liés

Modèle de langage open sourceFine-tuningQuantization (GGUF, GPTQ)Inférence locale

FAQ

Quelle est la différence entre Llama 3, Llama 3.1 et Llama 3.2 ?

Llama 3 (avril 2024) a introduit les modèles 8B et 70B. Llama 3.1 (juillet 2024) a ajouté un modèle massif de 405B paramètres et étendu la fenêtre de contexte à 128K tokens. Llama 3.2 (septembre 2024) a apporté des capacités multimodales (vision) et des modèles ultra-légers (1B et 3B) conçus pour l'exécution sur mobile et en edge computing.

Peut-on utiliser Llama 3 commercialement ?

Oui. Meta distribue Llama 3 sous une licence communautaire permissive qui autorise l'usage commercial, y compris pour les entreprises de moins de 700 millions d'utilisateurs actifs mensuels. Au-delà de ce seuil, une licence spéciale est requise. Il est conseillé de lire attentivement la licence avant tout déploiement en production.

Comment exécuter Llama 3 sur son propre ordinateur ?

Le moyen le plus simple est d'utiliser Ollama (ollama run llama3) ou LM Studio, qui gèrent automatiquement le téléchargement et la quantization du modèle. Pour un GPU avec 8 Go de VRAM, la version 8B quantifiée en 4 bits fonctionne bien. La version 70B nécessite au minimum 40 Go de VRAM ou peut être répartie sur plusieurs GPU. Des formats optimisés comme GGUF permettent aussi une exécution sur CPU, bien que plus lente.

Voir aussi

LLM Open Source AI Fine-tuning Transformer Quantization RAG Ollama Meta AI

Comment utiliser ce prompt

Copie le prompt avec le bouton ci-dessus.
Colle-le dans ChatGPT, Claude ou ton assistant IA préféré.
Remplace les variables entre crochets par tes informations, puis affine le résultat.

À propos de Prompt Guide

Prompt Guide est une bibliothèque gratuite de plus de 2500 prompts prêts à l'emploi pour ChatGPT, Claude et les autres IA, avec des guides pour apprendre à prompter et des outils pour créer et optimiser tes propres prompts.

Bibliothèque de prompts Apprendre à prompter Constructeur de prompt Optimiseur de prompt

Autres définitions

LlamaIndex : Définition et Exemples

LlamaIndex est un framework open source qui permet de connecter des modèles de langage (LLM) à des sources de données externes pour créer des applications d'IA

LLMOps : Définition et Exemples

LLMOps (Large Language Model Operations) désigne l'ensemble des pratiques, outils et processus permettant de gérer le cycle de vie complet des grands modèles de

Long Context Model : Définition et Exemples

Un Long Context Model est un modèle de langage capable de traiter et de raisonner sur de très grandes quantités de texte en une seule interaction, avec une fenê

LoRA : Définition et Exemples

LoRA (Low-Rank Adaptation) est une technique de fine-tuning efficace qui permet d'adapter un grand modèle de langage ou de génération d'images à une tâche spéci

Loss Function : Définition et Exemples

Une loss function (fonction de perte) est une formule mathématique qui mesure l'écart entre les prédictions d'un modèle d'IA et les résultats attendus. Elle gui

Machine Translation : Définition et Exemples

La traduction automatique (Machine Translation) désigne l'utilisation de logiciels et d'algorithmes d'intelligence artificielle pour traduire automatiquement un

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.