Small Language Model : Définition et Exemples

Un Small Language Model (SLM) est un modèle de langage compact, généralement doté de moins de 10 milliards de paramètres, conçu pour offrir des performances ciblées tout en étant plus léger, plus rapide et moins coûteux à déployer que les grands modèles de langage (LLM).

Définition complète

Un Small Language Model (SLM) désigne un modèle de traitement du langage naturel dont la taille est volontairement réduite par rapport aux Large Language Models (LLM) comme GPT-4 ou Claude. Alors que les LLM comptent des dizaines, voire des centaines de milliards de paramètres, les SLM se situent généralement entre quelques centaines de millions et 10 milliards de paramètres. Cette réduction de taille n'est pas un compromis subi mais une stratégie délibérée pour répondre à des besoins spécifiques.

L'intérêt principal des SLM réside dans leur efficacité opérationnelle. Ils peuvent fonctionner sur du matériel grand public — un ordinateur portable, un smartphone ou un serveur modeste — sans nécessiter de GPU coûteux. Leur temps d'inférence est significativement plus court, leur consommation énergétique réduite, et leur coût de déploiement bien inférieur. Pour des tâches ciblées comme la classification de texte, l'extraction d'entités ou la réponse à des questions dans un domaine précis, un SLM bien entraîné peut rivaliser avec un LLM.

Les techniques modernes comme la distillation de connaissances, le fine-tuning sur des données de qualité et la quantification ont considérablement amélioré les performances des SLM. Des modèles comme Phi-3 de Microsoft, Gemma de Google ou Mistral 7B démontrent qu'un modèle compact, entraîné intelligemment sur des données soigneusement sélectionnées, peut surpasser des modèles beaucoup plus grands sur certaines tâches. Cette approche s'inscrit dans une tendance plus large de démocratisation de l'IA.

Les SLM sont particulièrement pertinents dans les contextes où la confidentialité des données est critique (déploiement local sans envoi de données vers le cloud), où la latence doit être minimale (applications temps réel, embarqué), ou encore dans les environnements à ressources limitées (edge computing, IoT). Ils constituent souvent le choix le plus pragmatique pour les entreprises qui souhaitent intégrer l'IA sans infrastructure lourde.

Étymologie

Le terme "Small Language Model" est apparu par opposition directe au concept de "Large Language Model" (LLM), popularisé à partir de 2020-2021 avec GPT-3. À mesure que la course à la taille des modèles s'intensifiait, la communauté IA a commencé à explorer la direction inverse : obtenir des résultats comparables avec des modèles plus petits. Le terme s'est répandu à partir de 2023-2024, porté notamment par Microsoft avec sa gamme Phi et par la communauté open source.

Exemples concrets

Déploiement local pour la confidentialité des données

J'utilise un SLM déployé localement pour analyser des documents juridiques confidentiels. Résume ce contrat en identifiant les clauses de non-concurrence et les obligations financières.

Application embarquée sur mobile

En tant qu'assistant intégré à une application mobile de santé, analyse ce journal alimentaire et identifie les carences nutritionnelles potentielles.

Fine-tuning spécialisé pour un domaine métier

Tu es un assistant spécialisé en support technique pour notre logiciel de comptabilité. À partir de la description du problème suivant, identifie la catégorie du ticket et suggère une résolution.

Usage pratique

En prompt engineering, travailler avec un SLM implique d'adapter sa stratégie : les prompts doivent être plus directs, plus structurés et moins ambigus qu'avec un LLM, car la capacité de raisonnement est plus limitée. Il est recommandé de fournir des exemples concrets (few-shot) et de décomposer les tâches complexes en étapes simples. Le choix entre SLM et LLM doit se faire en fonction du cas d'usage : un SLM fine-tuné sur votre domaine sera souvent plus performant et moins coûteux qu'un LLM généraliste pour une tâche spécifique.

Concepts liés

Large Language Model (LLM)Distillation de connaissancesFine-tuningQuantification de modèleEdge AIInférence locale

FAQ

Quelle est la différence entre un SLM et un LLM ?

La principale différence est la taille : un SLM compte généralement moins de 10 milliards de paramètres, contre des dizaines ou centaines de milliards pour un LLM. En conséquence, les SLM sont plus rapides, moins coûteux et peuvent fonctionner sur du matériel modeste, mais ils ont une capacité de raisonnement et de généralisation plus limitée. Un SLM excelle sur des tâches ciblées, tandis qu'un LLM brille sur des tâches variées et complexes.

Un Small Language Model peut-il remplacer un LLM ?

Pour certaines tâches spécifiques, oui. Un SLM fine-tuné sur un domaine précis (service client, classification de documents, extraction de données) peut égaler voire surpasser un LLM généraliste. En revanche, pour des tâches nécessitant un raisonnement complexe, de la créativité ou une connaissance générale étendue, un LLM reste supérieur. La meilleure approche est souvent hybride : utiliser un SLM pour les tâches courantes et un LLM pour les cas complexes.

Quels sont les SLM les plus performants en 2025 ?

Parmi les SLM les plus notables, on trouve Phi-3 et Phi-3.5 de Microsoft (3,8 milliards de paramètres), Gemma 2 de Google (2B et 9B), Mistral 7B, Llama 3.2 de Meta (1B et 3B) et Qwen 2.5 d'Alibaba. Ces modèles sont disponibles en open source et peuvent être déployés localement avec des outils comme Ollama ou llama.cpp. Le choix dépend de la langue cible, du domaine d'application et des contraintes matérielles.

Voir aussi

Large Language Model Fine-tuning Distillation Inférence Quantification Edge Computing Transformer Open Source AI

Comment utiliser ce prompt

Copie le prompt avec le bouton ci-dessus.
Colle-le dans ChatGPT, Claude ou ton assistant IA préféré.
Remplace les variables entre crochets par tes informations, puis affine le résultat.

À propos de Prompt Guide

Prompt Guide est une bibliothèque gratuite de plus de 2500 prompts prêts à l'emploi pour ChatGPT, Claude et les autres IA, avec des guides pour apprendre à prompter et des outils pour créer et optimiser tes propres prompts.

Bibliothèque de prompts Apprendre à prompter Constructeur de prompt Optimiseur de prompt

Autres définitions

Socratic Prompting : Définition et Exemples

Technique de prompt engineering inspirée de la méthode socratique, qui consiste à guider un modèle d'IA vers une réponse approfondie en posant une série de ques

Soft Prompting : Définition et Exemples

Le soft prompting est une technique d'adaptation des modèles de langage qui consiste à ajouter des vecteurs numériques apprenables (appelés « soft prompts ») en

Sparse Attention : Définition et Exemples

La Sparse Attention est un mécanisme d'attention qui ne calcule les relations qu'entre un sous-ensemble de tokens, plutôt qu'entre toutes les paires possibles,

Speculative Decoding : Définition et Exemples

Technique d'accélération de l'inférence des grands modèles de langage (LLM) qui utilise un petit modèle rapide pour générer des tokens candidats, ensuite vérifi

Speech To Text : Définition et Exemples

Le Speech To Text (STT), ou reconnaissance vocale, est une technologie d'intelligence artificielle qui convertit la parole humaine en texte écrit, permettant au

Stability AI : Définition et Exemples

Stability AI est une entreprise spécialisée en intelligence artificielle générative, principalement connue pour avoir développé Stable Diffusion, un modèle open

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.