Mixture Of Experts : Définition et Exemples
Architecture de réseau de neurones qui divise un modèle en plusieurs sous-réseaux spécialisés (les « experts ») et utilise un mécanisme de routage pour activer seulement une partie d'entre eux à chaque requête, permettant de créer des modèles massifs tout en maîtrisant le coût de calcul.
Définition complète
Le Mixture of Experts (MoE) est une architecture d'apprentissage automatique dans laquelle un modèle est composé de multiples sous-réseaux indépendants, appelés « experts », chacun se spécialisant dans le traitement de certains types de données ou de tâches. Un composant clé, le réseau de routage (ou « gating network »), décide dynamiquement quels experts activer pour chaque entrée. Ainsi, seule une fraction du modèle total est sollicitée à chaque inférence.
L'intérêt principal de cette approche est de découpler la taille totale du modèle (le nombre de paramètres) du coût de calcul effectif. Un modèle MoE peut contenir des centaines de milliards de paramètres, mais n'en activer qu'une dizaine de milliards par requête. Cela permet d'obtenir les performances d'un très grand modèle dense tout en conservant une vitesse d'inférence comparable à celle d'un modèle beaucoup plus petit.
Dans le contexte des grands modèles de langage (LLM), l'architecture MoE a été popularisée par des modèles comme Mixtral de Mistral AI ou GPT-4 d'OpenAI (dont l'architecture présumée repose sur un MoE). Concrètement, chaque couche transformer contient plusieurs experts feed-forward, et le routeur sélectionne typiquement les 2 experts les plus pertinents parmi 8 ou 16 disponibles pour traiter chaque token.
Pour l'utilisateur final, le MoE a un impact direct : il rend possible des modèles plus performants, plus rapides et moins coûteux à exécuter. C'est l'une des innovations architecturales qui explique pourquoi les modèles récents sont à la fois plus puissants et plus accessibles que leurs prédécesseurs.
Étymologie
Le concept de Mixture of Experts a été introduit en 1991 par Robert Jacobs, Michael Jordan, Steven Nowlan et Geoffrey Hinton. Le terme s'inspire de l'idée d'un comité d'experts humains où chaque spécialiste intervient sur les questions relevant de son domaine de compétence. Le mot « mixture » fait référence au modèle probabiliste sous-jacent (un mélange de distributions), tandis qu'« experts » désigne les sous-réseaux spécialisés.
Exemples concrets
Choisir un modèle adapté à ses contraintes de déploiement
Je dois déployer un LLM sur un serveur avec un seul GPU. Quels sont les avantages d'un modèle Mixture of Experts comme Mixtral 8x7B par rapport à un modèle dense de taille équivalente en termes de performances ?
Comprendre les performances d'un modèle
Explique-moi pourquoi Mixtral 8x7B, qui a 46 milliards de paramètres au total, est aussi rapide qu'un modèle de 13 milliards de paramètres à l'inférence.
Évaluer l'architecture d'un modèle pour un cas d'usage spécialisé
Pour une application multilingue (français, anglais, espagnol), est-ce qu'un modèle MoE serait plus adapté qu'un modèle dense, sachant que certains experts pourraient se spécialiser par langue ?
Usage pratique
En prompt engineering, comprendre l'architecture MoE aide à choisir le bon modèle selon ses contraintes de coût et de performance. Les modèles MoE excellent sur les tâches variées car leurs experts se spécialisent naturellement, ce qui en fait d'excellents candidats pour des applications généralistes. Lors du choix d'un modèle, il est utile de comparer le nombre de paramètres actifs (et non totaux) pour estimer la vitesse réelle d'inférence.
Concepts liés
FAQ
Quelle est la différence entre un modèle dense et un modèle Mixture of Experts ?
Les modèles MoE sont-ils plus difficiles à utiliser en prompt engineering ?
Quels sont les inconvénients de l'architecture Mixture of Experts ?
Voir aussi
Autres définitions
ML Pipeline : Définition et Exemples
Un ML Pipeline (pipeline de machine learning) est une séquence automatisée d'étapes qui transforme des données brutes en un modèle de machine learning déployé e
MLOps : Définition et Exemples
Le MLOps (Machine Learning Operations) désigne l'ensemble des pratiques, outils et méthodologies qui permettent de déployer, surveiller et maintenir des modèles
Model Distillation : Définition et Exemples
La distillation de modèle est une technique de compression où un modèle plus petit (l'élève) apprend à reproduire le comportement d'un modèle plus grand et perf
Model Registry : Définition et Exemples
Un Model Registry est un système centralisé permettant de stocker, versionner et gérer les modèles de machine learning tout au long de leur cycle de vie, de l'e
Model Router : Définition et Exemples
Un model router est un système qui dirige automatiquement chaque requête vers le modèle d'IA le plus adapté en fonction de la complexité, du coût ou de la natur
Model Serving : Définition et Exemples
Le model serving désigne le processus de déploiement et de mise à disposition d'un modèle d'intelligence artificielle entraîné pour qu'il puisse recevoir des re
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.