Self Attention : Définition et Exemples
Mécanisme permettant à chaque élément d'une séquence de pondérer l'importance de tous les autres éléments de cette même séquence, constituant le cœur de l'architecture Transformer utilisée par les grands modèles de langage.
Définition complète
Le Self Attention (ou auto-attention) est un mécanisme fondamental en intelligence artificielle qui permet à un modèle de langage d'analyser les relations entre tous les mots d'une même séquence. Contrairement aux réseaux récurrents qui traitent les mots un par un de gauche à droite, le Self Attention permet à chaque mot de "regarder" simultanément tous les autres mots de la phrase pour mieux comprendre le contexte.
Concrètement, pour chaque mot de la séquence, le mécanisme calcule trois vecteurs : une Query (ce que le mot cherche), une Key (ce que le mot offre comme information) et une Value (l'information réelle qu'il transporte). En comparant la Query d'un mot avec les Keys de tous les autres mots, le modèle détermine un score d'attention qui indique à quel point chaque mot est pertinent pour comprendre le mot en cours de traitement.
Ce mécanisme est au cœur de l'architecture Transformer, introduite par Google en 2017 dans l'article "Attention Is All You Need". Les modèles comme GPT, Claude ou Gemini empilent des dizaines de couches de Self Attention, ce qui leur permet de capturer des dépendances complexes entre les mots, même très éloignés dans le texte. C'est grâce au Self Attention qu'un modèle peut comprendre que dans la phrase "Le chat qui dormait sur le canapé du salon s'est levé", le verbe "s'est levé" se rapporte au "chat" malgré la distance.
Pour les praticiens du prompt engineering, comprendre le Self Attention permet d'expliquer pourquoi les modèles excellent dans certaines tâches (résumé, traduction, analyse de contexte) mais peuvent aussi être sensibles à la longueur du contexte et à la position des informations clés dans un prompt.
Étymologie
Le terme "Self Attention" a été formalisé dans l'article de recherche "Attention Is All You Need" publié par Vaswani et al. chez Google en 2017. Le préfixe "Self" distingue ce mécanisme de l'attention croisée (cross-attention) où deux séquences différentes interagissent. Le concept d'attention en réseaux de neurones existait depuis 2014 (Bahdanau et al.), mais l'innovation du Self Attention a été de l'appliquer à une séquence par rapport à elle-même, éliminant le besoin de récurrence.
Exemples concrets
Comprendre la résolution d'ambiguïté dans les phrases longues
Dans la phrase suivante, identifie à quoi se réfère chaque pronom et explique ton raisonnement : "Marie a dit à Sophie qu'elle devrait prendre son parapluie car elle avait vu la météo."
Exploiter la capacité d'attention sur des documents longs
Voici un contrat de 20 pages. Identifie toutes les clauses qui mentionnent des pénalités financières et relie chacune à la clause de définition correspondante.
Structurer un prompt pour maximiser l'attention sur les éléments clés
CONTEXTE IMPORTANT (à garder en mémoire pour toute ta réponse) : Le budget est de 5000€ maximum et le délai est de 2 semaines. Propose-moi un plan marketing pour le lancement d'une application mobile.
Usage pratique
En prompt engineering, comprendre le Self Attention aide à structurer ses prompts de manière optimale : placer les informations cruciales au début ou à la fin du prompt (positions où l'attention est naturellement plus forte), utiliser des marqueurs explicites pour guider l'attention du modèle sur les éléments importants, et découper les tâches complexes pour ne pas surcharger la capacité d'attention sur une seule passe.
Concepts liés
FAQ
Quelle est la différence entre Self Attention et Cross Attention ?
Pourquoi le Self Attention est-il limité par la longueur du contexte ?
Comment le Self Attention influence-t-il la qualité de mes prompts ?
Voir aussi
Autres définitions
Self Consistency : Définition et Exemples
Technique de prompting qui consiste à générer plusieurs raisonnements indépendants pour une même question, puis à sélectionner la réponse la plus fréquente par
Self Refine : Définition et Exemples
Le Self Refine est une technique où un modèle de langage génère une réponse initiale, puis l'évalue et l'améliore de manière itérative sans intervention humaine
Semantic Cache : Définition et Exemples
Un semantic cache est un système de mise en cache qui stocke et retrouve des réponses de modèles d'IA en se basant sur la similarité sémantique des requêtes, pl
Semantic Kernel : Définition et Exemples
Semantic Kernel est un SDK open source développé par Microsoft qui permet d'intégrer des modèles de langage (LLM) dans des applications traditionnelles en orche
Semantic Search : Définition et Exemples
La recherche sémantique est une technique de recherche d'information qui comprend le sens et l'intention derrière une requête, plutôt que de se limiter à la cor
SentencePiece : Définition et Exemples
SentencePiece est une bibliothèque open source de tokenization développée par Google, qui découpe le texte en sous-unités (subwords) de manière indépendante de
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.