Self Attention : Définition et Exemples

Mécanisme permettant à chaque élément d'une séquence de pondérer l'importance de tous les autres éléments de cette même séquence, constituant le cœur de l'architecture Transformer utilisée par les grands modèles de langage.

Définition complète

Le Self Attention (ou auto-attention) est un mécanisme fondamental en intelligence artificielle qui permet à un modèle de langage d'analyser les relations entre tous les mots d'une même séquence. Contrairement aux réseaux récurrents qui traitent les mots un par un de gauche à droite, le Self Attention permet à chaque mot de "regarder" simultanément tous les autres mots de la phrase pour mieux comprendre le contexte.

Concrètement, pour chaque mot de la séquence, le mécanisme calcule trois vecteurs : une Query (ce que le mot cherche), une Key (ce que le mot offre comme information) et une Value (l'information réelle qu'il transporte). En comparant la Query d'un mot avec les Keys de tous les autres mots, le modèle détermine un score d'attention qui indique à quel point chaque mot est pertinent pour comprendre le mot en cours de traitement.

Ce mécanisme est au cœur de l'architecture Transformer, introduite par Google en 2017 dans l'article "Attention Is All You Need". Les modèles comme GPT, Claude ou Gemini empilent des dizaines de couches de Self Attention, ce qui leur permet de capturer des dépendances complexes entre les mots, même très éloignés dans le texte. C'est grâce au Self Attention qu'un modèle peut comprendre que dans la phrase "Le chat qui dormait sur le canapé du salon s'est levé", le verbe "s'est levé" se rapporte au "chat" malgré la distance.

Pour les praticiens du prompt engineering, comprendre le Self Attention permet d'expliquer pourquoi les modèles excellent dans certaines tâches (résumé, traduction, analyse de contexte) mais peuvent aussi être sensibles à la longueur du contexte et à la position des informations clés dans un prompt.

Étymologie

Le terme "Self Attention" a été formalisé dans l'article de recherche "Attention Is All You Need" publié par Vaswani et al. chez Google en 2017. Le préfixe "Self" distingue ce mécanisme de l'attention croisée (cross-attention) où deux séquences différentes interagissent. Le concept d'attention en réseaux de neurones existait depuis 2014 (Bahdanau et al.), mais l'innovation du Self Attention a été de l'appliquer à une séquence par rapport à elle-même, éliminant le besoin de récurrence.

Exemples concrets

Comprendre la résolution d'ambiguïté dans les phrases longues

Dans la phrase suivante, identifie à quoi se réfère chaque pronom et explique ton raisonnement : "Marie a dit à Sophie qu'elle devrait prendre son parapluie car elle avait vu la météo."

Exploiter la capacité d'attention sur des documents longs

Voici un contrat de 20 pages. Identifie toutes les clauses qui mentionnent des pénalités financières et relie chacune à la clause de définition correspondante.

Structurer un prompt pour maximiser l'attention sur les éléments clés

CONTEXTE IMPORTANT (à garder en mémoire pour toute ta réponse) : Le budget est de 5000€ maximum et le délai est de 2 semaines. Propose-moi un plan marketing pour le lancement d'une application mobile.

Usage pratique

En prompt engineering, comprendre le Self Attention aide à structurer ses prompts de manière optimale : placer les informations cruciales au début ou à la fin du prompt (positions où l'attention est naturellement plus forte), utiliser des marqueurs explicites pour guider l'attention du modèle sur les éléments importants, et découper les tâches complexes pour ne pas surcharger la capacité d'attention sur une seule passe.

Concepts liés

TransformerMulti-Head AttentionFenêtre de contexteTokenization

FAQ

Quelle est la différence entre Self Attention et Cross Attention ?

Le Self Attention analyse les relations entre les éléments d'une même séquence (par exemple, les mots d'un même texte). Le Cross Attention, en revanche, met en relation deux séquences différentes, comme un texte source et sa traduction, ou une image et sa description textuelle. Les deux mécanismes utilisent le même principe de Query-Key-Value, mais appliqué différemment.

Pourquoi le Self Attention est-il limité par la longueur du contexte ?

Le Self Attention compare chaque token avec tous les autres, ce qui génère un coût computationnel quadratique : doubler la longueur du texte quadruple le temps de calcul. C'est pourquoi les modèles ont une fenêtre de contexte limitée (8K, 128K, 1M tokens selon les modèles). Des optimisations comme le Sparse Attention ou le Flash Attention permettent de repousser ces limites.

Comment le Self Attention influence-t-il la qualité de mes prompts ?

Le Self Attention explique pourquoi un modèle peut "oublier" des instructions noyées dans un prompt très long (phénomène du "lost in the middle"). Pour de meilleurs résultats, placez vos instructions clés au début du prompt, utilisez des séparateurs visuels clairs (titres, listes), et répétez les contraintes importantes si votre prompt est long. Structurer son prompt, c'est guider l'attention du modèle.

Voir aussi

Transformer Tokenization Fenêtre de contexte Embedding Multi-Head Attention Temperature

Comment utiliser ce prompt

Copie le prompt avec le bouton ci-dessus.
Colle-le dans ChatGPT, Claude ou ton assistant IA préféré.
Remplace les variables entre crochets par tes informations, puis affine le résultat.

À propos de Prompt Guide

Prompt Guide est une bibliothèque gratuite de plus de 2500 prompts prêts à l'emploi pour ChatGPT, Claude et les autres IA, avec des guides pour apprendre à prompter et des outils pour créer et optimiser tes propres prompts.

Bibliothèque de prompts Apprendre à prompter Constructeur de prompt Optimiseur de prompt

Autres définitions

Self Consistency : Définition et Exemples

Technique de prompting qui consiste à générer plusieurs raisonnements indépendants pour une même question, puis à sélectionner la réponse la plus fréquente par

Self Refine : Définition et Exemples

Le Self Refine est une technique où un modèle de langage génère une réponse initiale, puis l'évalue et l'améliore de manière itérative sans intervention humaine

Semantic Cache : Définition et Exemples

Un semantic cache est un système de mise en cache qui stocke et retrouve des réponses de modèles d'IA en se basant sur la similarité sémantique des requêtes, pl

Semantic Kernel : Définition et Exemples

Semantic Kernel est un SDK open source développé par Microsoft qui permet d'intégrer des modèles de langage (LLM) dans des applications traditionnelles en orche

Semantic Search : Définition et Exemples

La recherche sémantique est une technique de recherche d'information qui comprend le sens et l'intention derrière une requête, plutôt que de se limiter à la cor

SentencePiece : Définition et Exemples

SentencePiece est une bibliothèque open source de tokenization développée par Google, qui découpe le texte en sous-unités (subwords) de manière indépendante de

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.