Transformer : l'architecture qui a tout changé en intelligence artificielle

Ou : Comment huit chercheurs de Google ont écrit un article au titre provocateur et accidentellement inventé le futur

En 2017, huit chercheurs de Google ont publié un article intitulé « Attention Is All You Need ». Le titre était délibérément provocateur — à l’époque, dire qu’on pouvait se passer des réseaux récurrents pour le traitement du langage, c’était un peu comme dire qu’on pouvait construire un avion sans ailes. Les réseaux récurrents (RNN, LSTM, GRU) étaient la façon de traiter des séquences de texte. Tout le monde les utilisait. Tout le monde savait qu’ils fonctionnaient.

Le problème, c’est qu’ils fonctionnaient lentement. Et mal sur les longues séquences. Et qu’ils étaient difficiles à paralléliser.

Le Transformer a tout remplacé. Pas en améliorant les réseaux récurrents — en les éliminant. L’idée centrale : au lieu de traiter le texte mot par mot, de gauche à droite, comme un humain qui lit (c’est ce que faisaient les RNN), le Transformer regarde tous les mots en même temps et calcule les relations entre eux. C’est ce qu’on appelle le mécanisme d’attention.

Cette architecture est aujourd’hui au cœur de tous les LLM — GPT, Claude, Gemini, LLaMA, Mistral. C’est aussi la base des modèles de vision (ViT), de transcription audio (Whisper), et même de prédiction de structure des protéines (AlphaFold 2). Le Transformer n’a pas juste changé le NLP. Il a changé l’IA.

Anatomie d’une architecture qui a avalé le monde

Le problème que le Transformer résout

Pour comprendre pourquoi le Transformer existe, il faut comprendre ce qui ne marchait pas avant.

Les réseaux récurrents traitent le texte séquentiellement — un token à la fois, de gauche à droite. Pour traiter le mot n°500 d’un texte, il faut d’abord avoir traité les 499 mots précédents. Chaque mot met à jour un « état caché » qui encode tout ce que le réseau a vu jusqu’ici. En théorie, cet état caché contient toute l’information nécessaire. En pratique, l’information des premiers mots se dilue au fur et à mesure — c’est le problème du vanishing gradient, la plaie des séquences longues.

Les LSTM (Long Short-Term Memory) ont partiellement résolu ce problème avec des mécanismes de « portes » qui contrôlent quelles informations retenir et lesquelles oublier. Mais le traitement restait séquentiel. Impossible de paralléliser : le mot n°500 dépend du mot n°499, qui dépend du n°498, et ainsi de suite. Sur un GPU moderne avec des milliers de cœurs de calcul, c’est un gâchis monumental.

Le Transformer élimine cette séquentialité. Il traite tous les tokens en parallèle, en calculant directement les relations entre chaque paire de tokens. C’est fondamentalement différent, et c’est ce qui a permis de passer de modèles avec quelques millions de paramètres à des modèles avec des centaines de milliards.

Le mécanisme d’attention : regarder tout en même temps

L’attention est l’idée centrale du Transformer. Voici comment ça fonctionne, sans les équations mais avec l’intuition.

Prenez la phrase : « La banque du fleuve était couverte de mousse. »

Pour comprendre le mot « banque », un humain regarde le contexte — « fleuve », « mousse » — et conclut qu’il s’agit de la rive, pas de l’institution financière. Le mécanisme d’attention fait exactement ça : pour chaque mot, il calcule à quel point chaque autre mot de la phrase est pertinent, puis il construit une représentation du mot qui tient compte de tout ce contexte.

Techniquement, chaque token est transformé en trois vecteurs :

Query (Q) : « Qu’est-ce que je cherche ? » — ce que ce token veut savoir
Key (K) : « Qu’est-ce que j’offre ? » — l’information que ce token rend disponible
Value (V) : « Quelle information je transmets ? » — le contenu effectif

L’attention est calculée en comparant le Query d’un token avec les Keys de tous les autres tokens. Les paires qui « matchent » bien (produit scalaire élevé) produisent des poids d’attention élevés. Ces poids sont ensuite utilisés pour combiner les Values — le résultat est une représentation du token enrichie par le contexte de toute la séquence¹.

C’est élégant. C’est parallélisable. Et ça coûte O(n²) en mémoire et en calcul, parce que chaque token regarde chaque autre token — ce qui est le prix à payer pour la fenêtre de contexte et la raison pour laquelle doubler la longueur de la séquence quadruple le coût.

Multi-head attention : regarder de plusieurs façons en même temps

Un seul mécanisme d’attention capture un seul type de relation. Mais les relations dans le langage sont multiples : syntaxiques (sujet-verbe), sémantiques (synonymes), référentielles (pronom → antécédent), temporelles…

Le Transformer utilise la multi-head attention : au lieu d’un seul calcul d’attention, il en fait plusieurs en parallèle (8 dans l’article original, souvent 32 ou 64 dans les modèles modernes). Chaque « tête » d’attention apprend à capturer un type de relation différent. Leurs résultats sont ensuite concaténés et combinés.

C’est comme si huit personnes lisaient la même phrase, chacune en se concentrant sur un aspect différent — la grammaire, le sens, les références, le ton — puis mettaient en commun leurs observations.

Encodeur et décodeur : deux usages, une architecture

L’architecture Transformer originale avait deux parties :

L’encodeur — prend une séquence en entrée et produit des représentations contextualisées de chaque token. Il regarde dans les deux directions : chaque token a accès à tous les autres, avant et après lui. C’est idéal pour comprendre un texte.

Le décodeur — génère une séquence token par token. Il ne peut regarder que les tokens précédents (pas les suivants, qui n’existent pas encore). C’est idéal pour produire du texte.

En pratique, les modèles modernes n’utilisent souvent qu’une des deux parties :

Architecture	Modèles	Usage
Encodeur seul	BERT, RoBERTa	Compréhension, classification, embeddings
Décodeur seul	GPT, Claude, LLaMA, Mistral	Génération de texte (les LLM)
Encodeur-décodeur	T5, BART, le Transformer original	Traduction, résumé

Les LLM que vous utilisez au quotidien — GPT, Claude, Gemini — sont des décodeurs empilés. Des dizaines ou centaines de couches de décodeur, chacune avec son mécanisme d’attention multi-tête et ses couches feed-forward. C’est simple conceptuellement. C’est la mise à l’échelle qui fait toute la différence.

Le positional encoding : dire au modèle où est quoi

Le mécanisme d’attention a un problème : il ne sait pas dans quel ordre sont les tokens. « Le chat mange la souris » et « la souris mange le chat » produiraient les mêmes scores d’attention, parce que l’attention ne regarde que les relations entre tokens, pas leurs positions.

Le positional encoding résout ça en ajoutant une information de position à chaque embedding de token. L’article original utilisait des fonctions sinusoïdales — des ondes de fréquences différentes qui encodent la position de façon unique. Les modèles modernes utilisent souvent RoPE (Rotary Position Embedding), qui encode les positions relatives plutôt qu’absolues — ce qui permet une meilleure généralisation aux séquences plus longues que celles vues pendant l’entraînement.

Les couches feed-forward : le calcul silencieux

Entre chaque couche d’attention, le Transformer applique un réseau feed-forward à chaque token indépendamment. C’est la partie la moins glamour de l’architecture — pas de relations inter-tokens, juste une transformation non-linéaire appliquée position par position.

Mais ces couches contiennent la majorité des paramètres du modèle. Certains chercheurs pensent qu’elles fonctionnent comme une « mémoire » du modèle — c’est là que sont stockées les connaissances factuelles apprises pendant l’entraînement².

Le dialogue de la mise à l’échelle

DevOps Dave : J’ai lu le papier « Attention Is All You Need ». C’est un modèle avec 65 millions de paramètres.

Security Sarah : GPT-4 en a probablement plus de mille milliards.

DevOps Dave : C’est la même architecture ?

Security Sarah : Fondamentalement, oui. Plus de couches, plus de têtes d’attention, plus de dimensions dans les embeddings, plus de données d’entraînement. Mais le mécanisme de base — attention multi-tête, couches feed-forward, positional encoding — c’est le même.

DevOps Dave : Donc l’innovation de GPT-4, c’est juste « la même chose, mais plus gros » ?

Security Sarah : « Juste. » C’est comme dire qu’un gratte-ciel, c’est « juste une cabane, mais plus grande ». La mise à l’échelle crée des comportements émergents. Un Transformer à 65 millions de paramètres traduit des phrases. Un Transformer à mille milliards écrit du code, passe des examens de médecine et argumente en philosophie. Personne n’a prévu ça.

DevOps Dave : Personne ?

Security Sarah : Personne. Et c’est ça qui rend les huit auteurs du papier original à la fois célèbres et perplexes.

Tableau récapitulatif

Concept	En une phrase
Transformer	Architecture neuronale basée sur l’attention, fondation de tous les LLM modernes.
Self-attention	Chaque token calcule ses relations avec tous les autres tokens de la séquence.
Multi-head attention	Plusieurs mécanismes d’attention en parallèle, chacun capturant un type de relation.
Query / Key / Value	Les trois rôles de chaque token dans le calcul d’attention.
Encodeur	Traite l’entrée dans les deux directions — pour comprendre.
Décodeur	Génère la sortie de gauche à droite — pour produire.
Positional encoding	Ajoute l’information de position aux embeddings (sinusoïdal ou RoPE).
Feed-forward	Transformation non-linéaire appliquée indépendamment à chaque token.

Le mot de la fin

Le Transformer est peut-être l’invention la plus conséquente de l’IA depuis le perceptron. Pas parce que le mécanisme d’attention était une idée radicalement nouvelle — des formes d’attention existaient avant 2017. Mais parce que Vaswani et ses co-auteurs ont eu l’audace de dire : on peut tout faire avec ça. Pas de récurrence, pas de convolution, juste de l’attention. Et ils avaient raison.

Ce qui est frappant, rétrospectivement, c’est à quel point les conséquences étaient imprévisibles. L’article de 2017 visait la traduction automatique. Personne n’imaginait que la même architecture, mise à l’échelle, produirait des systèmes capables de raisonnement, de créativité, de conversation. Le Transformer n’a pas été conçu pour ça. Il s’est avéré que l’attention à grande échelle faisait émerger des capacités que personne n’avait programmées.

Huit auteurs, 15 pages, un titre accrocheur. Et une architecture qui a avalé le monde.

Pour les curieux, la formule exacte est : Attention(Q, K, V) = softmax(QK^T / √d_k) V, où d_k est la dimension des clés. La division par √d_k (la « racine carrée de la dimension ») est un détail crucial — sans elle, les produits scalaires deviennent trop grands dans les hautes dimensions, et le softmax sature (tous les poids d’attention se concentrent sur un seul token). Ce petit facteur de normalisation est la différence entre un modèle qui fonctionne et un modèle qui ne converge pas. ↩︎
L’hypothèse que les couches feed-forward stockent les connaissances factuelles est soutenue par des travaux comme « Locating and Editing Factual Associations in GPT » (Meng et al., 2022). Les chercheurs ont montré qu’on peut modifier des faits spécifiques dans un LLM en éditant les poids d’une seule couche feed-forward. « La Tour Eiffel est à Paris » → changez quelques poids → « La Tour Eiffel est à Rome ». C’est à la fois impressionnant et légèrement inquiétant. ↩︎

← Retour au glossaire

Québec, Canada