Deep Learning : quand les réseaux de neurones deviennent profonds

Ou : Pourquoi empiler des couches de mathématiques les unes sur les autres produit quelque chose qui ressemble à de l’intelligence

Le machine learning a un problème. Les algorithmes classiques — régression, arbres de décision, SVM — fonctionnent bien quand on leur donne les bonnes features. « Prédis le prix d’un appartement à partir de la surface, du quartier et de l’étage. » Les features sont évidentes, le modèle apprend la relation.

Mais pour certains problèmes, les features ne sont pas évidentes. Regarder une photo et dire « c’est un chat » — quelles sont les features ? Les pixels individuels sont inutiles. Les contours ? Les textures ? Les proportions des oreilles ? Un humain ne sait même pas expliquer comment il reconnaît un chat. Il le fait, c’est tout.

Le deep learning résout ce problème en empilant des couches de neurones artificiels. Chaque couche apprend des features de plus en plus abstraites — la première couche détecte des bords et des contours, la deuxième des formes simples, la troisième des parties d’objets, la dixième des concepts de haut niveau comme « chat » ou « visage ». Le modèle apprend quoi chercher en même temps qu’il apprend comment classifier.

C’est le « deep » dans deep learning : la profondeur des couches. Et cette profondeur est ce qui a rendu possible les LLM, la reconnaissance d’images, la synthèse vocale, et à peu près tout ce que l’IA fait d’impressionnant aujourd’hui.

Des neurones artificiels aux architectures qui battent des champions du monde

Le neurone artificiel : une fonction mathématique déguisée

Un neurone artificiel est simple. Il prend des entrées, les multiplie par des poids, les additionne, et passe le résultat à travers une fonction d’activation non linéaire. C’est tout. Pas de mystère biologique, pas de conscience émergente — c’est une multiplication matricielle suivie d’une non-linéarité.

Un seul neurone ne fait presque rien d’utile. Mais des milliards de neurones organisés en couches, avec des poids ajustés par l’entraînement, produisent des systèmes capables de reconnaître des visages, de traduire des langues, de générer du texte cohérent, et de battre des champions du monde à des jeux qu’on croyait inaccessibles aux machines.

La non-linéarité est le secret. Sans elle, empiler des couches ne servirait à rien — dix couches linéaires sont mathématiquement équivalentes à une seule. La non-linéarité (ReLU, sigmoid, tanh) permet au réseau d’apprendre des relations complexes que des modèles linéaires ne peuvent pas capturer.

La rétropropagation : comment le réseau apprend

L’entraînement d’un réseau profond repose sur la rétropropagation (backpropagation) — un algorithme qui calcule, pour chaque poids du réseau, dans quelle direction et de combien le modifier pour réduire l’erreur.

Le principe : on envoie une entrée dans le réseau, on obtient une sortie, on compare la sortie à la réponse attendue, et on « rétropropage » l’erreur couche par couche, de la sortie vers l’entrée. Chaque poids est ajusté proportionnellement à sa contribution à l’erreur. On répète. Des milliards de fois.

La rétropropagation existe depuis les années 1980 (Rumelhart, Hinton et Williams, 1986). Mais elle n’a vraiment fonctionné à grande échelle qu’avec trois ingrédients qui ont convergé dans les années 2010 :

Les trois ingrédients de la révolution deep learning

1. Les données — Internet a produit des quantités astronomiques de texte, d’images, de vidéo. ImageNet (2009) — un dataset de 14 millions d’images étiquetées — a été le catalyseur pour la vision par ordinateur. Common Crawl — un corpus de milliards de pages web — a alimenté les LLM.

2. Le calcul — Les GPU (processeurs graphiques), conçus à l’origine pour les jeux vidéo, se sont avérés parfaits pour le deep learning. Leur architecture massivement parallèle — des milliers de cœurs simples — correspond exactement aux multiplications matricielles qui dominent le calcul des réseaux de neurones. NVIDIA a compris le potentiel avant tout le monde, et CUDA est devenu le socle logiciel du deep learning¹.

3. Les algorithmes — Des innovations comme ReLU (une fonction d’activation triviale qui résout le problème du vanishing gradient), le dropout (désactiver aléatoirement des neurones pendant l’entraînement pour éviter l’overfitting), et la batch normalization ont rendu l’entraînement de réseaux très profonds stable et efficace.

Chaque ingrédient existait avant 2010. Leur convergence a créé la révolution.

L’évolution des architectures

Le deep learning n’est pas une seule architecture — c’est une famille :

Architecture	Inventeur	Année	Usage principal
CNN (Convolutional Neural Network)	LeCun et al.	1989	Vision, images
RNN (Recurrent Neural Network)	Elman, Jordan	1990	Séquences, texte (avant le Transformer)
LSTM (Long Short-Term Memory)	Hochreiter & Schmidhuber	1997	Séquences longues
GAN (Generative Adversarial Network)	Goodfellow et al.	2014	Génération d’images
Transformer	Vaswani et al.	2017	Tout (NLP, vision, audio, protéines)

Le Transformer a largement supplanté les autres pour la plupart des tâches. Les CNN restent pertinents pour certaines applications de vision, mais même là, le Vision Transformer (ViT) gagne du terrain. L’histoire du deep learning, c’est l’histoire d’architectures qui se remplacent à un rythme accéléré.

La boîte noire : le prix de la puissance

Le deep learning a un problème que le machine learning classique n’a pas (ou moins) : l’opacité. Un arbre de décision, vous pouvez le lire. Un random forest, vous pouvez l’interpréter. Un réseau de neurones avec 100 milliards de paramètres ? Personne ne sait pourquoi il prend telle décision.

Le modèle vous dit « c’est un chat » avec 99.7% de confiance. Pourquoi ? Quels pixels l’ont convaincu ? Quelles features a-t-il détectées ? La réponse est distribuée dans des milliards de poids, de façon non interprétable par un humain.

C’est un problème réel dans les contextes où l’explicabilité est requise — médecine, justice, finance. « L’algorithme a refusé votre prêt, mais on ne peut pas vous dire pourquoi » n’est pas une réponse acceptable. Le domaine de l’IA explicable (XAI) travaille sur ce problème, avec des outils comme SHAP et LIME qui tentent d’approximer les raisons des décisions. Mais c’est toujours une approximation².

Le dialogue du GPU en feu

DevOps Dave : J’entraîne un modèle de deep learning. Ça fait trois jours.

Security Sarah : Sur combien de GPU ?

DevOps Dave : Un. Mon GPU gaming.

Security Sarah : C’est mignon. OpenAI entraîne GPT sur des milliers de GPU pendant des mois. Leur facture d’électricité ressemble au PIB d’un petit pays.

DevOps Dave : OK, mais mon modèle est plus petit.

Security Sarah : Combien de paramètres ?

DevOps Dave : 50 millions.

Security Sarah : GPT-4 en a probablement mille milliards. Ton modèle est 20 000 fois plus petit. Et ça prend quand même trois jours.

DevOps Dave : Donc le deep learning, c’est essentiellement « celui qui a le plus de GPU gagne » ?

Security Sarah : Non. C’est « celui qui a le plus de GPU, les meilleures données, et les bonnes décisions architecturales gagne ». Mais le GPU aide.

Tableau récapitulatif

Concept	En une phrase
Deep learning	Machine learning avec des réseaux de neurones à multiples couches.
Neurone artificiel	Multiplication pondérée + fonction d’activation non linéaire.
Rétropropagation	Algorithme qui ajuste les poids en propageant l’erreur de la sortie vers l’entrée.
CNN	Architecture spécialisée dans les images (filtres convolutifs).
RNN / LSTM	Architectures pour les séquences (largement remplacées par le Transformer).
GPU	Processeur massivement parallèle, moteur du deep learning.
Boîte noire	Le réseau fonctionne mais personne ne sait exactement pourquoi.

Le mot de la fin

Le deep learning est la preuve qu’on n’a pas besoin de comprendre quelque chose pour le reproduire. Personne ne comprend pourquoi empiler 96 couches de Transformer produit un système capable de raisonner (approximativement). Personne n’a prévu les capacités émergentes des grands modèles. L’architecture est connue. Les mathématiques sont connues. Le résultat reste, en partie, un mystère.

C’est inconfortable pour les scientifiques. C’est fascinant pour les ingénieurs. Et c’est inquiétant pour les philosophes. Parce que si on peut construire quelque chose qui se comporte de façon intelligente sans comprendre comment ça fonctionne, alors la question « est-ce que c’est vraiment intelligent ? » devient plus une question de philosophie que de science.

Le deep learning ne répond pas à cette question. Il la rend urgente.

L’ascension de NVIDIA dans l’IA est un des plus beaux pivots de l’histoire de la tech. Jensen Huang a fait le pari que le calcul parallèle sur GPU serait central pour l’IA bien avant que ce soit évident. CUDA, sorti en 2006, est devenu le standard de fait pour le deep learning. En 2026, NVIDIA est une des entreprises les plus valorisées au monde — grâce à des processeurs conçus à l’origine pour faire tourner des jeux vidéo en haute résolution. ↩︎
SHAP (SHapley Additive exPlanations) et LIME (Local Interpretable Model-agnostic Explanations) sont des techniques qui approximent l’importance de chaque feature dans la décision du modèle. C’est mieux que rien, mais c’est une approximation d’une approximation — le modèle est déjà une approximation de la réalité, et ces outils sont une approximation de ce que le modèle fait. À un certain point, on empile des approximations et on appelle ça de l’explicabilité. ↩︎

← Retour au glossaire

Québec, Canada