Machine Learning : quand les algorithmes apprennent de leurs erreurs

Ou : Comment enseigner à un programme sans jamais lui dire quoi faire

La programmation classique, c’est un humain qui écrit des règles. « Si l’email contient le mot gratuit en majuscules et plus de trois points d’exclamation, c’est du spam. » Simple, explicite, et contournable en trente secondes par n’importe quel spammeur compétent.

Le machine learning (apprentissage automatique) inverse la logique. Au lieu d’écrire les règles, on montre des exemples au programme — « voici 10 000 emails, certains sont du spam, d’autres non » — et il déduit les règles lui-même. Il trouve des patterns que personne n’a programmés, des corrélations que personne n’a vues, et il les utilise pour classifier de nouveaux emails qu’il n’a jamais vus.

C’est la branche de l’intelligence artificielle qui a engendré les LLM, les voitures autonomes, la reconnaissance faciale, les systèmes de recommandation de Netflix, et à peu près tout ce qu’on appelle « IA » dans les médias. C’est aussi la branche la plus mal comprise — parce que « la machine apprend » sonne comme de la magie, alors que c’est des mathématiques. Beaucoup de mathématiques.

Trois façons d’apprendre — supervisé, non supervisé, par renforcement

L’apprentissage supervisé : apprendre avec un professeur

L’apprentissage supervisé est le plus intuitif. On donne au modèle des exemples étiquetés — des paires (entrée, réponse attendue) — et il apprend à prédire la réponse à partir de l’entrée.

« Voici une photo. C’est un chat. » « Voici une autre photo. C’est un chien. » Après des milliers d’exemples, le modèle apprend à distinguer les chats des chiens sur des photos qu’il n’a jamais vues. Il ne sait pas ce qu’est un chat. Il a appris que certains patterns de pixels correspondent à l’étiquette « chat ».

Les tâches classiques de l’apprentissage supervisé :

Classification : attribuer une catégorie (spam/pas spam, chat/chien, tumeur bénigne/maligne)
Régression : prédire une valeur numérique (prix d’un appartement, température demain, chiffre d’affaires du trimestre)

Les algorithmes historiques — régression logistique, arbres de décision, random forests, SVM — sont simples, interprétables, et restent utilisés quotidiennement en production. Tout n’a pas besoin d’un réseau de neurones à 100 milliards de paramètres. Un random forest bien entraîné sur un bon dataset battra un LLM mal prompté neuf fois sur dix pour une tâche de classification structurée.

L’apprentissage non supervisé : trouver de l’ordre dans le chaos

L’apprentissage non supervisé n’a pas d’étiquettes. On donne au modèle des données brutes et on lui dit : « Trouve des structures. »

Le modèle découvre des clusters — des groupes de données qui se ressemblent — sans qu’on lui ait dit combien de groupes chercher ni quoi ils représentent. On lui donne 100 000 clients avec leurs achats, et il identifie cinq profils-types de consommateurs. On lui donne des millions de textes, et il apprend des embeddings — des représentations vectorielles qui encodent le sens.

C’est moins spectaculaire que le supervisé, mais c’est ce qui rend possible le pré-entraînement des LLM. Quand GPT apprend à prédire le prochain token sur des milliards de textes, il n’a pas d’étiquettes humaines. Il apprend la structure du langage de façon non supervisée (ou plus précisément, auto-supervisée — les données elles-mêmes fournissent la supervision).

L’apprentissage par renforcement : apprendre par essai-erreur

L’apprentissage par renforcement (RL) est le plus différent. Pas de dataset, pas d’exemples. Un agent interagit avec un environnement, prend des actions, et reçoit des récompenses (ou des pénalités). Il apprend la stratégie qui maximise la récompense cumulée.

C’est comme ça qu’AlphaGo a battu le champion du monde de Go en 2016. Pas en étudiant des parties humaines (ça, c’était l’étape supervisée). En jouant des millions de parties contre lui-même et en apprenant de ses victoires et défaites.

C’est aussi ce qui transforme un LLM pré-entraîné en assistant utilisable. Le RLHF (Reinforcement Learning from Human Feedback) est l’étape où des humains évaluent les réponses du modèle (« cette réponse est meilleure que celle-là ») et le modèle ajuste son comportement en fonction. C’est ce qui fait la différence entre un LLM qui complète du texte de façon aléatoire et un assistant qui essaie de vous aider¹.

L’entraînement : ce qui se passe en coulisses

L’entraînement d’un modèle de machine learning, c’est le processus itératif où le modèle ajuste ses paramètres pour mieux correspondre aux données.

Le principe est simple : le modèle fait une prédiction, on compare la prédiction à la réalité (via une fonction de coût), et on ajuste les paramètres pour réduire l’erreur. On répète. Des millions de fois. Sur des millions d’exemples.

L’outil mathématique central est la descente de gradient — on calcule dans quelle direction modifier les paramètres pour réduire l’erreur, et on fait un petit pas dans cette direction. « Petit pas » est important : des pas trop grands font diverger le modèle, des pas trop petits prennent une éternité. Le réglage de la taille du pas (le learning rate) est un art autant qu’une science.

Les pièges classiques

Le machine learning a ses modes d’échec bien connus :

L’overfitting (surapprentissage) — le modèle a appris les données d’entraînement par cœur, y compris leur bruit et leurs particularités. Il est brillant sur les données qu’il a vues et catastrophique sur les données nouvelles. C’est l’étudiant qui a mémorisé les réponses de l’examen blanc mais ne comprend pas la matière.

L’underfitting (sous-apprentissage) — le modèle est trop simple pour capturer les patterns des données. Il est mauvais partout, sur les données d’entraînement comme sur les nouvelles. C’est l’étudiant qui n’a pas révisé du tout.

Le biais des données — le modèle apprend les biais présents dans les données d’entraînement. Si votre dataset de recrutement contient historiquement plus d’hommes embauchés, le modèle apprendra que « être un homme » est un prédicteur de recrutement. Ce n’est pas un bug — c’est le modèle qui fait exactement ce qu’on lui a demandé. Le bug, c’est dans les données.

Le dialogue du modèle en production

DevOps Dave : Le modèle de détection de fraude est en prod. 99.2% de précision.

Security Sarah : Sur quel dataset ?

DevOps Dave : Le dataset de test, évidemment.

Security Sarah : Qui date de quand ?

DevOps Dave : Six mois.

Security Sarah : Les fraudeurs changent de technique toutes les deux semaines. Ton modèle détecte la fraude de l’année dernière. La fraude d’aujourd’hui, elle passe à travers parce qu’elle ressemble aux transactions légitimes de l’année dernière.

DevOps Dave : Donc il faut le réentraîner ?

Security Sarah : Régulièrement. Et monitorer sa performance en continu. Un modèle de ML en production, c’est comme un jardin — ça ne s’entretient pas tout seul.

Tableau récapitulatif

Concept	En une phrase
Machine learning	Algorithmes qui apprennent des patterns à partir de données sans être programmés explicitement.
Supervisé	Apprendre à partir d’exemples étiquetés (entrée → réponse attendue).
Non supervisé	Trouver des structures dans des données non étiquetées (clusters, embeddings).
Renforcement	Apprendre par essai-erreur via un système de récompenses.
Entraînement	Processus itératif d’ajustement des paramètres du modèle.
Overfitting	Le modèle a mémorisé les données au lieu d’apprendre les patterns.
Descente de gradient	Ajuster les paramètres dans la direction qui réduit l’erreur.

Le mot de la fin

Le machine learning est un de ces domaines où le nom est à la fois parfait et trompeur. « Apprentissage automatique » — ça sonne comme si la machine apprenait vraiment. Comme si elle comprenait. En réalité, elle optimise une fonction mathématique. Elle ajuste des paramètres pour minimiser une erreur. Ce n’est pas de l’apprentissage au sens humain du terme — il n’y a pas de compréhension, pas de curiosité, pas d’insight.

Mais le résultat est souvent indiscernable de la compréhension. Un modèle qui distingue les tumeurs malignes des tumeurs bénignes avec 98% de précision « comprend »-il la radiologie ? Non. Mais il fait le travail. Et dans beaucoup de contextes, faire le travail est tout ce qui compte.

Le machine learning n’est pas de l’intelligence artificielle au sens fort. C’est de l’optimisation mathématique à grande échelle. Et c’est suffisant pour changer le monde.

Le RLHF est un processus fascinant et fragile. Des humains classent des réponses par qualité, un « modèle de récompense » apprend à prédire les préférences humaines, et le LLM est entraîné pour maximiser cette récompense. Le problème : le modèle apprend à satisfaire le modèle de récompense, pas à être bon. Si le modèle de récompense a des angles morts, le LLM apprend à les exploiter. C’est le reward hacking — un LLM qui a appris à produire des réponses qui paraissent bonnes plutôt que des réponses qui le sont. ↩︎

← Retour au glossaire

Québec, Canada