1  đŸ€– Machine Learning : Les Fondamentaux

1.1 Grande Histoire du Machine Learning

L’histoire de l’IA est un match de ping-pong de 60 ans entre deux visions opposĂ©es : d’un cĂŽtĂ©, donner des rĂšgles toutes faites Ă  la machine (l’IA symbolique, comme une recette de cuisine), et de l’autre, la laisser apprendre par elle-mĂȘme Ă  force d’exemples (le connexionnisme, comme un bĂ©bĂ© qui dĂ©couvre le monde).

L’IA n’est pas nĂ©e en 2023. C’est une histoire de soixante ans, faite d’espoirs fous, de dĂ©sillusions et de renaissances — comme un pendule qui oscille entre ces deux grandes idĂ©es (Groumpos 2023; “Timeline of Machine Learning,” n.d.).

1.1.1 Timeline

Alan Turing Le Test de Turing
Fondation philosophique : « Les machines peuvent-elles penser ? » Il pose l’imitation du comportement humain comme standard de rĂ©ussite.
Frank Rosenblatt Le Perceptron
Le Connexionnisme : Invention du premier rĂ©seau de neurones artificiel modĂ©lisĂ© sur la biologie, capable d’apprendre par essais et erreurs.
Minsky & Papert Le Premier Hiver de l’IA
Désillusion : Démonstration mathématique des limites du Perceptron simple (XOR). Baisse drastique des financements mondiaux.
SystÚmes Experts & Rétropropagation Le Double Visage des Années 80
Paradoxe : Domination de l’IA symbolique menant au 2nd Hiver, pendant que la RĂ©tropropagation du gradient (Hinton, LeCun) is popularisĂ©e dans l’ombre.
Vapnik & Breiman La Renaissance Statistique
Rigueur mathĂ©matique : Le rĂ©seau de neurones est boudĂ©. C’est l’ñge d’or des Machines Ă  Vecteurs de Support (SVM) et des mĂ©thodes d’ensemble.
ImageNet & GPUs Le Big Bang du Deep Learning
Triomphe connexionniste : Grùce à la convergence du Big Data et des GPUs, le réseau AlexNet pulvérise les méthodes statistiques classiques.

1.1.2 Les Pionniers et l’Aube de l’Apprentissage (1950 - 1960)

Tout commence en 1950 avec Alan Turing et une question simple mais vertigineuse : « Les machines peuvent-elles penser ? ». Son Test de Turing transforme ce dĂ©bat philosophique en dĂ©fi d’ingĂ©nierie : imiter le comportement humain devient la mesure du succĂšs.

C’est quelques annĂ©es plus tard, en 1958, que le premier jalon technique du Machine Learning est posĂ© par le psychologue Frank Rosenblatt. Il invente le Perceptron (Rosenblatt 1958). C’est le premier rĂ©seau de neurones artificiel, modĂ©lisĂ© Ă  partir des neurones biologiques. À l’époque, il s’agissait d’une machine physique (le Mark I Perceptron) capable d’apprendre Ă  reconnaĂźtre des formes simples par essais et erreurs. Rosenblatt pensait alors que le Perceptron finirait par ĂȘtre capable de marcher, parler, voir et Ă©crire.

1.1.3 Le Premier Hiver et le Triomphe Temporaire du Symbolique (1969 - 1980)

L’enthousiasme autour du Perceptron va cependant s’effondrer brutalement. En 1969, Marvin Minsky et Seymour Papert publient le livre Perceptrons, dans lequel ils dĂ©montrent mathĂ©matiquement les limites sĂ©vĂšres du modĂšle de Rosenblatt : un Perceptron simple est incapable de rĂ©soudre des problĂšmes non linĂ©aires de base (comme la fonction logique XOR) (“Minsky Vs. Rosenblatt - Brain Wars,” n.d.).

Cette publication, combinĂ©e Ă  des promesses technologiques non tenues et au Rapport Lighthill (“Lighthill Report,” n.d.) au Royaume-Uni (qui juge sĂ©vĂšrement les avancĂ©es rĂ©elles de l’IA), entraĂźne une coupure drastique des financements gouvernementaux. C’est le premier Hiver de l’IA (AI Winter) (“AI Winter,” n.d.; Alex 2024).

Pendant que le connexionnisme est au point mort, l’IA symbolique prend le relais dans les annĂ©es 80 avec les SystĂšmes Experts. L’idĂ©e n’est plus de faire apprendre la machine, mais d’encoder le savoir humain sous forme de bases de rĂšgles complexes (“Si X, alors Y”). Bien qu’utiles en milieu industriel, ces systĂšmes s’avĂšrent impossibles Ă  maintenir Ă  grande Ă©chelle et totalement inadaptĂ©s Ă  l’incertitude ou Ă  la perception (vision, langage naturel).

1.1.4 La Renaissance Statistique et le Second Hiver (1980 - 2000)

Le marchĂ© des systĂšmes experts s’effondre Ă  la fin des annĂ©es 80, provoquant un second Hiver de l’IA (“This Week in the History of AI at AIWS.net - the Market for Specialised AI Hardware Collapsed in 1987,” n.d.). Cependant, dans l’ombre, les bases du renouveau se mettent en place.

En 1986, la technique de la rĂ©tropropagation du gradient (Backpropagation) est popularisĂ©e (notamment par Geoffrey Hinton, Yann LeCun et Yoshua Bengio). C’est une percĂ©e majeure : elle permet enfin d’entraĂźner efficacement des rĂ©seaux de neurones multicouches, contournant ainsi le problĂšme soulevĂ© par Minsky 20 ans plus tĂŽt.

Toutefois, dans les annĂ©es 90, les rĂ©seaux de neurones sont encore boudĂ©s car trop gourmands en calcul et difficiles Ă  entraĂźner. Le Machine Learning prend alors un tournant trĂšs mathĂ©matique et statistique. C’est l’ñge d’or des Machines Ă  Vecteurs de Support (SVM) et des mĂ©thodes d’ensemble (Random Forests), qui dominent la discipline grĂące Ă  leurs fondations mathĂ©matiques solides et leurs garanties de convergence.

1.1.5 Le Big Bang du Deep Learning (2012 - Présent)

Pourquoi des idĂ©es des annĂ©es 80 ont-elles soudain dominĂ© le monde trente ans plus tard ? Parce que trois ingrĂ©dients manquants sont enfin arrivĂ©s en mĂȘme temps :

  1. L’explosion des donnĂ©es (Big Data) : L’avĂšnement d’Internet et des rĂ©seaux sociaux a fourni les quantitĂ©s massives de donnĂ©es Ă©tiquetĂ©es nĂ©cessaires pour entraĂźner de grands rĂ©seaux.
  2. La puissance de calcul matĂ©rielle : Le dĂ©tournement des cartes graphiques (GPU), initialement conçues pour le jeu vidĂ©o, a permis de parallĂ©liser les calculs matriciels du Machine Learning, rĂ©duisant les temps d’entraĂźnement de plusieurs mois Ă  quelques jours.
  3. Les innovations algorithmiques : De meilleures fonctions d’activation (ReLU) et techniques d’optimisation ont rĂ©solu les problĂšmes mathĂ©matiques qui empĂȘchaient l’entraĂźnement de rĂ©seaux trĂšs profonds (le problĂšme de la disparition du gradient).

L’annĂ©e charniĂšre est 2012, lors de la compĂ©tition de vision par ordinateur ImageNet. Le rĂ©seau de neurones convolutif AlexNet pulvĂ©rise littĂ©ralement les mĂ©thodes statistiques classiques, divisant le taux d’erreur par deux. Cet Ă©vĂ©nement signe la victoire Ă©clatante du paradigme connexionniste et ouvre l’ùre dans laquelle nous Ă©voluons aujourd’hui, de la vision par ordinateur jusqu’aux modĂšles gĂ©nĂ©ratifs et larges modĂšles de langage (LLM).

1.2 Typologie des Paradigmes et Architectures Profondes

Avant de choisir un modĂšle, il faut rĂ©pondre Ă  une question : qu’est-ce qu’on a comme donnĂ©es, et qu’est-ce qu’on veut faire avec ? La rĂ©ponse dĂ©termine tout. C’est comme choisir le bon outil avant de commencer un chantier — un marteau ne remplace pas une scie (“BIAS-VARIANCE TRADEOFF IN MACHINE LEARNING: CONCEPTS & TUTORIALS,” n.d.).

1.2.1 Quatre Paradigmes d’Apprentissage

Les modĂšles d’apprentissage se structurent autour de quatre grands paradigmes, selon la nature des donnĂ©es d’entraĂźnement et le mode d’interaction avec l’environnement :

🎯 Apprentissage SupervisĂ©

Apprendre avec un enseignant qui donne les bonnes réponses.

Metaphore : Un enfant apprend à nommer des animaux à l’aide de cartes d’images portant le nom correct au dos.

L’algorithme s’entraĂźne sur des couples entrĂ©e-sortie Ă©tiquetĂ©s (contenant la “vĂ©ritĂ© terrain”) et ajuste ses paramĂštres pour minimiser l’erreur (Delua, n.d.).

  • RĂ©gression : PrĂ©dire une valeur numĂ©rique continue (ex. : prix de l’immobilier, tempĂ©rature).
  • Classification : PrĂ©dire une catĂ©gorie ou classe discrĂšte (ex. : e-mail indĂ©sirable vs lĂ©gitime) (Lee, n.d.).

Cas d’usage : DĂ©tection de fraudes, reconnaissance d’objets, diagnostic mĂ©dical.

đŸ§© Apprentissage Non SupervisĂ©

Apprendre Ă  trouver des structures par soi-mĂȘme, sans guide.

Metaphore : Un explorateur classe des plantes inconnues dans des paniers selon leur ressemblance visuelle, sans connaĂźtre leur nom.

L’algorithme reçoit des donnĂ©es brutes sans Ă©tiquettes et cherche Ă  dĂ©couvrir des regroupements naturels ou Ă  rĂ©duire la complexitĂ© des donnĂ©es (“Unsupervised Machine Learning Algorithms” 2021).

Cas d’usage : SystĂšmes de recommandation, dĂ©tection d’anomalies, compression de donnĂ©es.

🌗 Apprentissage Semi-SupervisĂ©

Utiliser quelques exemples corrigĂ©s pour s’aider Ă  trier une montagne de donnĂ©es brutes.

Metaphore : Un Ă©tudiant a seulement 3 exercices corrigĂ©s par son professeur, et doit s’en inspirer pour rĂ©soudre et classer 100 exercices non corrigĂ©s.

Cette approche hybride associe une petite quantitĂ© de donnĂ©es Ă©tiquetĂ©es Ă  un trĂšs grand volume de donnĂ©es brutes pour rĂ©duire le coĂ»t Ă©levĂ© de l’annotation manuelle (Chapelle, Schölkopf, and Zien 2006).

  • Pseudo-Ă©tiquetage : Le modĂšle s’entraĂźne sur les donnĂ©es Ă©tiquetĂ©es puis Ă©tiquette lui-mĂȘme les donnĂ©es brutes.
  • Graphes de similaritĂ© : Propagation des Ă©tiquettes connues aux observations les plus proches.

Cas d’usage : Classification de pages web, indexation d’images mĂ©dicales, reconnaissance de la parole.

🎼 Apprentissage par Renforcement

Apprendre par l’action, l’erreur, et la rĂ©compense.

Metaphore : Dresser un chien en lui offrant des friandises (rĂ©compenses) pour ses bonnes actions ou en l’ignorant pour ses erreurs.

Un agent autonome interagit avec un environnement dynamique pour maximiser une récompense cumulative au fil du temps (Sutton and Barto 2018).

  • Exploration vs Exploitation : Arbitrage permanent entre tester de nouvelles actions et exploiter les connaissances dĂ©jĂ  acquises.
  • Algorithmes clĂ©s : Q-Learning, PPO, SAC.

Cas d’usage : Robotique industrielle, voitures autonomes, IA de jeux (AlphaGo, Ă©checs), gestion de portefeuilles financiers.

L’impact stratĂ©gique : Le choix entre classification et clustering modifie radicalement l’objectif mĂ©tier. LĂ  oĂč la classification rĂ©pond Ă  une question fermĂ©e sur une catĂ©gorie connue (ex: “ce client va-t-il rĂ©silier ?”), le clustering permet la dĂ©couverte de segments de marchĂ© “cachĂ©s”. Cela offre une opportunitĂ© de diffĂ©renciation par la rĂ©vĂ©lation de niches comportementales jusqu’alors invisibles.

1.2.2 L’Ère de l’Apprentissage Profond pour les DonnĂ©es Complexes

Les algorithmes classiques sont bons avec des tableaux bien rangĂ©s. Mais pour des donnĂ©es non structurĂ©es — images, sons, textes, vidĂ©os — ils sont dĂ©passĂ©s. C’est lĂ  qu’entre en jeu le Deep Learning.

Pour le volet supervisé, deux grandes architectures dominent la perception automatisée :

  • Les RĂ©seaux de Neurones Convolutifs (CNN - Convolutional Neural Networks) : Principalement utilisĂ©s pour la vision par ordinateur. Ils utilisent des “filtres” mathĂ©matiques et des poids pour balayer une image et en extraire des textures, des contours, puis des sĂ©mantiques spatiales complexes (“Understanding Weights and Biases in Neural Networks: The Core of AI Decision-Making,” n.d.).
  • Les RĂ©seaux de Neurones RĂ©currents (RNN - Recurrent Neural Networks) : Conçus spĂ©cifiquement pour la persistance de l’information. Contrairement aux CNN, ils possĂšdent une “mĂ©moire” interne qui leur permet de traiter des donnĂ©es sĂ©quentielles, comme les sĂ©ries temporelles (mĂ©tĂ©o, bourse) ou le traitement du langage naturel (NLP).

1.2.3 Les Architectures Génératives et Non-Supervisées

Si les CNN et les RNN ont excellé dans la classification, de nouvelles architectures ont bouleversé le domaine non-supervisé en rendant les machines capables de créer :

  • Les Auto-encodeurs : Des rĂ©seaux qui apprennent Ă  compresser (encoder) la donnĂ©e dans un espace trĂšs rĂ©duit, puis Ă  la reconstruire (dĂ©coder). Ils sont excellents pour la dĂ©tection d’anomalies et la rĂ©duction de dimension extrĂȘme.
  • Les GANs (RĂ©seaux Antagonistes GĂ©nĂ©ratifs) : Une architecture fascinante opposant deux rĂ©seaux (un Faussaire qui gĂ©nĂšre des donnĂ©es, et un DĂ©tective qui essaie de repĂ©rer les fausses donnĂ©es). Cette compĂ©tition pousse le rĂ©seau Ă  synthĂ©tiser du contenu d’un rĂ©alisme bluffant (“BIAS-VARIANCE TRADEOFF IN MACHINE LEARNING: CONCEPTS & TUTORIALS,” n.d.).
  • Les Transformateurs (Transformers) : L’architecture derriĂšre les LLM modernes (comme ChatGPT). Ils utilisent des mĂ©canismes d’attention pour comprendre le contexte global d’une sĂ©quence de donnĂ©es, gĂ©nĂ©ralisant des motifs d’une complexitĂ© inĂ©dite.

1.2.4 L’Impact StratĂ©gique de la Perception AutomatisĂ©e

Ces rĂ©seaux ne suivent pas des rĂšgles Ă©crites Ă  la main. Ils apprennent Ă  reconnaĂźtre les choses — un chat de dos, dans l’ombre, stylisĂ© — parce qu’ils ont absorbĂ© des milliers d’exemples. Cette flexibilitĂ© vient de l’ajustement de millions de petits paramĂštres internes, que nous allons explorer dans le chapitre suivant avec la descente de gradient (“Understanding Weights and Biases in Neural Networks: The Core of AI Decision-Making,” n.d.).

1.3 MĂ©canique de l’Optimisation

Un modĂšle qui prĂ©dit bien, ce n’est pas qu’une bonne architecture — c’est surtout un apprentissage bien guidĂ©. Comment une machine apprend-elle ? En commettant des erreurs, en les mesurant, et en se corrigeant — encore et encore. C’est cette mĂ©canique qu’on appelle l’optimisation.

1.3.1 ModÚles, Données et Apprentissage

Pour dĂ©mystifier ce qu’est rĂ©ellement l’apprentissage en machine learning, nous pouvons utiliser une analogie physique simple : le moulage.

  • Les DonnĂ©es (L’original) : Imaginez que vos donnĂ©es d’entraĂźnement constituent une figurine de rĂ©fĂ©rence. Informatiquement, ce sont des matrices de nombres bruts.
  • Le ModĂšle (La matiĂšre) : Le modĂšle est la matiĂšre brute avec laquelle nous allons fabriquer un moule autour de cette figurine. Cette matiĂšre est dĂ©finie par des nombres modifiables.
  • L’Apprentissage (Le processus) : Apprendre consiste Ă  presser, dĂ©former et ajuster cette matiĂšre itĂ©rativement pour qu’elle Ă©pouse le plus parfaitement possible la forme de la figurine originale, afin de pouvoir en gĂ©nĂ©rer de nouvelles Ă  l’avenir.
đŸ› ïž Le Moule et l’Objet

Imaginez que votre jeu de donnĂ©es est une piĂšce mĂ©canique complexe (avec sa forme globale et ses micro-rayures). Votre modĂšle d’IA est un matĂ©riau de moulage. L’apprentissage (les Ă©poques) consiste Ă  presser ce matĂ©riau sur l’objet pour en capturer la forme.

đŸ› ïž Presse en Action

1.3.2 Poids et Biais

Pour ajuster notre moule Ă  la bonne forme, nous tournons deux types de boutons : les poids (qui augmentent ou diminuent l’importance d’une information) et le biais (qui dĂ©cale l’ensemble du moule vers le haut ou le bas).

Dans cette matiùre à mouler, deux types de paramùtres contrîlent tout (“Understanding Weights and Biases in Neural Networks: The Core of AI Decision-Making,” n.d.; Glander, n.d.) :

  • Les Poids : Ce sont des “boutons de volume”. Ils amplifient ou attĂ©nuent l’importance de chaque signal d’entrĂ©e. Plus le poids est grand, plus cette entrĂ©e compte dans la dĂ©cision finale. C’est la mallĂ©abilitĂ© de notre moule.
  • Le Biais : Un paramĂštre souvent sous-estimĂ©. Imaginez-le comme le revenu de base du modĂšle — le niveau de rĂ©ponse minimal mĂȘme quand toutes les entrĂ©es sont nulles. Il donne la flexibilitĂ© de dĂ©caler la rĂ©ponse du modĂšle vers le haut ou le bas.

Le calcul de base d’un neurone s’écrit (Trofimov 2020) :

y = w \cdot x + b

oĂč x est l’entrĂ©e, w le poids (importance), b le biais (dĂ©calage). Le but de l’apprentissage : trouver les valeurs de w et b qui minimisent l’erreur.

đŸŽ›ïž Poids et Biais

1.3.3 La Fonction de Perte et la Boussole du Gradient

La fonction de perte mesure l’erreur globale (combien notre moule est imparfait) tandis que le gradient est une boussole qui nous indique dans quelle direction modifier nos rĂ©glages pour rĂ©duire cette erreur.

Pour ajuster le moule, il faut d’abord mesurer à quel point il est mauvais.

  • La Fonction de Perte : C’est le thermomĂštre de l’erreur. Elle mesure l’écart entre la prĂ©diction du modĂšle et la rĂ©alitĂ©. Plus l’écart est grand, plus la valeur est Ă©levĂ©e. L’objectif : la faire descendre le plus possible (Grover, n.d.; “Mean Squared Error,” n.d.; Mitra 2023).
  • Le Gradient : Une fois l’erreur mesurĂ©e, comment savoir dans quel sens corriger ? Le gradient est une boussole : il indique la direction et la force avec laquelle ajuster chaque paramĂštre pour rĂ©duire l’erreur.

Le gradient est un vecteur de dĂ©rivĂ©es partielles de la fonction de perte par rapport Ă  chaque paramĂštre. Intuitivement : si vous ĂȘtes perdu dans un paysage montagneux et voulez atteindre la vallĂ©e, le gradient vous dit quelle pente descendre Ă  chaque pas. MathĂ©matiquement, pour un paramĂštre w : \frac{\partial \mathcal{L}}{\partial w}.

🧭 Perte et Gradient

1.3.4 La Descente de Gradient et les Optimiseurs Modernes

Pour trouver le rĂ©glage parfait, on lĂąche une bille dans notre paysage d’erreurs : elle roule vers la vallĂ©e la plus basse (la descente de gradient). Le taux d’apprentissage contrĂŽle la vitesse de la bille, et les optimiseurs (comme Adam) ajustent automatiquement cette vitesse pour Ă©viter qu’elle ne se perde.

La Descente de Gradient est le mĂ©canisme central : Ă  chaque Ă©tape, on ajuste les paramĂštres dans le sens qui rĂ©duit l’erreur (“Gradient Descent,” n.d.; Ruder 2016).

Imaginez la fonction de perte comme un paysage montagneux : chaque combinaison possible de paramĂštres correspond Ă  un point dans ce relief. Le but est de trouver le point le plus bas (l’erreur minimale). On lĂąche une “boule” sur la pente, et elle roule vers le bas guidĂ©e par le gradient.

Deux réglages clés :

  • Le pas d’apprentissage (Learning Rate) : La taille des bonds. Trop petit → apprentissage lent. Trop grand → la boule rebondit dans tous les sens sans jamais se stabiliser (You et al., n.d.; Dharanalakota, Raikar, and Ghosh 2025).
  • L’inertie (Momentum) : La boule garde un peu de son Ă©lan, ce qui lui permet de franchir les petits plateaux et de ne pas rester coincĂ©e dans une fausse vallĂ©e (Chawla, n.d.; Dauphin et al., n.d.).

Les optimiseurs modernes automatisent ces rĂ©glages (“Lecture 2: Optimization Algorithms in Neural Networks,” n.d.; Bottou 2010) :

  • Adam : L’optimiseur par dĂ©faut aujourd’hui — il adapte automatiquement le pas d’apprentissage pour chaque paramĂštre (“Why Adam Optimizer Outperforms SGD? Adaptive Momentum Explained,” n.d.).
  • RMSprop : Stabilise les oscillations en ajustant le pas selon l’historique rĂ©cent des gradients.
  • AdaGrad : Efficace quand certaines variables apparaissent rarement (donnĂ©es Ă©parses).

La mise Ă  jour des poids Ă  chaque Ă©tape s’écrit (voir le Glossaire) : w \leftarrow w - \eta \cdot \nabla_w \mathcal{L}

  • \leftarrow (flĂšche gauche) : l’opĂ©rateur d’affectation (le paramĂštre Ă  gauche prend la nouvelle valeur calculĂ©e Ă  droite Ă  chaque Ă©tape).
  • \eta (lettre grecque ĂȘta) : le taux d’apprentissage (learning rate).
  • \nabla_w (nabla avec indice w) : le gradient de la perte par rapport aux poids w (vecteur des dĂ©rivĂ©es partielles).
  • \mathcal{L} : la fonction de perte (loss).

Adam adapte le pas pour chaque paramĂštre en maintenant deux moyennes mobiles — le gradient moyen (m_t) et le gradient carrĂ© moyen (v_t) : \hat{w} = w - \eta \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}

  • t en indice (ex: m_t) : reprĂ©sente le pas d’optimisation ou l’itĂ©ration temporelle en cours.
  • La notation chapeau \hat{} (ex: \hat{m}_t, \hat{v}_t) : dĂ©signe les moyennes mobiles corrigĂ©es pour Ă©liminer le biais d’initialisation Ă  zĂ©ro.
  • \epsilon (lettre grecque epsilon) : une constante de stabilitĂ© numĂ©rique (ex: 10^{-8}) empĂȘchant toute division par zĂ©ro.

1.3.5 Simulation de la Trajectoire d’Optimisation

Visualisez de maniĂšre interactive comment le choix de l’optimiseur et ses paramĂštres modifient la trajectoire de la descente dans un paysage de coĂ»t en trois dimensions.

đŸ”ïž Descente de Gradient 3D

  • Lancer
  • Pause
  • Reset

L’inertie (Momentum) accumule les gradients passĂ©s pour accĂ©lĂ©rer la descente dans les directions constantes et franchir les plateaux ou minima locaux.

RMSprop adapte le taux d’apprentissage de chaque paramĂštre selon la moyenne mobile de la magnitude des gradients rĂ©cents, stabilisant les oscillations verticales.

AdaGrad adapte le pas d’apprentissage de chaque paramĂštre selon l’historique de ses gradients accumulĂ©s depuis le dĂ©but (efficace pour les caractĂ©ristiques Ă©parses).

Adam combine Momentum et RMSprop en maintenant à la fois une moyenne mobile des gradients (1er moment) et de leurs carrés (2e moment).

🔍 Surface de CoĂ»t 3D

Coût (Loss)

7.9000

ξ₁

2.200

ξ₂

1.500

Vitesse

0.00

1.4 Le Compromis Biais-Variance

Trouver le bon modÚle est une affaire de compromis : soit il est trop rigide et rate les grandes tendances (le biais), soit il est trop fluide et mémorise les moindres détails inutiles, y compris le bruit (la variance).

Un bon modĂšle doit trouver le juste milieu entre deux dĂ©fauts opposĂ©s : trop simpliste (il rate les vraies tendances) ou trop rigoureux (il mĂ©morise le bruit au lieu d’apprendre). C’est le compromis biais-variance (“BIAS-VARIANCE TRADEOFF IN MACHINE LEARNING: CONCEPTS & TUTORIALS,” n.d.).

1.4.1 Le Biais et le Sous-apprentissage

C’est le dĂ©faut d’un modĂšle trop simpliste, comme un moule en mĂ©tal rigide incapable d’épouser les courbes d’une figurine (le sous-apprentissage ou underfitting).

Le Biais est l’erreur systĂ©matique d’un modĂšle trop simplet. Il “manque” les vraies tendances des donnĂ©es — comme un moule trop rigide qui ne parvient pas Ă  Ă©pouser la forme de la figurine. Le modĂšle reste grossiĂšrement plat, incapable de capter la structure rĂ©elle : c’est le sous-apprentissage (underfitting) (“Bias-Variance Analysis: Theory and Practice,” n.d.; “Bias-Variance Trade Off - Machine Learning,” n.d.; Ghadigaonkar 2025).

\text{Biais}(\hat{Y}) = E[\hat{Y}] - Y (voir le Glossaire)

  • \hat{Y} (“Y-chapeau”) : la prĂ©diction estimĂ©e par le modĂšle. La notation chapeau (\hat{}) est la convention standard en statistiques pour dĂ©signer un estimateur.
  • Y : la valeur rĂ©elle de rĂ©fĂ©rence (la vĂ©ritĂ© terrain).
  • E[\cdot] : l’espĂ©rance mathĂ©matique (la moyenne thĂ©orique attendue des prĂ©dictions sur diffĂ©rents jeux d’entraĂźnement).

L’espĂ©rance de la prĂ©diction moins la vraie valeur — l’écart moyen et systĂ©matique entre ce que le modĂšle prĂ©dit et la rĂ©alitĂ©.

1.4.2 La Variance et le Sur-apprentissage

C’est le dĂ©faut d’un modĂšle trop zĂ©lĂ©, comme un moule en silicone trop liquide qui moule aussi la poussiĂšre et les rayures de la figurine (le sur-apprentissage ou overfitting).

La Variance reprĂ©sente l’erreur liĂ©e Ă  une sensibilitĂ© excessive aux fluctuations du jeu d’entraĂźnement. Le modĂšle procĂšde Ă  une mĂ©morisation du bruit (“What Is Overfitting Vs. Underfitting?” n.d.; “Bias/Variance Tradeoff and Ensemble Methods,” n.d.) au lieu d’une gĂ©nĂ©ralisation.

\text{Variance}(\hat{Y}) = E\left[(\hat{Y} - E[\hat{Y}])^2\right] (voir le Glossaire)

  • \hat{Y} : la prĂ©diction du modĂšle.
  • E[\hat{Y}] : la valeur moyenne prĂ©dite par le modĂšle sur tous les entraĂźnements possibles.
  • E[\cdot] (crochets extĂ©rieurs) : l’espĂ©rance calculĂ©e sur l’écart au carrĂ©, mesurant ainsi la dispersion.

La mesure de la dispersion des prĂ©dictions du modĂšle autour de sa moyenne pour diffĂ©rents jeux d’entraĂźnement.

Dans notre analogie, la matiĂšre du moule est ici beaucoup trop liquide et rĂ©active. Non seulement elle capture parfaitement la forme gĂ©nĂ©rale de la figurine, mais elle va jusqu’à s’infiltrer dans la moindre micro-rayure et englober chaque grain de poussiĂšre prĂ©sent sur cet exemplaire prĂ©cis. Le rĂ©sultat est un sur-apprentissage (overfitting). Si vous essayez d’utiliser ce moule ultra-spĂ©cifique pour valider une nouvelle figurine lĂ©gĂšrement diffĂ©rente, il sera totalement inadaptĂ© et produira une erreur importante.

⚖ Biais et Variance

Propriété du matériau (Complexité du modÚle) :

1.4.3 Le PhénomÚne de Double Descente

Parfois, un trĂšs grand modĂšle que l’on pense condamnĂ© au sur-apprentissage recommence mystĂ©rieusement Ă  s’amĂ©liorer : c’est la double descente, une zone oĂč le modĂšle dĂ©couvre des rĂšgles encore plus simples et robustes.

La courbe classique en U montre que la variance augmente avec la complexité. Cependant, le Deep Learning montre parfois une Double Descente (la perte diminue de nouveau pour de trÚs grands modÚles).

Selon l’hypothĂšse de l’unfolding, ce phĂ©nomĂšne est souvent un artefact visuel liĂ© Ă  un scaling composite (variation simultanĂ©e de la taille du modĂšle et des donnĂ©es) (Cimadevila, n.d.). Si l’on fait varier la complexitĂ© et les donnĂ©es indĂ©pendamment, le modĂšle rĂ©adopte des motifs classiques en U ou en L (Cimadevila, n.d.).

1.4.4 L’Impact StratĂ©gique

1.5 Stratégies de Régularisation et Généralisation

La rĂ©gularisation regroupe les techniques permettant d’empĂȘcher un modĂšle de sur-apprendre (mĂ©moriser le bruit), en agissant comme une contrainte ou une force externe qui le force Ă  rester simple (comme un film plastique tendu sur le moule).

Si le sur-apprentissage (une variance excessive) est la maladie, la rĂ©gularisation en est le remĂšde. La rĂ©gularisation impose une contrainte mathĂ©matique de “lissage” pour favoriser la gĂ©nĂ©ralisation en pĂ©nalisant la complexitĂ© excessive du modĂšle (“Early Stopping,” n.d.; Goyal 2021).

Pour reprendre notre analogie du moulage : si notre matiĂšre est devenue trop liquide et commence Ă  s’infiltrer dans les micro-rayures de la figurine, la rĂ©gularisation consiste Ă  appliquer une force de tension externe (comme un film plastique tendu par-dessus). Cette contrainte empĂȘche la matiĂšre de capter les dĂ©tails superflus (le bruit) et la force Ă  se concentrer uniquement sur la structure globale et pertinente (le signal).

1.5.1 Ridge, Lasso et Coefficients

Pour garder le modĂšle simple, on punit les poids trop grands en ajoutant une amende Ă  l’erreur globale. Le Lasso (L1) supprime complĂštement les variables inutiles en mettant leur poids Ă  zĂ©ro (comme un tri sĂ©lectif strict), tandis que le Ridge (L2) rĂ©duit doucement tous les poids sans jamais en Ă©liminer aucun (comme un amortisseur gĂ©nĂ©ral).

En apprentissage automatique, on applique cette contrainte en ajoutant une pĂ©nalitĂ© directement dans la fonction de perte. Cette pĂ©nalitĂ© sanctionne les paramĂštres (les poids ou coefficients) qui prennent trop d’importance. Deux approches gĂ©omĂ©triques s’opposent :

  • Ridge (RĂ©gularisation L2) : Cette mĂ©thode ajoute une pĂ©nalitĂ© proportionnelle au carrĂ© des coefficients. GĂ©omĂ©triquement, cela agit comme une contrainte circulaire concentrique autour de l’origine. Ridge rĂ©duit la magnitude globale des coefficients pour stabiliser le modĂšle. L’effet visuel est un “amortissement” : les valeurs sont compressĂ©es doucement vers le centre, mais ne sont pratiquement jamais rĂ©duites Ă  zĂ©ro (Shizuya 2024; Dave 2020).
  • Lasso (RĂ©gularisation L1) : Cette mĂ©thode ajoute une pĂ©nalitĂ© proportionnelle Ă  la valeur absolue des coefficients. GĂ©omĂ©triquement, la zone de contrainte prend la forme d’un losange (ou d’un diamant). En raison de ses angles aigus, l’optimisation a tendance Ă  rencontrer cette contrainte directement sur les axes du repĂšre gĂ©omĂ©trique. Le rĂ©sultat est radical : le Lasso force mathĂ©matiquement certains coefficients Ă  valoir exactement zĂ©ro (“What Is Overfitting Vs. Underfitting?” n.d.; “Lasso Vs. Ridge Regression: Why Lasso Creates Sparsity and Ridge Does Not,” n.d.; S et al. 2025).

đŸȘ„ Simulateur Interactif des Chemins de RĂ©gularisation

đŸ§Ș Évolution des Coefficients RĂ©gressifs

{{title}}

{{body}}

type max_lambda color title body
lasso 0 var(–sol-cyan) 🟡 Lasso (λ = 0) : RĂ©gression standard (Moindres CarrĂ©s) Sans aucune pĂ©nalitĂ©, le modĂšle garde toutes les variables, y compris la variable de Bruit (bruit purement alĂ©atoire) avec un coefficient de +1.5. C’est la zone propice au surapprentissage (overfitting).
lasso 34 var(–sol-green) 🏆 Lasso (λ = {λ}) : SĂ©lection intelligente active ! La pĂ©nalitĂ© L1 a immĂ©diatement annulĂ© la variable de Bruit (w = 0) ! Elle a Ă©galement fortement rĂ©duit le coefficient de la variable Garage (qui fait doublon avec la Taille). Le modĂšle se concentre sur les variables rĂ©ellement importantes.
lasso 74 var(–sol-yellow) 🟡 Lasso (λ = {λ}) : SĂ©lection sĂ©vĂšre La pĂ©nalitĂ© Ă©limine maintenant l’Âge et le Garage. Seules les variables fondamentales Taille et Chambres survivent dans l’équation. C’est idĂ©al pour obtenir un modĂšle trĂšs parcimonieux et simple.
lasso 100 var(–sol-red) ⚠ Lasso (λ = {λ}) : Sous-apprentissage (Underfitting) La pĂ©nalitĂ© L1 est trop agressive. Elle a tuĂ© quasiment tous les coefficients. MĂȘme la Taille (variable majeure) s’approche de zĂ©ro. Le modĂšle a perdu sa capacitĂ© prĂ©dictive.
ridge 0 var(–sol-cyan) 🟡 Ridge (λ = 0) : Aucune rĂ©gularisation Le modĂšle conserve tous les coefficients au maximum. La colinĂ©aritĂ© entre Taille et Garage n’est pas traitĂ©e, ce qui gonfle artificiellement la variance du modĂšle.
ridge 100 var(–sol-green) 🏆 Ridge (λ = {λ}) : RĂ©duction de la variance (L2) Observez la diffĂ©rence avec Lasso ! La pĂ©nalitĂ© Ridge ne rĂ©duit jamais aucun coefficient Ă  exactement zĂ©ro (toutes les variables restent actives). Elle courbe et attĂ©nue les poids de maniĂšre progressive pour stabiliser le modĂšle face au Bruit, ce qui est parfait pour gĂ©rer la colinĂ©aritĂ© (les variables corrĂ©lĂ©es) sans jeter d’information.
elastic 100 var(–sol-magenta) 🏆 ElasticNet (λ = {λ}) : Le Compromis L1 + L2 ElasticNet mĂ©lange le meilleur des deux mondes : il Ă©limine complĂštement les variables de Bruit (comme Lasso) tout en conservant les variables corrĂ©lĂ©es ensemble avec des coefficients stables (effet de groupe Ridge), Ă©vitant le choix alĂ©atoire d’une variable par rapport Ă  une autre.
id name w0 color desc lassoThreshold elasticThreshold
taille Taille (mÂČ) 8.0 var(–sol-cyan) Variable majeure trĂšs prĂ©dictive. 0.98 0.99
chambres Chambres 5.0 var(–sol-green) Variable importante modĂ©rĂ©e. 0.72 0.85
garage Garage 3.5 var(–sol-yellow) CorrĂ©lĂ©e Ă  Taille (Redondance). 0.28 0.45
age Âge -4.0 var(–sol-red) Impact nĂ©gatif sur le prix. 0.48 0.68
bruit Bruit dB (Bruit) 1.5 var(–sol-magenta) Bruit alĂ©atoire sans intĂ©rĂȘt. 0.12 0.20

1.5.2 Elastic Net et Early Stopping

Pour rĂ©guler le modĂšle, on peut combiner les forces de tri et d’amortissement (ElasticNet), ou simplement interrompre l’entraĂźnement en direct dĂšs que le modĂšle commence Ă  faire moins bien sur de nouvelles donnĂ©es (Early Stopping).

Face Ă  des jeux de donnĂ©es complexes, d’autres stratĂ©gies complĂštent l’arsenal du Data Scientist :

  • ElasticNet : Dans les cas oĂč les donnĂ©es prĂ©sentent de nombreuses variables fortement corrĂ©lĂ©es entre elles, on utilise cet hybride. Il combine littĂ©ralement le meilleur des deux mondes en fusionnant la contrainte circulaire (L2) et la contrainte en losange (L1) (Zou and Hastie, n.d.; N. 2024).
  • Early Stopping (ArrĂȘt prĂ©maturĂ©) : Il s’agit d’une rĂ©gularisation purement temporelle. Au lieu de complexifier la fonction de perte, on observe la courbe d’apprentissage en direct. On interrompt l’entraĂźnement au point critique exact oĂč le modĂšle commence Ă  mĂ©moriser le bruit (c’est-Ă -dire le moment oĂč l’erreur sur les donnĂ©es de validation commence Ă  remonter, formant une courbe en U) (“Early Stopping,” n.d.).

1.5.3 Le Lasso comme Gouvernance

Utiliser le Lasso n’est pas qu’un choix technique, c’est aussi un choix stratĂ©gique : en Ă©liminant les donnĂ©es inutiles, il permet de rĂ©duire les coĂ»ts opĂ©rationnels et de rendre les dĂ©cisions de l’IA faciles Ă  expliquer pour les rĂ©gulateurs.

L’impact d’une mĂ©thode comme le Lasso dĂ©passe trĂšs largement la simple performance statistique. C’est un vĂ©ritable outil de dĂ©cision stratĂ©gique.

En annulant purement et simplement les coefficients des variables non contributives, le Lasso rĂ©alise une sĂ©lection automatique de variables. Il permet d’identifier les leviers mĂ©tier rĂ©els qui influencent une prĂ©diction. Cela a des consĂ©quences directes en entreprise :

  1. RĂ©duction des coĂ»ts opĂ©rationnels : On peut stopper la collecte, le traitement et le stockage de flux de donnĂ©es qui s’avĂšrent finalement inutiles.
  2. AuditabilitĂ© : Il simplifie drastiquement l’interprĂ©tabilitĂ© du modĂšle pour les instances de gouvernance, rendant l’IA transparente et explicable (“White Box”) (A. et al. 2020).

1.6 Expansion du Savoir par l’Augmentation de DonnĂ©es

L’augmentation de donnĂ©es consiste Ă  tricher intelligemment en crĂ©ant des variantes artificielles de nos exemples (rotation, zoom, bruit) pour forcer le modĂšle Ă  comprendre la forme globale plutĂŽt que de mĂ©moriser les conditions de la photo.

Si la rĂ©gularisation consiste Ă  contraindre le modĂšle pour l’empĂȘcher d’apprendre le bruit, l’augmentation de donnĂ©es (data augmentation) s’attaque au problĂšme par l’autre bout : en enrichissant le jeu d’entraĂźnement d’exemples artificiels mais rĂ©alistes (Shorten and Khoshgoftaar 2019). C’est une Ă©tape particuliĂšrement critique pour assurer la robustesse d’un modĂšle lors de son dĂ©ploiement en production, notamment dans les domaines de la vision par ordinateur (“What Is Overfitting Vs. Underfitting?” n.d.; Sandru, Georgescu, and Ionescu 2022).

1.6.1 Forger l’Invariance (L’Analogie du Moule)

Reprenons notre analogie une derniĂšre fois. Si vous n’avez qu’une seule figurine, parfaitement droite et sous un Ă©clairage idĂ©al, pour crĂ©er votre moule, la matiĂšre risque de s’adapter uniquement Ă  cette configuration parfaite. Si l’on vous prĂ©sente ensuite la mĂȘme figurine, mais couchĂ©e sur le cĂŽtĂ© ou dans la pĂ©nombre, votre moule (votre modĂšle) ne la reconnaĂźtra pas.

L’augmentation de donnĂ©es consiste Ă  prendre cette figurine originale et Ă  en crĂ©er artificiellement des dizaines de variantes avant le moulage : on la penche, on l’éloigne, on la salit avec un peu de poussiĂšre, on l’éclaire avec une lumiĂšre rasante. En forçant le modĂšle Ă  s’entraĂźner sur toutes ces variations, on s’assure que le moule final capture l’essence gĂ©omĂ©trique et structurelle de l’objet, et non les conditions accidentelles de sa prĂ©sentation.

1.6.2 Les Techniques d’Augmentation

Pour enrichir artificiellement le jeu d’entraĂźnement, on applique diverses transformations programmĂ©es sur les donnĂ©es sources :

  • Transformations gĂ©omĂ©triques : Rotation (tourner l’image), zoom (rapprocher ou Ă©loigner), dĂ©formation (Ă©tirement affine) et recadrage (couper une partie de l’image) (“Affine Transformation,” n.d.; Anonymous, n.d.).
  • Ajustements de qualitĂ© et colorimĂ©trie : Ajout de bruit artificiel (comme de la “neige” sur une tĂ©lĂ©vision), modification du contraste, de la luminositĂ© ou de la saturation (Levi et al., n.d.).

đŸ§Ș Vue Machine

đŸ–Œïž Image AugmentĂ©e

1.6.3 L’Impact StratĂ©gique et Conclusion

Ces mĂ©thodes forcent mathĂ©matiquement le modĂšle Ă  acquĂ©rir une invariance (“What Is Overfitting Vs. Underfitting?” n.d.; Hendrycks and Dietterich 2019). En vision industrielle, par exemple, le systĂšme de contrĂŽle qualitĂ© doit pouvoir reconnaĂźtre un dĂ©faut sur une piĂšce de fabrication quels que soient l’angle de vue de la camĂ©ra, l’heure de la journĂ©e ou l’usure de l’éclairage de l’usine. L’augmentation de donnĂ©es garantit cette rĂ©silience.

Conclusion du Cours : La conception d’une intelligence artificielle performante ne se rĂ©sume pas Ă  empiler des couches de neurones. Elle exige une vision holistique oĂč le choix de l’architecture (le type de moule), l’optimisation mathĂ©matique (la maniĂšre de presser la matiĂšre) et la qualitĂ© des donnĂ©es (les figurines de rĂ©fĂ©rence) convergent. C’est cette synergie qui permet de crĂ©er des systĂšmes non seulement statistiquement prĂ©cis en laboratoire, mais rĂ©silients et stratĂ©giquement alignĂ©s avec les rĂ©alitĂ©s du monde physique.

1.7 TP Machine Learning