// ==========================================
// _ojs_bridge.qmd â OJS Global Namespace Bridge
//
// Include ONCE at the top of each chapter index.qmd:
// {{< include ../../assets/_ojs_bridge.qmd >}}
//
// window.aptitek is set by an async `<script type="module">` in the page
// header (_quarto.yml include-in-header). That import may resolve AFTER
// OJS starts executing, causing `aptitek` to be undefined.
//
// Fix: return a Promise from this cell. OJS suspends all downstream cells
// until the promise resolves â the built-in, idiomatic solution for async
// dependencies in Observable JS.
//
// â
Zero-maintenance: adding a new export to index.js barrel is
// instantly available â no edits to this file ever needed.
// â
Race-condition-safe: downstream cells never see undefined.
// â
Anti-double-definition: only ONE OJS name (`aptitek`) is defined.
// ==========================================
aptitek = {
if (window.aptitek) return window.aptitek;
return new Promise(resolve => {
const check = () =>
window.aptitek
? resolve(window.aptitek)
: requestAnimationFrame(check);
check();
});
}1 đ€ Machine Learning : Les Fondamentaux
1.1 Grande Histoire du Machine Learning
Lâhistoire de lâIA est un match de ping-pong de 60 ans entre deux visions opposĂ©es : dâun cĂŽtĂ©, donner des rĂšgles toutes faites Ă la machine (lâIA symbolique, comme une recette de cuisine), et de lâautre, la laisser apprendre par elle-mĂȘme Ă force dâexemples (le connexionnisme, comme un bĂ©bĂ© qui dĂ©couvre le monde).
LâIA nâest pas nĂ©e en 2023. Câest une histoire de soixante ans, faite dâespoirs fous, de dĂ©sillusions et de renaissances â comme un pendule qui oscille entre ces deux grandes idĂ©es (Groumpos 2023; âTimeline of Machine Learning,â n.d.).
1.1.1 Timeline
| Alan Turing | Le Test de Turing |
|---|---|
![]() |
Fondation philosophique : « Les machines peuvent-elles penser ? » Il pose lâimitation du comportement humain comme standard de rĂ©ussite. |
| Frank Rosenblatt | Le Perceptron |
|---|---|
![]() |
Le Connexionnisme : Invention du premier rĂ©seau de neurones artificiel modĂ©lisĂ© sur la biologie, capable dâapprendre par essais et erreurs. |
| Minsky & Papert | Le Premier Hiver de lâIA |
|---|---|
![]() |
Désillusion : Démonstration mathématique des limites du Perceptron simple (XOR). Baisse drastique des financements mondiaux. |
| SystÚmes Experts & Rétropropagation | Le Double Visage des Années 80 |
|---|---|
![]() |
Paradoxe : Domination de lâIA symbolique menant au 2nd Hiver, pendant que la RĂ©tropropagation du gradient (Hinton, LeCun) is popularisĂ©e dans lâombre. |
| Vapnik & Breiman | La Renaissance Statistique |
|---|---|
| Rigueur mathĂ©matique : Le rĂ©seau de neurones est boudĂ©. Câest lâĂąge dâor des Machines Ă Vecteurs de Support (SVM) et des mĂ©thodes dâensemble. |
| ImageNet & GPUs | Le Big Bang du Deep Learning |
|---|---|
![]() |
Triomphe connexionniste : Grùce à la convergence du Big Data et des GPUs, le réseau AlexNet pulvérise les méthodes statistiques classiques. |
đ Grandes Ăpoques de lâIA
1.1.2 Les Pionniers et lâAube de lâApprentissage (1950 - 1960)
Tout commence en 1950 avec Alan Turing et une question simple mais vertigineuse : « Les machines peuvent-elles penser ? ». Son Test de Turing transforme ce dĂ©bat philosophique en dĂ©fi dâingĂ©nierie : imiter le comportement humain devient la mesure du succĂšs.
Câest quelques annĂ©es plus tard, en 1958, que le premier jalon technique du Machine Learning est posĂ© par le psychologue Frank Rosenblatt. Il invente le Perceptron (Rosenblatt 1958). Câest le premier rĂ©seau de neurones artificiel, modĂ©lisĂ© Ă partir des neurones biologiques. Ă lâĂ©poque, il sâagissait dâune machine physique (le Mark I Perceptron) capable dâapprendre Ă reconnaĂźtre des formes simples par essais et erreurs. Rosenblatt pensait alors que le Perceptron finirait par ĂȘtre capable de marcher, parler, voir et Ă©crire.
1.1.3 Le Premier Hiver et le Triomphe Temporaire du Symbolique (1969 - 1980)
Lâenthousiasme autour du Perceptron va cependant sâeffondrer brutalement. En 1969, Marvin Minsky et Seymour Papert publient le livre Perceptrons, dans lequel ils dĂ©montrent mathĂ©matiquement les limites sĂ©vĂšres du modĂšle de Rosenblatt : un Perceptron simple est incapable de rĂ©soudre des problĂšmes non linĂ©aires de base (comme la fonction logique XOR) (âMinsky Vs. Rosenblatt - Brain Wars,â n.d.).
Cette publication, combinĂ©e Ă des promesses technologiques non tenues et au Rapport Lighthill (âLighthill Report,â n.d.) au Royaume-Uni (qui juge sĂ©vĂšrement les avancĂ©es rĂ©elles de lâIA), entraĂźne une coupure drastique des financements gouvernementaux. Câest le premier Hiver de lâIA (AI Winter) (âAI Winter,â n.d.; Alex 2024).
Pendant que le connexionnisme est au point mort, lâIA symbolique prend le relais dans les annĂ©es 80 avec les SystĂšmes Experts. LâidĂ©e nâest plus de faire apprendre la machine, mais dâencoder le savoir humain sous forme de bases de rĂšgles complexes (âSi X, alors Yâ). Bien quâutiles en milieu industriel, ces systĂšmes sâavĂšrent impossibles Ă maintenir Ă grande Ă©chelle et totalement inadaptĂ©s Ă lâincertitude ou Ă la perception (vision, langage naturel).
1.1.4 La Renaissance Statistique et le Second Hiver (1980 - 2000)
Le marchĂ© des systĂšmes experts sâeffondre Ă la fin des annĂ©es 80, provoquant un second Hiver de lâIA (âThis Week in the History of AI at AIWS.net - the Market for Specialised AI Hardware Collapsed in 1987,â n.d.). Cependant, dans lâombre, les bases du renouveau se mettent en place.
En 1986, la technique de la rĂ©tropropagation du gradient (Backpropagation) est popularisĂ©e (notamment par Geoffrey Hinton, Yann LeCun et Yoshua Bengio). Câest une percĂ©e majeure : elle permet enfin dâentraĂźner efficacement des rĂ©seaux de neurones multicouches, contournant ainsi le problĂšme soulevĂ© par Minsky 20 ans plus tĂŽt.
Toutefois, dans les annĂ©es 90, les rĂ©seaux de neurones sont encore boudĂ©s car trop gourmands en calcul et difficiles Ă entraĂźner. Le Machine Learning prend alors un tournant trĂšs mathĂ©matique et statistique. Câest lâĂąge dâor des Machines Ă Vecteurs de Support (SVM) et des mĂ©thodes dâensemble (Random Forests), qui dominent la discipline grĂące Ă leurs fondations mathĂ©matiques solides et leurs garanties de convergence.
1.1.5 Le Big Bang du Deep Learning (2012 - Présent)
Pourquoi des idĂ©es des annĂ©es 80 ont-elles soudain dominĂ© le monde trente ans plus tard ? Parce que trois ingrĂ©dients manquants sont enfin arrivĂ©s en mĂȘme temps :
- Lâexplosion des donnĂ©es (Big Data) : LâavĂšnement dâInternet et des rĂ©seaux sociaux a fourni les quantitĂ©s massives de donnĂ©es Ă©tiquetĂ©es nĂ©cessaires pour entraĂźner de grands rĂ©seaux.
- La puissance de calcul matĂ©rielle : Le dĂ©tournement des cartes graphiques (GPU), initialement conçues pour le jeu vidĂ©o, a permis de parallĂ©liser les calculs matriciels du Machine Learning, rĂ©duisant les temps dâentraĂźnement de plusieurs mois Ă quelques jours.
- Les innovations algorithmiques : De meilleures fonctions dâactivation (ReLU) et techniques dâoptimisation ont rĂ©solu les problĂšmes mathĂ©matiques qui empĂȘchaient lâentraĂźnement de rĂ©seaux trĂšs profonds (le problĂšme de la disparition du gradient).
LâannĂ©e charniĂšre est 2012, lors de la compĂ©tition de vision par ordinateur ImageNet. Le rĂ©seau de neurones convolutif AlexNet pulvĂ©rise littĂ©ralement les mĂ©thodes statistiques classiques, divisant le taux dâerreur par deux. Cet Ă©vĂ©nement signe la victoire Ă©clatante du paradigme connexionniste et ouvre lâĂšre dans laquelle nous Ă©voluons aujourdâhui, de la vision par ordinateur jusquâaux modĂšles gĂ©nĂ©ratifs et larges modĂšles de langage (LLM).
1.2 Typologie des Paradigmes et Architectures Profondes
Avant de choisir un modĂšle, il faut rĂ©pondre Ă une question : quâest-ce quâon a comme donnĂ©es, et quâest-ce quâon veut faire avec ? La rĂ©ponse dĂ©termine tout. Câest comme choisir le bon outil avant de commencer un chantier â un marteau ne remplace pas une scie (âBIAS-VARIANCE TRADEOFF IN MACHINE LEARNING: CONCEPTS & TUTORIALS,â n.d.).
1.2.1 Quatre Paradigmes dâApprentissage
Les modĂšles dâapprentissage se structurent autour de quatre grands paradigmes, selon la nature des donnĂ©es dâentraĂźnement et le mode dâinteraction avec lâenvironnement :
đŻ Apprentissage SupervisĂ©
Apprendre avec un enseignant qui donne les bonnes réponses.
Metaphore : Un enfant apprend Ă nommer des animaux Ă lâaide de cartes dâimages portant le nom correct au dos.
đ DĂ©tails techniques
Lâalgorithme sâentraĂźne sur des couples entrĂ©e-sortie Ă©tiquetĂ©s (contenant la âvĂ©ritĂ© terrainâ) et ajuste ses paramĂštres pour minimiser lâerreur (Delua, n.d.).
- RĂ©gression : PrĂ©dire une valeur numĂ©rique continue (ex. : prix de lâimmobilier, tempĂ©rature).
- Classification : Prédire une catégorie ou classe discrÚte (ex. : e-mail indésirable vs légitime) (Lee, n.d.).
Cas dâusage : DĂ©tection de fraudes, reconnaissance dâobjets, diagnostic mĂ©dical.
𧩠Apprentissage Non Supervisé
Apprendre Ă trouver des structures par soi-mĂȘme, sans guide.
Metaphore : Un explorateur classe des plantes inconnues dans des paniers selon leur ressemblance visuelle, sans connaĂźtre leur nom.
đ DĂ©tails techniques
Lâalgorithme reçoit des donnĂ©es brutes sans Ă©tiquettes et cherche Ă dĂ©couvrir des regroupements naturels ou Ă rĂ©duire la complexitĂ© des donnĂ©es (âUnsupervised Machine Learning Algorithmsâ 2021).
- Clustering : Regroupement dâobservations similaires (ex. : segmentation de clients via K-Means) (âAdvantages and Disadvantages of k-Means,â n.d.).
- RĂ©duction de dimension : Simplification des donnĂ©es en ne gardant que lâinformation essentielle (ex. : PCA) (Shlens 2014).
Cas dâusage : SystĂšmes de recommandation, dĂ©tection dâanomalies, compression de donnĂ©es.
đ Apprentissage Semi-SupervisĂ©
Utiliser quelques exemples corrigĂ©s pour sâaider Ă trier une montagne de donnĂ©es brutes.
Metaphore : Un Ă©tudiant a seulement 3 exercices corrigĂ©s par son professeur, et doit sâen inspirer pour rĂ©soudre et classer 100 exercices non corrigĂ©s.
đ DĂ©tails techniques
Cette approche hybride associe une petite quantitĂ© de donnĂ©es Ă©tiquetĂ©es Ă un trĂšs grand volume de donnĂ©es brutes pour rĂ©duire le coĂ»t Ă©levĂ© de lâannotation manuelle (Chapelle, Schölkopf, and Zien 2006).
- Pseudo-Ă©tiquetage : Le modĂšle sâentraĂźne sur les donnĂ©es Ă©tiquetĂ©es puis Ă©tiquette lui-mĂȘme les donnĂ©es brutes.
- Graphes de similarité : Propagation des étiquettes connues aux observations les plus proches.
Cas dâusage : Classification de pages web, indexation dâimages mĂ©dicales, reconnaissance de la parole.
đź Apprentissage par Renforcement
Apprendre par lâaction, lâerreur, et la rĂ©compense.
Metaphore : Dresser un chien en lui offrant des friandises (rĂ©compenses) pour ses bonnes actions ou en lâignorant pour ses erreurs.
đ DĂ©tails techniques
Un agent autonome interagit avec un environnement dynamique pour maximiser une récompense cumulative au fil du temps (Sutton and Barto 2018).
- Exploration vs Exploitation : Arbitrage permanent entre tester de nouvelles actions et exploiter les connaissances déjà acquises.
- Algorithmes clés : Q-Learning, PPO, SAC.
Cas dâusage : Robotique industrielle, voitures autonomes, IA de jeux (AlphaGo, Ă©checs), gestion de portefeuilles financiers.
Lâimpact stratĂ©gique : Le choix entre classification et clustering modifie radicalement lâobjectif mĂ©tier. LĂ oĂč la classification rĂ©pond Ă une question fermĂ©e sur une catĂ©gorie connue (ex: âce client va-t-il rĂ©silier ?â), le clustering permet la dĂ©couverte de segments de marchĂ© âcachĂ©sâ. Cela offre une opportunitĂ© de diffĂ©renciation par la rĂ©vĂ©lation de niches comportementales jusquâalors invisibles.
1.2.2 LâĂre de lâApprentissage Profond pour les DonnĂ©es Complexes
Les algorithmes classiques sont bons avec des tableaux bien rangĂ©s. Mais pour des donnĂ©es non structurĂ©es â images, sons, textes, vidĂ©os â ils sont dĂ©passĂ©s. Câest lĂ quâentre en jeu le Deep Learning.
Pour le volet supervisé, deux grandes architectures dominent la perception automatisée :
- Les RĂ©seaux de Neurones Convolutifs (CNN - Convolutional Neural Networks) : Principalement utilisĂ©s pour la vision par ordinateur. Ils utilisent des âfiltresâ mathĂ©matiques et des poids pour balayer une image et en extraire des textures, des contours, puis des sĂ©mantiques spatiales complexes (âUnderstanding Weights and Biases in Neural Networks: The Core of AI Decision-Making,â n.d.).
- Les RĂ©seaux de Neurones RĂ©currents (RNN - Recurrent Neural Networks) : Conçus spĂ©cifiquement pour la persistance de lâinformation. Contrairement aux CNN, ils possĂšdent une âmĂ©moireâ interne qui leur permet de traiter des donnĂ©es sĂ©quentielles, comme les sĂ©ries temporelles (mĂ©tĂ©o, bourse) ou le traitement du langage naturel (NLP).
1.2.3 Les Architectures Génératives et Non-Supervisées
Si les CNN et les RNN ont excellé dans la classification, de nouvelles architectures ont bouleversé le domaine non-supervisé en rendant les machines capables de créer :
- Les Auto-encodeurs : Des rĂ©seaux qui apprennent Ă compresser (encoder) la donnĂ©e dans un espace trĂšs rĂ©duit, puis Ă la reconstruire (dĂ©coder). Ils sont excellents pour la dĂ©tection dâanomalies et la rĂ©duction de dimension extrĂȘme.
- Les GANs (RĂ©seaux Antagonistes GĂ©nĂ©ratifs) : Une architecture fascinante opposant deux rĂ©seaux (un Faussaire qui gĂ©nĂšre des donnĂ©es, et un DĂ©tective qui essaie de repĂ©rer les fausses donnĂ©es). Cette compĂ©tition pousse le rĂ©seau Ă synthĂ©tiser du contenu dâun rĂ©alisme bluffant (âBIAS-VARIANCE TRADEOFF IN MACHINE LEARNING: CONCEPTS & TUTORIALS,â n.d.).
- Les Transformateurs (Transformers) : Lâarchitecture derriĂšre les LLM modernes (comme ChatGPT). Ils utilisent des mĂ©canismes dâattention pour comprendre le contexte global dâune sĂ©quence de donnĂ©es, gĂ©nĂ©ralisant des motifs dâune complexitĂ© inĂ©dite.
1.2.4 LâImpact StratĂ©gique de la Perception AutomatisĂ©e
Ces rĂ©seaux ne suivent pas des rĂšgles Ă©crites Ă la main. Ils apprennent Ă reconnaĂźtre les choses â un chat de dos, dans lâombre, stylisĂ© â parce quâils ont absorbĂ© des milliers dâexemples. Cette flexibilitĂ© vient de lâajustement de millions de petits paramĂštres internes, que nous allons explorer dans le chapitre suivant avec la descente de gradient (âUnderstanding Weights and Biases in Neural Networks: The Core of AI Decision-Making,â n.d.).
1.3 MĂ©canique de lâOptimisation
Un modĂšle qui prĂ©dit bien, ce nâest pas quâune bonne architecture â câest surtout un apprentissage bien guidĂ©. Comment une machine apprend-elle ? En commettant des erreurs, en les mesurant, et en se corrigeant â encore et encore. Câest cette mĂ©canique quâon appelle lâoptimisation.
1.3.1 ModÚles, Données et Apprentissage
Pour dĂ©mystifier ce quâest rĂ©ellement lâapprentissage en machine learning, nous pouvons utiliser une analogie physique simple : le moulage.
- Les DonnĂ©es (Lâoriginal) : Imaginez que vos donnĂ©es dâentraĂźnement constituent une figurine de rĂ©fĂ©rence. Informatiquement, ce sont des matrices de nombres bruts.
- Le ModÚle (La matiÚre) : Le modÚle est la matiÚre brute avec laquelle nous allons fabriquer un moule autour de cette figurine. Cette matiÚre est définie par des nombres modifiables.
- LâApprentissage (Le processus) : Apprendre consiste Ă presser, dĂ©former et ajuster cette matiĂšre itĂ©rativement pour quâelle Ă©pouse le plus parfaitement possible la forme de la figurine originale, afin de pouvoir en gĂ©nĂ©rer de nouvelles Ă lâavenir.
đ ïž Presse en Action
1.3.2 Poids et Biais
Pour ajuster notre moule Ă la bonne forme, nous tournons deux types de boutons : les poids (qui augmentent ou diminuent lâimportance dâune information) et le biais (qui dĂ©cale lâensemble du moule vers le haut ou le bas).
Dans cette matiĂšre Ă mouler, deux types de paramĂštres contrĂŽlent tout (âUnderstanding Weights and Biases in Neural Networks: The Core of AI Decision-Making,â n.d.; Glander, n.d.) :
- Les Poids : Ce sont des âboutons de volumeâ. Ils amplifient ou attĂ©nuent lâimportance de chaque signal dâentrĂ©e. Plus le poids est grand, plus cette entrĂ©e compte dans la dĂ©cision finale. Câest la mallĂ©abilitĂ© de notre moule.
- Le Biais : Un paramĂštre souvent sous-estimĂ©. Imaginez-le comme le revenu de base du modĂšle â le niveau de rĂ©ponse minimal mĂȘme quand toutes les entrĂ©es sont nulles. Il donne la flexibilitĂ© de dĂ©caler la rĂ©ponse du modĂšle vers le haut ou le bas.
đą DĂ©tail mathĂ©matique
Le calcul de base dâun neurone sâĂ©crit (Trofimov 2020) :
y = w \cdot x + b
oĂč x est lâentrĂ©e, w le poids (importance), b le biais (dĂ©calage). Le but de lâapprentissage : trouver les valeurs de w et b qui minimisent lâerreur.
đïž Poids et Biais
1.3.3 La Fonction de Perte et la Boussole du Gradient
La fonction de perte mesure lâerreur globale (combien notre moule est imparfait) tandis que le gradient est une boussole qui nous indique dans quelle direction modifier nos rĂ©glages pour rĂ©duire cette erreur.
Pour ajuster le moule, il faut dâabord mesurer Ă quel point il est mauvais.
- La Fonction de Perte : Câest le thermomĂštre de lâerreur. Elle mesure lâĂ©cart entre la prĂ©diction du modĂšle et la rĂ©alitĂ©. Plus lâĂ©cart est grand, plus la valeur est Ă©levĂ©e. Lâobjectif : la faire descendre le plus possible (Grover, n.d.; âMean Squared Error,â n.d.; Mitra 2023).
- Le Gradient : Une fois lâerreur mesurĂ©e, comment savoir dans quel sens corriger ? Le gradient est une boussole : il indique la direction et la force avec laquelle ajuster chaque paramĂštre pour rĂ©duire lâerreur.
đą Ce quâest un gradient
Le gradient est un vecteur de dĂ©rivĂ©es partielles de la fonction de perte par rapport Ă chaque paramĂštre. Intuitivement : si vous ĂȘtes perdu dans un paysage montagneux et voulez atteindre la vallĂ©e, le gradient vous dit quelle pente descendre Ă chaque pas. MathĂ©matiquement, pour un paramĂštre w : \frac{\partial \mathcal{L}}{\partial w}.
đ§ Perte et Gradient
1.3.4 La Descente de Gradient et les Optimiseurs Modernes
Pour trouver le rĂ©glage parfait, on lĂąche une bille dans notre paysage dâerreurs : elle roule vers la vallĂ©e la plus basse (la descente de gradient). Le taux dâapprentissage contrĂŽle la vitesse de la bille, et les optimiseurs (comme Adam) ajustent automatiquement cette vitesse pour Ă©viter quâelle ne se perde.
La Descente de Gradient est le mĂ©canisme central : Ă chaque Ă©tape, on ajuste les paramĂštres dans le sens qui rĂ©duit lâerreur (âGradient Descent,â n.d.; Ruder 2016).
Imaginez la fonction de perte comme un paysage montagneux : chaque combinaison possible de paramĂštres correspond Ă un point dans ce relief. Le but est de trouver le point le plus bas (lâerreur minimale). On lĂąche une âbouleâ sur la pente, et elle roule vers le bas guidĂ©e par le gradient.
Deux réglages clés :
- Le pas dâapprentissage (Learning Rate) : La taille des bonds. Trop petit â apprentissage lent. Trop grand â la boule rebondit dans tous les sens sans jamais se stabiliser (You et al., n.d.; Dharanalakota, Raikar, and Ghosh 2025).
- Lâinertie (Momentum) : La boule garde un peu de son Ă©lan, ce qui lui permet de franchir les petits plateaux et de ne pas rester coincĂ©e dans une fausse vallĂ©e (Chawla, n.d.; Dauphin et al., n.d.).
Les optimiseurs modernes automatisent ces rĂ©glages (âLecture 2: Optimization Algorithms in Neural Networks,â n.d.; Bottou 2010) :
- Adam : Lâoptimiseur par dĂ©faut aujourdâhui â il adapte automatiquement le pas dâapprentissage pour chaque paramĂštre (âWhy Adam Optimizer Outperforms SGD? Adaptive Momentum Explained,â n.d.).
- RMSprop : Stabilise les oscillations en ajustant le pas selon lâhistorique rĂ©cent des gradients.
- AdaGrad : Efficace quand certaines variables apparaissent rarement (données éparses).
đą MĂ©canisme des optimiseurs
La mise Ă jour des poids Ă chaque Ă©tape sâĂ©crit (voir le Glossaire) : w \leftarrow w - \eta \cdot \nabla_w \mathcal{L}
- \leftarrow (flĂšche gauche) : lâopĂ©rateur dâaffectation (le paramĂštre Ă gauche prend la nouvelle valeur calculĂ©e Ă droite Ă chaque Ă©tape).
- \eta (lettre grecque ĂȘta) : le taux dâapprentissage (learning rate).
- \nabla_w (nabla avec indice w) : le gradient de la perte par rapport aux poids w (vecteur des dérivées partielles).
- \mathcal{L} : la fonction de perte (loss).
Adam adapte le pas pour chaque paramĂštre en maintenant deux moyennes mobiles â le gradient moyen (m_t) et le gradient carrĂ© moyen (v_t) : \hat{w} = w - \eta \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}
- t en indice (ex: m_t) : reprĂ©sente le pas dâoptimisation ou lâitĂ©ration temporelle en cours.
- La notation chapeau \hat{} (ex: \hat{m}_t, \hat{v}_t) : dĂ©signe les moyennes mobiles corrigĂ©es pour Ă©liminer le biais dâinitialisation Ă zĂ©ro.
- \epsilon (lettre grecque epsilon) : une constante de stabilitĂ© numĂ©rique (ex: 10^{-8}) empĂȘchant toute division par zĂ©ro.
1.3.5 Simulation de la Trajectoire dâOptimisation
Visualisez de maniĂšre interactive comment le choix de lâoptimiseur et ses paramĂštres modifient la trajectoire de la descente dans un paysage de coĂ»t en trois dimensions.
đïž Descente de Gradient 3D
- Lancer
- Pause
- Reset
Lâinertie (Momentum) accumule les gradients passĂ©s pour accĂ©lĂ©rer la descente dans les directions constantes et franchir les plateaux ou minima locaux.
RMSprop adapte le taux dâapprentissage de chaque paramĂštre selon la moyenne mobile de la magnitude des gradients rĂ©cents, stabilisant les oscillations verticales.
AdaGrad adapte le pas dâapprentissage de chaque paramĂštre selon lâhistorique de ses gradients accumulĂ©s depuis le dĂ©but (efficace pour les caractĂ©ristiques Ă©parses).
Adam combine Momentum et RMSprop en maintenant à la fois une moyenne mobile des gradients (1er moment) et de leurs carrés (2e moment).
đ Surface de CoĂ»t 3D
Coût (Loss)
7.9000
Ξâ
2.200
Ξâ
1.500
Vitesse
0.00
1.4 Le Compromis Biais-Variance
Trouver le bon modÚle est une affaire de compromis : soit il est trop rigide et rate les grandes tendances (le biais), soit il est trop fluide et mémorise les moindres détails inutiles, y compris le bruit (la variance).
Un bon modĂšle doit trouver le juste milieu entre deux dĂ©fauts opposĂ©s : trop simpliste (il rate les vraies tendances) ou trop rigoureux (il mĂ©morise le bruit au lieu dâapprendre). Câest le compromis biais-variance (âBIAS-VARIANCE TRADEOFF IN MACHINE LEARNING: CONCEPTS & TUTORIALS,â n.d.).
1.4.1 Le Biais et le Sous-apprentissage
Câest le dĂ©faut dâun modĂšle trop simpliste, comme un moule en mĂ©tal rigide incapable dâĂ©pouser les courbes dâune figurine (le sous-apprentissage ou underfitting).
Le Biais est lâerreur systĂ©matique dâun modĂšle trop simplet. Il âmanqueâ les vraies tendances des donnĂ©es â comme un moule trop rigide qui ne parvient pas Ă Ă©pouser la forme de la figurine. Le modĂšle reste grossiĂšrement plat, incapable de capter la structure rĂ©elle : câest le sous-apprentissage (underfitting) (âBias-Variance Analysis: Theory and Practice,â n.d.; âBias-Variance Trade Off - Machine Learning,â n.d.; Ghadigaonkar 2025).
đą DĂ©finition formelle (Biais)
\text{Biais}(\hat{Y}) = E[\hat{Y}] - Y (voir le Glossaire)
- \hat{Y} (âY-chapeauâ) : la prĂ©diction estimĂ©e par le modĂšle. La notation chapeau (\hat{}) est la convention standard en statistiques pour dĂ©signer un estimateur.
- Y : la valeur réelle de référence (la vérité terrain).
- E[\cdot] : lâespĂ©rance mathĂ©matique (la moyenne thĂ©orique attendue des prĂ©dictions sur diffĂ©rents jeux dâentraĂźnement).
LâespĂ©rance de la prĂ©diction moins la vraie valeur â lâĂ©cart moyen et systĂ©matique entre ce que le modĂšle prĂ©dit et la rĂ©alitĂ©.
1.4.2 La Variance et le Sur-apprentissage
Câest le dĂ©faut dâun modĂšle trop zĂ©lĂ©, comme un moule en silicone trop liquide qui moule aussi la poussiĂšre et les rayures de la figurine (le sur-apprentissage ou overfitting).
La Variance reprĂ©sente lâerreur liĂ©e Ă une sensibilitĂ© excessive aux fluctuations du jeu dâentraĂźnement. Le modĂšle procĂšde Ă une mĂ©morisation du bruit (âWhat Is Overfitting Vs. Underfitting?â n.d.; âBias/Variance Tradeoff and Ensemble Methods,â n.d.) au lieu dâune gĂ©nĂ©ralisation.
đą DĂ©finition formelle (Variance)
\text{Variance}(\hat{Y}) = E\left[(\hat{Y} - E[\hat{Y}])^2\right] (voir le Glossaire)
- \hat{Y} : la prédiction du modÚle.
- E[\hat{Y}] : la valeur moyenne prédite par le modÚle sur tous les entraßnements possibles.
- E[\cdot] (crochets extĂ©rieurs) : lâespĂ©rance calculĂ©e sur lâĂ©cart au carrĂ©, mesurant ainsi la dispersion.
La mesure de la dispersion des prĂ©dictions du modĂšle autour de sa moyenne pour diffĂ©rents jeux dâentraĂźnement.
Dans notre analogie, la matiĂšre du moule est ici beaucoup trop liquide et rĂ©active. Non seulement elle capture parfaitement la forme gĂ©nĂ©rale de la figurine, mais elle va jusquâĂ sâinfiltrer dans la moindre micro-rayure et englober chaque grain de poussiĂšre prĂ©sent sur cet exemplaire prĂ©cis. Le rĂ©sultat est un sur-apprentissage (overfitting). Si vous essayez dâutiliser ce moule ultra-spĂ©cifique pour valider une nouvelle figurine lĂ©gĂšrement diffĂ©rente, il sera totalement inadaptĂ© et produira une erreur importante.
âïž Biais et Variance
Propriété du matériau (Complexité du modÚle) :
1.4.3 Le PhénomÚne de Double Descente
Parfois, un trĂšs grand modĂšle que lâon pense condamnĂ© au sur-apprentissage recommence mystĂ©rieusement Ă sâamĂ©liorer : câest la double descente, une zone oĂč le modĂšle dĂ©couvre des rĂšgles encore plus simples et robustes.
La courbe classique en U montre que la variance augmente avec la complexité. Cependant, le Deep Learning montre parfois une Double Descente (la perte diminue de nouveau pour de trÚs grands modÚles).
đ Explication de la Double Descente et de lâUnfolding
Selon lâhypothĂšse de lâunfolding, ce phĂ©nomĂšne est souvent un artefact visuel liĂ© Ă un scaling composite (variation simultanĂ©e de la taille du modĂšle et des donnĂ©es) (Cimadevila, n.d.). Si lâon fait varier la complexitĂ© et les donnĂ©es indĂ©pendamment, le modĂšle rĂ©adopte des motifs classiques en U ou en L (Cimadevila, n.d.).
1.4.4 LâImpact StratĂ©gique
- Diagnostic : Une erreur dâentraĂźnement trĂšs faible couplĂ©e Ă une erreur de test Ă©levĂ©e indique une variance excessive (âWhat Is Overfitting Vs. Underfitting?â n.d.; âA Deep Dive into Learning Curves in Machine Learning,â n.d.).
- Ajustement : Il faut adapter lâarchitecture ou rĂ©gulariser le modĂšle plutĂŽt que de sur-interprĂ©ter les performances (Yates et al., n.d.).
1.5 Stratégies de Régularisation et Généralisation
La rĂ©gularisation regroupe les techniques permettant dâempĂȘcher un modĂšle de sur-apprendre (mĂ©moriser le bruit), en agissant comme une contrainte ou une force externe qui le force Ă rester simple (comme un film plastique tendu sur le moule).
Si le sur-apprentissage (une variance excessive) est la maladie, la rĂ©gularisation en est le remĂšde. La rĂ©gularisation impose une contrainte mathĂ©matique de âlissageâ pour favoriser la gĂ©nĂ©ralisation en pĂ©nalisant la complexitĂ© excessive du modĂšle (âEarly Stopping,â n.d.; Goyal 2021).
Pour reprendre notre analogie du moulage : si notre matiĂšre est devenue trop liquide et commence Ă sâinfiltrer dans les micro-rayures de la figurine, la rĂ©gularisation consiste Ă appliquer une force de tension externe (comme un film plastique tendu par-dessus). Cette contrainte empĂȘche la matiĂšre de capter les dĂ©tails superflus (le bruit) et la force Ă se concentrer uniquement sur la structure globale et pertinente (le signal).
1.5.1 Ridge, Lasso et Coefficients
Pour garder le modĂšle simple, on punit les poids trop grands en ajoutant une amende Ă lâerreur globale. Le Lasso (L1) supprime complĂštement les variables inutiles en mettant leur poids Ă zĂ©ro (comme un tri sĂ©lectif strict), tandis que le Ridge (L2) rĂ©duit doucement tous les poids sans jamais en Ă©liminer aucun (comme un amortisseur gĂ©nĂ©ral).
En apprentissage automatique, on applique cette contrainte en ajoutant une pĂ©nalitĂ© directement dans la fonction de perte. Cette pĂ©nalitĂ© sanctionne les paramĂštres (les poids ou coefficients) qui prennent trop dâimportance. Deux approches gĂ©omĂ©triques sâopposent :
- Ridge (RĂ©gularisation L2) : Cette mĂ©thode ajoute une pĂ©nalitĂ© proportionnelle au carrĂ© des coefficients. GĂ©omĂ©triquement, cela agit comme une contrainte circulaire concentrique autour de lâorigine. Ridge rĂ©duit la magnitude globale des coefficients pour stabiliser le modĂšle. Lâeffet visuel est un âamortissementâ : les valeurs sont compressĂ©es doucement vers le centre, mais ne sont pratiquement jamais rĂ©duites Ă zĂ©ro (Shizuya 2024; Dave 2020).
- Lasso (RĂ©gularisation L1) : Cette mĂ©thode ajoute une pĂ©nalitĂ© proportionnelle Ă la valeur absolue des coefficients. GĂ©omĂ©triquement, la zone de contrainte prend la forme dâun losange (ou dâun diamant). En raison de ses angles aigus, lâoptimisation a tendance Ă rencontrer cette contrainte directement sur les axes du repĂšre gĂ©omĂ©trique. Le rĂ©sultat est radical : le Lasso force mathĂ©matiquement certains coefficients Ă valoir exactement zĂ©ro (âWhat Is Overfitting Vs. Underfitting?â n.d.; âLasso Vs. Ridge Regression: Why Lasso Creates Sparsity and Ridge Does Not,â n.d.; S et al. 2025).
đȘ Simulateur Interactif des Chemins de RĂ©gularisation
đ§Ș Ăvolution des Coefficients RĂ©gressifs
{{title}}
{{body}}
| type | max_lambda | color | title | body |
|---|---|---|---|---|
| lasso | 0 | var(âsol-cyan) | đĄ Lasso (λ = 0) : RĂ©gression standard (Moindres CarrĂ©s) | Sans aucune pĂ©nalitĂ©, le modĂšle garde toutes les variables, y compris la variable de Bruit (bruit purement alĂ©atoire) avec un coefficient de +1.5. Câest la zone propice au surapprentissage (overfitting). |
| lasso | 34 | var(âsol-green) | đ Lasso (λ = {λ}) : SĂ©lection intelligente active ! | La pĂ©nalitĂ© L1 a immĂ©diatement annulĂ© la variable de Bruit (w = 0) ! Elle a Ă©galement fortement rĂ©duit le coefficient de la variable Garage (qui fait doublon avec la Taille). Le modĂšle se concentre sur les variables rĂ©ellement importantes. |
| lasso | 74 | var(âsol-yellow) | đĄ Lasso (λ = {λ}) : SĂ©lection sĂ©vĂšre | La pĂ©nalitĂ© Ă©limine maintenant lâĂge et le Garage. Seules les variables fondamentales Taille et Chambres survivent dans lâĂ©quation. Câest idĂ©al pour obtenir un modĂšle trĂšs parcimonieux et simple. |
| lasso | 100 | var(âsol-red) | â ïž Lasso (λ = {λ}) : Sous-apprentissage (Underfitting) | La pĂ©nalitĂ© L1 est trop agressive. Elle a tuĂ© quasiment tous les coefficients. MĂȘme la Taille (variable majeure) sâapproche de zĂ©ro. Le modĂšle a perdu sa capacitĂ© prĂ©dictive. |
| ridge | 0 | var(âsol-cyan) | đĄ Ridge (λ = 0) : Aucune rĂ©gularisation | Le modĂšle conserve tous les coefficients au maximum. La colinĂ©aritĂ© entre Taille et Garage nâest pas traitĂ©e, ce qui gonfle artificiellement la variance du modĂšle. |
| ridge | 100 | var(âsol-green) | đ Ridge (λ = {λ}) : RĂ©duction de la variance (L2) | Observez la diffĂ©rence avec Lasso ! La pĂ©nalitĂ© Ridge ne rĂ©duit jamais aucun coefficient Ă exactement zĂ©ro (toutes les variables restent actives). Elle courbe et attĂ©nue les poids de maniĂšre progressive pour stabiliser le modĂšle face au Bruit, ce qui est parfait pour gĂ©rer la colinĂ©aritĂ© (les variables corrĂ©lĂ©es) sans jeter dâinformation. |
| elastic | 100 | var(âsol-magenta) | đ ElasticNet (λ = {λ}) : Le Compromis L1 + L2 | ElasticNet mĂ©lange le meilleur des deux mondes : il Ă©limine complĂštement les variables de Bruit (comme Lasso) tout en conservant les variables corrĂ©lĂ©es ensemble avec des coefficients stables (effet de groupe Ridge), Ă©vitant le choix alĂ©atoire dâune variable par rapport Ă une autre. |
| id | name | w0 | color | desc | lassoThreshold | elasticThreshold |
|---|---|---|---|---|---|---|
| taille | Taille (mÂČ) | 8.0 | var(âsol-cyan) | Variable majeure trĂšs prĂ©dictive. | 0.98 | 0.99 |
| chambres | Chambres | 5.0 | var(âsol-green) | Variable importante modĂ©rĂ©e. | 0.72 | 0.85 |
| garage | Garage | 3.5 | var(âsol-yellow) | CorrĂ©lĂ©e Ă Taille (Redondance). | 0.28 | 0.45 |
| age | Ăge | -4.0 | var(âsol-red) | Impact nĂ©gatif sur le prix. | 0.48 | 0.68 |
| bruit | Bruit dB (Bruit) | 1.5 | var(âsol-magenta) | Bruit alĂ©atoire sans intĂ©rĂȘt. | 0.12 | 0.20 |
1.5.2 Elastic Net et Early Stopping
Pour rĂ©guler le modĂšle, on peut combiner les forces de tri et dâamortissement (ElasticNet), ou simplement interrompre lâentraĂźnement en direct dĂšs que le modĂšle commence Ă faire moins bien sur de nouvelles donnĂ©es (Early Stopping).
Face Ă des jeux de donnĂ©es complexes, dâautres stratĂ©gies complĂštent lâarsenal du Data Scientist :
- ElasticNet : Dans les cas oĂč les donnĂ©es prĂ©sentent de nombreuses variables fortement corrĂ©lĂ©es entre elles, on utilise cet hybride. Il combine littĂ©ralement le meilleur des deux mondes en fusionnant la contrainte circulaire (L2) et la contrainte en losange (L1) (Zou and Hastie, n.d.; N. 2024).
- Early Stopping (ArrĂȘt prĂ©maturĂ©) : Il sâagit dâune rĂ©gularisation purement temporelle. Au lieu de complexifier la fonction de perte, on observe la courbe dâapprentissage en direct. On interrompt lâentraĂźnement au point critique exact oĂč le modĂšle commence Ă mĂ©moriser le bruit (câest-Ă -dire le moment oĂč lâerreur sur les donnĂ©es de validation commence Ă remonter, formant une courbe en U) (âEarly Stopping,â n.d.).
1.5.3 Le Lasso comme Gouvernance
Utiliser le Lasso nâest pas quâun choix technique, câest aussi un choix stratĂ©gique : en Ă©liminant les donnĂ©es inutiles, il permet de rĂ©duire les coĂ»ts opĂ©rationnels et de rendre les dĂ©cisions de lâIA faciles Ă expliquer pour les rĂ©gulateurs.
Lâimpact dâune mĂ©thode comme le Lasso dĂ©passe trĂšs largement la simple performance statistique. Câest un vĂ©ritable outil de dĂ©cision stratĂ©gique.
En annulant purement et simplement les coefficients des variables non contributives, le Lasso rĂ©alise une sĂ©lection automatique de variables. Il permet dâidentifier les leviers mĂ©tier rĂ©els qui influencent une prĂ©diction. Cela a des consĂ©quences directes en entreprise :
- RĂ©duction des coĂ»ts opĂ©rationnels : On peut stopper la collecte, le traitement et le stockage de flux de donnĂ©es qui sâavĂšrent finalement inutiles.
- AuditabilitĂ© : Il simplifie drastiquement lâinterprĂ©tabilitĂ© du modĂšle pour les instances de gouvernance, rendant lâIA transparente et explicable (âWhite Boxâ) (A. et al. 2020).
1.6 Expansion du Savoir par lâAugmentation de DonnĂ©es
Lâaugmentation de donnĂ©es consiste Ă tricher intelligemment en crĂ©ant des variantes artificielles de nos exemples (rotation, zoom, bruit) pour forcer le modĂšle Ă comprendre la forme globale plutĂŽt que de mĂ©moriser les conditions de la photo.
Si la rĂ©gularisation consiste Ă contraindre le modĂšle pour lâempĂȘcher dâapprendre le bruit, lâaugmentation de donnĂ©es (data augmentation) sâattaque au problĂšme par lâautre bout : en enrichissant le jeu dâentraĂźnement dâexemples artificiels mais rĂ©alistes (Shorten and Khoshgoftaar 2019). Câest une Ă©tape particuliĂšrement critique pour assurer la robustesse dâun modĂšle lors de son dĂ©ploiement en production, notamment dans les domaines de la vision par ordinateur (âWhat Is Overfitting Vs. Underfitting?â n.d.; Sandru, Georgescu, and Ionescu 2022).
1.6.1 Forger lâInvariance (LâAnalogie du Moule)
Reprenons notre analogie une derniĂšre fois. Si vous nâavez quâune seule figurine, parfaitement droite et sous un Ă©clairage idĂ©al, pour crĂ©er votre moule, la matiĂšre risque de sâadapter uniquement Ă cette configuration parfaite. Si lâon vous prĂ©sente ensuite la mĂȘme figurine, mais couchĂ©e sur le cĂŽtĂ© ou dans la pĂ©nombre, votre moule (votre modĂšle) ne la reconnaĂźtra pas.
Lâaugmentation de donnĂ©es consiste Ă prendre cette figurine originale et Ă en crĂ©er artificiellement des dizaines de variantes avant le moulage : on la penche, on lâĂ©loigne, on la salit avec un peu de poussiĂšre, on lâĂ©claire avec une lumiĂšre rasante. En forçant le modĂšle Ă sâentraĂźner sur toutes ces variations, on sâassure que le moule final capture lâessence gĂ©omĂ©trique et structurelle de lâobjet, et non les conditions accidentelles de sa prĂ©sentation.
1.6.2 Les Techniques dâAugmentation
Pour enrichir artificiellement le jeu dâentraĂźnement, on applique diverses transformations programmĂ©es sur les donnĂ©es sources :
- Transformations gĂ©omĂ©triques : Rotation (tourner lâimage), zoom (rapprocher ou Ă©loigner), dĂ©formation (Ă©tirement affine) et recadrage (couper une partie de lâimage) (âAffine Transformation,â n.d.; Anonymous, n.d.).
- Ajustements de qualitĂ© et colorimĂ©trie : Ajout de bruit artificiel (comme de la âneigeâ sur une tĂ©lĂ©vision), modification du contraste, de la luminositĂ© ou de la saturation (Levi et al., n.d.).
đ§Ș Vue Machine
đŒïž Image AugmentĂ©e
1.6.3 LâImpact StratĂ©gique et Conclusion
Ces mĂ©thodes forcent mathĂ©matiquement le modĂšle Ă acquĂ©rir une invariance (âWhat Is Overfitting Vs. Underfitting?â n.d.; Hendrycks and Dietterich 2019). En vision industrielle, par exemple, le systĂšme de contrĂŽle qualitĂ© doit pouvoir reconnaĂźtre un dĂ©faut sur une piĂšce de fabrication quels que soient lâangle de vue de la camĂ©ra, lâheure de la journĂ©e ou lâusure de lâĂ©clairage de lâusine. Lâaugmentation de donnĂ©es garantit cette rĂ©silience.
Conclusion du Cours : La conception dâune intelligence artificielle performante ne se rĂ©sume pas Ă empiler des couches de neurones. Elle exige une vision holistique oĂč le choix de lâarchitecture (le type de moule), lâoptimisation mathĂ©matique (la maniĂšre de presser la matiĂšre) et la qualitĂ© des donnĂ©es (les figurines de rĂ©fĂ©rence) convergent. Câest cette synergie qui permet de crĂ©er des systĂšmes non seulement statistiquement prĂ©cis en laboratoire, mais rĂ©silients et stratĂ©giquement alignĂ©s avec les rĂ©alitĂ©s du monde physique.




