// ==========================================
// _ojs_bridge.qmd â OJS Global Namespace Bridge
//
// Include ONCE at the top of each chapter index.qmd:
// {{< include ../../assets/_ojs_bridge.qmd >}}
//
// window.aptitek is set by an async `<script type="module">` in the page
// header (_quarto.yml include-in-header). That import may resolve AFTER
// OJS starts executing, causing `aptitek` to be undefined.
//
// Fix: return a Promise from this cell. OJS suspends all downstream cells
// until the promise resolves â the built-in, idiomatic solution for async
// dependencies in Observable JS.
//
// â
Zero-maintenance: adding a new export to index.js barrel is
// instantly available â no edits to this file ever needed.
// â
Race-condition-safe: downstream cells never see undefined.
// â
Anti-double-definition: only ONE OJS name (`aptitek`) is defined.
// ==========================================
aptitek = {
if (window.aptitek) return window.aptitek;
return new Promise(resolve => {
const check = () =>
window.aptitek
? resolve(window.aptitek)
: requestAnimationFrame(check);
check();
});
}2 đ§ RĂ©seaux de Neurones Profonds
2.1 Morphologie générale du réseau
Un rĂ©seau de neurones artificiels fonctionne comme une ligne dâassemblage en usine : les donnĂ©es dâentrĂ©e passent dâune couche de travailleurs (les couches cachĂ©es) Ă une autre, chacun affinant et transformant la piĂšce jusquâĂ ce que la couche de sortie dĂ©livre le produit fini.
Lâapprentissage profond sâappuie sur une rĂ©volution architecturale oĂč la topologie mĂȘme du rĂ©seau dĂ©finit sa capacitĂ© Ă capturer et traiter la complexitĂ© du monde rĂ©el. Le fonctionnement global de ce systĂšme peut ĂȘtre visualisĂ© comme une vaste toile dâaraignĂ©e multicouche organisĂ©e de maniĂšre trĂšs rigoureuse (IBM 2026; Rivals et al. 1995; Djeffal 2026a).
La structure globale en âtoile dâaraignĂ©eâ :
Cette architecture sâinspire initialement de lâefficacitĂ© et du traitement massivement parallĂšle du cerveau humain.
NĂ©anmoins, le rĂ©seau artificiel sâen dĂ©marque en Ă©tant une structure mathĂ©matique oĂč le flux dâinformations est strictement dirigĂ© Ă travers des couches discrĂštes.
Cette topologie est cruciale car elle permet de fragmenter un problÚme global complexe en une succession de sous-problÚmes résolubles localement (Blent.ai 2026; Wikipédia 2026c; Vergé 2009).
La couche dâentrĂ©e (Input Layer) :
Elle constitue le point de contact direct avec le monde extérieur en réceptionnant les vecteurs de caractéristiques bruts.
Ă titre dâexemple, si le rĂ©seau analyse une image, cette couche va rĂ©ceptionner lâinformation visuelle (comme des pixels) pour la transformer en un signal numĂ©rique initial (MonCoachData 2026; SITAMS 2026; MathWorks 2026).
Les couches cachées (Hidden Layers) :
Ces strates intermĂ©diaires reprĂ©sentent le cĆur du traitement de lâinformation et apportent la fameuse âprofondeurâ au rĂ©seau.
Le consensus acadĂ©mique considĂšre dâailleurs que lâon entre dans le domaine du Deep Learning lorsquâun rĂ©seau possĂšde au moins quatre de ces couches (IBM 2026; Serge 2020; Mezghani 2022).
Sans entrer dans le dĂ©tail de leurs composants, leur rĂŽle global est dâopĂ©rer un apprentissage hiĂ©rarchique : les premiĂšres strates dĂ©tectent des Ă©lĂ©ments trĂšs simples (comme des textures ou des bords), tandis que les strates suivantes synthĂ©tisent ces Ă©lĂ©ments pour identifier des concepts de plus en plus abstraits (Bodin and Recher 2026a; Elements of AI 2026; YouTube 2026a).
La couche de sortie (Output Layer) :
Câest lâultime Ă©tape du rĂ©seau, celle qui est chargĂ©e de produire la rĂ©ponse brute ou lâinfĂ©rence finale.
Dans des scĂ©narios de classification, elle utilise des mĂ©canismes (comme la fonction Softmax) pour transformer les signaux reçus en une distribution de probabilitĂ©s dont la somme est Ă©gale Ă 1, garantissant ainsi un rĂ©sultat clair oĂč les catĂ©gories sont mutuellement exclusives (Ultralytics 2026b; DataFranca 2026).
đžïž Simulateur de Flux dâInformation â RĂ©seau Multicouche (RMN)
- Lancer
- Pause
- Reset
RĂ©seau au repos â En attente dâinformations.
2.2 Anatomie du neurone artificiel
Un neurone artificiel est une petite calculatrice qui prend plusieurs informations en entrĂ©e, leur donne plus ou moins dâimportance (les poids), ajoute une tendance de base (le biais), puis fait la somme de tout cela pour dĂ©cider sâil transmet le signal.
Le neurone artificiel constitue lâatome de calcul fondamental de tout rĂ©seau de neurones (WikipĂ©dia 2026b; Djeffal 2026a). Sa force rĂ©side dans lâapplication des concepts de poids (w) et de biais (b) â dĂ©jĂ introduits au chapitre 1 dans le cadre de lâoptimisation gĂ©nĂ©rale â Ă lâĂ©chelle dâune unitĂ© de calcul unique. Pour en comprendre le fonctionnement de maniĂšre intuitive, on peut lâimaginer comme un magasin connectĂ© situĂ© au cĆur dâune mĂ©tropole complexe.
- Lâanalogie du magasin connectĂ© Ă la ville : Dans cette mĂ©tropole, notre neurone est une enseigne commerciale dont les flux dâentrĂ©e proviennent de diffĂ©rents quartiers (les entrĂ©es x_i). Le but est de centraliser ces flux pour gĂ©nĂ©rer un indicateur global.
- Les Poids (Weights) â Voies dâaccĂšs et trafic : Les poids (w_i) modulent lâimportance de chaque entrĂ©e (EITCA Academy 2026; Djeffal 2026b; SITAMS 2026). Ils reprĂ©sentent lâĂ©tat et la capacitĂ© des routes menant au magasin. Une route large et fluide possĂšde un poids Ă©levĂ© ; une route fermĂ©e ou dĂ©gradĂ©e possĂšde un poids proche de zĂ©ro, neutralisant lâinfluence du signal.
- Le Biais (Bias) â Chiffre dâaffaires de base : Le biais (b) sâapparente au revenu minimal garanti du magasin (EITCA Academy 2026; Inconnu 2026a). Il dĂ©cale lâactivation pour dĂ©finir le niveau dâexcitation minimal requis pour que le neurone transmette un signal, mĂȘme lorsque les entrĂ©es sont nulles.
- La Sommation PondĂ©rĂ©e â SynthĂšse de lâunitĂ© de calcul : Le neurone combine ces Ă©lĂ©ments en effectuant la sommation pondĂ©rĂ©e de lâensemble de ces signaux routiers pour obtenir la prĂ©-activation (le rĂ©sultat intermĂ©diaire avant filtrage non linĂ©aire) (Bodin and Recher 2026a; Buzer 2022).
đą Formule de la prĂ©-activation
Le calcul de la sommation pondĂ©rĂ©e sâĂ©crit :
h = \sum_{i} w_i x_i + b (voir le Glossaire)
- h : la valeur de prĂ©-activation (la somme pondĂ©rĂ©e brute accumulĂ©e par le neurone avant dâappliquer la fonction dâactivation).
- \sum_{i} : le symbole de sommation, indiquant que lâon additionne les contributions de toutes les entrĂ©es indexĂ©es par i.
- x_i : le signal de la i-Úme entrée.
- w_i : le poids synaptique associé à la i-Úme entrée.
- b : le biais (valeur de décalage).
đ§ Simulateur â Anatomie du Neurone Artificiel
2.3 Propagation avant (Forward Propagation)
La propagation avant est le voyage aller des donnĂ©es Ă travers le rĂ©seau : elles entrent sous forme brute dâun cĂŽtĂ© (comme les pixels dâune image), sont transformĂ©es Ă chaque Ă©tape par les calculs des neurones, et ressortent de lâautre cĂŽtĂ© sous forme de prĂ©diction (comme le nom de lâobjet sur lâimage).
La propagation avant constitue le flux tensorial unidirectionnel qui transforme une entrĂ©e brute en une prĂ©diction (Innovatiana 2026). Câest la phase dâinfĂ©rence pure, oĂč le rĂ©seau dĂ©ploie sa structure et sa comprĂ©hension acquise pour interprĂ©ter de nouvelles activations.
- Le processus de sommation pondĂ©rĂ©e : Ă chaque couche, les neurones reçoivent les activations de la couche prĂ©cĂ©dente. Le rĂ©seau calcule systĂ©matiquement les produits scalaires entre les poids et ces activations pour obtenir la combinaison linĂ©aire avant lâĂ©tape de filtrage (Bodin and Recher 2026b) : h = \sum_{i} w_i x_i + b.
2.3.1 Formalisme vectoriel et vectorisation
Pour tirer parti de lâaccĂ©lĂ©ration matĂ©rielle des GPU, on reformule ces calculs individuels sous forme matricielle. Lâensemble dâune couche se calcule en une seule opĂ©ration, ce qui permet aux GPU dâeffectuer des milliers de calculs en parallĂšle et rend lâentraĂźnement de rĂ©seaux profonds faisable (Nielsen 2019).
đą Formule matricielle de la propagation avant
Le calcul vectorisĂ© pour une couche l sâĂ©crit :
\mathbf{a}^l = \sigma\!\left(\mathbf{W}^l \mathbf{a}^{l-1} + \mathbf{b}^l\right) (voir le Glossaire)
- Lettres grasses (ex: \mathbf{a}, \mathbf{W}, \mathbf{b}) : désignent des tenseurs (vecteurs ou matrices) plutÎt que des nombres isolés (scalaires).
- Lâexposant l (ex: \mathbf{a}^l) : indique la couche du rĂ©seau de neurones Ă laquelle la variable appartient.
- \mathbf{a}^l : le vecteur dâactivations de la couche l.
- \mathbf{W}^l \in \mathbb{R}^{n_l \times n_{l-1}} : la matrice des poids de la couche l.
- Le symbole \in signifie âappartient Ă â.
- \mathbb{R}^{n_l \times n_{l-1}} reprĂ©sente lâespace des matrices de nombres rĂ©els Ă n_l lignes (nombre de neurones de la couche l) et n_{l-1} colonnes (nombre de neurones de la couche prĂ©cĂ©dente l-1).
- \mathbf{a}^{l-1} : le vecteur dâactivations de la couche prĂ©cĂ©dente l-1 (la couche \mathbf{a}^0 correspondant Ă lâentrĂ©e \mathbf{x}).
- \mathbf{b}^l : le vecteur des biais de la couche l.
- \sigma (lettre grecque sigma) : la fonction dâactivation, appliquĂ©e Ă©lĂ©ment par Ă©lĂ©ment sur le vecteur de prĂ©-activation.
- LâimpĂ©ratif de la non-linĂ©aritĂ© : Appliquer une fonction dâactivation non linĂ©aire empĂȘche le rĂ©seau de sâeffondrer mathĂ©matiquement en une simple rĂ©gression linĂ©aire (YouTube 2026d; Inconnu 2026a). Cette non-linĂ©aritĂ© lui permet de modĂ©liser les motifs complexes et les ruptures de la rĂ©alitĂ©.
- La transformation progressive des donnĂ©es : Ă travers ce chaĂźnage alternĂ© dâopĂ©rations, les donnĂ©es transitent dâun Ă©tat brut (ex: pixels) Ă des reprĂ©sentations abstraites de plus en plus sĂ©mantiques jusquâĂ la sortie finale (Cloudflare 2026).
⥠Simulateur â Propagation Avant couche par couche
2.4 Rétropropagation (Backpropagation)
La rĂ©tropropagation est le voyage retour de lâerreur : une fois la prĂ©diction faite, le rĂ©seau calcule lâĂ©cart avec la bonne rĂ©ponse et remonte Ă lâenvers Ă travers toutes ses couches pour distribuer la responsabilitĂ© de lâerreur Ă chaque neurone (grĂące Ă la rĂšgle de la chaĂźne).
La rĂ©tropropagation est vĂ©ritablement le moteur algorithmique de lâapprentissage. Si la propagation avant dĂ©finit la vision ou la prĂ©diction actuelle du rĂ©seau, la rĂ©tropropagation (ou passage arriĂšre) est le mĂ©canisme par lequel le systĂšme Ă©value ses propres lacunes pour sâamĂ©liorer. Historiquement, bien que ce concept ait Ă©tĂ© popularisĂ© en 1986 par Rumelhart, Hinton et Williams, sa genĂšse remonte Ă 1970 grĂące aux travaux de Seppo Linnainmaa (WikipĂ©dia 2026d; Espinasse 2008). Ce mĂ©canisme permet au rĂ©seau dâajuster ses paramĂštres internes en fonction de lâerreur quâil vient de commettre.
- Le calcul de lâerreur (Loss Function) : La fonction de coĂ»t (ex: lâerreur quadratique moyenne ou MSE) quantifie lâĂ©cart entre la prĂ©diction du rĂ©seau et la vĂ©ritĂ© terrain (Momotoculteur 2026b; Liora 2026; Moi aussi je peux Ă©crire un livre sur lâIA 2026).
- La rĂ©tropropagation (Backward Pass) : Le rĂ©seau remonte Ă lâenvers pour distribuer la responsabilitĂ© de lâerreur globale Ă chaque poids (Codefinity 2026; Bodin and Recher 2026b). Il sâappuie sur la rĂšgle de la chaĂźne (Chain Rule) pour calculer les dĂ©rivĂ©es partielles (Jouannic 2026; Google Machine Learning 2025).
đą La RĂšgle de la ChaĂźne (Chain Rule)
Pour calculer la contribution dâun poids w dâune couche intermĂ©diaire Ă lâerreur finale \mathcal{L}, on multiplie les dĂ©rivĂ©es partielles le long du chemin de propagation :
\frac{\partial \mathcal{L}}{\partial w} = \frac{\partial \mathcal{L}}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial w} (voir le Glossaire)
- \partial (symbole de dĂ©rivation partielle) : reprĂ©sente la sensibilitĂ© dâune fonction aux variations dâune seule variable (ex: \frac{\partial \mathcal{L}}{\partial w} mesure la variation de la perte globale \mathcal{L} lorsque le poids w change, toutes les autres variables Ă©tant fixes).
- \mathcal{L} : la fonction de perte (loss).
- a : lâactivation de sortie du neurone (a = \sigma(z)).
- z : la valeur intermédiaire de pré-activation (z = w \cdot x + b).
- \sigma'(z) : la dĂ©rivĂ©e premiĂšre de la fonction dâactivation \sigma (le symbole prime ' indiquant la dĂ©rivĂ©e).
- x : la valeur dâentrĂ©e connectĂ©e Ă ce poids.
- Lâajustement (Descente de gradient) : Les gradients calculĂ©s indiquent la direction et lâamplitude de la correction Ă appliquer aux poids pour minimiser la perte au pas suivant (WikipĂ©dia 2026a; Ruder 2016; IE-Concept 2026; Mallat 2019).
đžïž RĂ©seau de Neurones
Les entrées sont pondérées, sommées (Σ), puis filtrées par ReLU. Ajustez les paramÚtres dans la barre de contrÎles ci-dessus.
Lâinspecteur remonte Ă lâenvers : il distribue la responsabilitĂ© de lâerreur proportionnellement au trafic (rĂšgle de la chaĂźne).
Le âBudget Travauxâ corrige proportionnellement les poids. Modifiez le taux dâapprentissage ci-dessus pour observer lâamplitude des corrections.
2.5 Les fonctions dâactivation en dĂ©tail
Les fonctions dâactivation sont les interrupteurs du rĂ©seau : elles dĂ©cident si le signal dâun neurone est assez fort pour ĂȘtre transmis Ă la couche suivante, tout en tordant la rĂ©alitĂ© mathĂ©matique pour modĂ©liser des courbes plutĂŽt que de simples lignes droites.
Les fonctions dâactivation agissent comme des interrupteurs ou des variateurs, dictant la dynamique de transmission du signal au sein du rĂ©seau (Momotoculteur 2026a; Daniella 2024). Elles sont le cĆur de la non-linĂ©aritĂ© et se divisent en deux grandes familles.
- Les fonctions classiques et leurs limitations :
- SigmoĂŻde & TanH : Courbes en âSâ dâinspiration biologique. Elles saturent aux valeurs extrĂȘmes, ce qui paralyse lâapprentissage en bloquant le gradient (Research Archive of Rising Scholars 2026).
- ReLU (Rectified Linear Unit) : Simple et rapide (\max(0, x)), elle Ă©vite la saturation positive mais souffre du âDying ReLUâ (extinction dĂ©finitive de neurones) (YouTube 2026d; Stanford CS231n 2026; Ultralytics 2026a).
- Softmax : Utilisée en sortie pour convertir des scores bruts en distribution de probabilités sur des classes mutuellement exclusives (Ultralytics 2026b).
đ DĂ©tails et Limites des Fonctions Classiques
- Saturation du Gradient : Pour de trĂšs grandes ou trĂšs petites valeurs de x, la dĂ©rivĂ©e de SigmoĂŻde et TanH tend vers 0. Lors de la rĂ©tropropagation, ce terme multiplicatif annule le gradient, empĂȘchant la mise Ă jour des poids prĂ©cĂ©dents.
- ProblĂšme du âDying ReLUâ : Si un neurone ReLU reçoit une entrĂ©e nĂ©gative, son gradient est nul. Si ce cas se gĂ©nĂ©ralise (poids mal initialisĂ©s ou taux dâapprentissage trop Ă©levĂ©), le neurone sâĂ©teint dĂ©finitivement.
⥠Simulateur des Fonctions dâActivation Classiques
đ Courbes dâActivation
Les fonctions modernes :
Ces fonctions plus récentes (comme GELU ou Swish) évitent les pannes sÚches en laissant passer une petite partie du signal négatif de maniÚre plus fluide.
- GELU (Gaussian Error Linear Unit) : Fonction probabiliste douce pondérant le signal négatif, pilier des Transformers car elle maintient un flux de gradient fluide (YouTube 2026c; Wikipédia 2026e; Cortial 2026).
- SELU (Scaled Exponential Linear Unit) : Conçue pour introduire des propriétés auto-normalisantes, permettant aux réseaux profonds de converger sans normalisation externe (Inconnu 2026b; Stanford University 2026).
- Swish : Version lissée de ReLU qui laisse passer les petites valeurs négatives pour éviter les coupures abruptes (Lim 2026).
đ Fonctionnement des Activations Modernes
- GELU et ProbabilitĂ© : Elle multiplie lâentrĂ©e x par la fonction de rĂ©partition dâune loi normale standard \Phi(x). Le neurone est donc activĂ© de maniĂšre dĂ©terministe mais selon son importance probabiliste relative.
- Auto-normalisation (SELU) : En combinant un facteur dâĂ©chelle \lambda et un paramĂštre \alpha sur une fonction ELU, SELU garantit que si la moyenne et la variance des activations dâune couche sont proches de 0 et 1, elles le restent aprĂšs passage dans la couche suivante.
đą Formule de lâactivation Swish
La fonction Swish sâĂ©crit :
f(x) = x \cdot \text{sigmoid}(\beta x) = \frac{x}{1 + e^{-\beta x}}
OĂč \beta est un paramĂštre constant ou entraĂźnable. Lorsque \beta = 1, la fonction est Ă©galement appelĂ©e SiLU (Sigmoid Linear Unit).
âš Simulateur des Fonctions dâActivation Modernes
đ Courbes dâActivation (Modernes)
2.6 Le problĂšme du gradient (Vanishing / Exploding)
Dans un rĂ©seau trĂšs profond, le message dâerreur peut se perdre en route : soit il sâattĂ©nue Ă chaque Ă©tape jusquâĂ disparaĂźtre (la disparition du gradient, comme un chuchotement rĂ©pĂ©tĂ© 10 fois), soit il sâamplifie de maniĂšre dĂ©mesurĂ©e jusquâĂ tout saturer (lâexplosion du gradient, comme un cri amplifiĂ© Ă chaque relais).
LâentraĂźnement des rĂ©seaux profonds se heurte souvent Ă ce que lâon pourrait qualifier de âstabilitĂ© instableâ. Lors de la phase de rĂ©tropropagation, la multiplication successive des gradients Ă travers les nombreuses couches du rĂ©seau peut mener Ă des phĂ©nomĂšnes critiques : leur disparition ou leur explosion (Sun, Xu, and Li 2025; GeeksforGeeks 2026b; Wikipedia 2026).
- Le mĂ©canisme du gradient (Vanishing & Exploding) : Lors de la rĂ©tropropagation, calculer les gradients des premiĂšres couches nĂ©cessite de multiplier les dĂ©rivĂ©es des fonctions dâactivation et les poids des couches suivantes en cascade (rĂšgle de la chaĂźne).
- Disparition (Vanishing) : Si ces termes sont infĂ©rieurs Ă 1 (ex: avec la fonction SigmoĂŻde), le produit tend exponentiellement vers zĂ©ro, bloquant lâapprentissage des premiĂšres couches (Research Archive of Rising Scholars 2026).
- Explosion (Exploding) : Si ces termes sont supérieurs à 1, le produit grandit de maniÚre exponentielle, rendant les mises à jour chaotiques et déstabilisant le modÚle (GeeksforGeeks 2026b, 2026a).
đą Formulation mathĂ©matique du problĂšme
Dans un rĂ©seau Ă L couches, le gradient de la perte par rapport Ă un poids w^1 de la premiĂšre couche sâexprime sous la forme dâun produit :
\frac{\partial \mathcal{L}}{\partial w^1} = \frac{\partial \mathcal{L}}{\partial a^L} \cdot \left( \prod_{k=2}^{L} w^k \sigma'(z^{k-1}) \right) \sigma'(z^1) x^0
Si \forall k, |w^k \sigma'(z^{k-1})| < 1, alors le terme de produit \prod_{k=2}^{L} tend vers 0 lorsque L augmente (gradients évanescents). Si \forall k, |w^k \sigma'(z^{k-1})| > 1, alors ce terme grandit exponentiellement (gradients explosifs).
- Illustration par la transmission de la parole :
- Ăvanouissement : Si 10 personnes se chuchotent un message en divisant le volume par deux Ă chaque Ă©tape (dĂ©rivĂ©e de 0.5), la derniĂšre personne recevra 0.5^{10} \approx 0.001 du signal initial. Le message devient inaudible.
- Explosion : Si chaque personne double le volume reçu (dérivée de 2), la derniÚre personne émettra un signal 2^{10} = 1024 fois plus fort. Le message est saturé et déformé.
2.7 Solutions Ă la disparition du gradient et optimisation du paysage
Pour rendre lâapprentissage stable et rapide, on applique plusieurs astuces : on initialise les poids intelligemment, on utilise des fonctions dâactivation robustes (comme ReLU) et on normalise les signaux (Batch Normalization) pour aplanir les irrĂ©gularitĂ©s de notre paysage dâerreurs.
La rĂ©solution des problĂšmes de gradient a Ă©tĂ© un tournant majeur qui a permis lâĂ©mergence des modĂšles massifs actuels. Lâenjeu principal est de transformer un paysage dâoptimisation mathĂ©matiquement accidentĂ© en une voie praticable et stable pour lâalgorithme dâapprentissage (Sun, Xu, and Li 2025; Bodin and Recher 2026c; Martens 2010).
đ Batch Normalization
- Fonction ReLU & Initialisation :
- Flux du gradient : Contrairement Ă SigmoĂŻde/TanH, ReLU ne sature pas pour les valeurs positives, maintenant un flux de gradient stable (iNeuron Intelligence 2026; Kumar 2017; Stanford University 2026).
- Initialisation des poids : Des techniques comme la Sparse Initialization (limitation des connexions non nulles par neurone) préviennent la saturation précoce (Stanford University 2026).
2.7.1 Batch Normalization
La Batch Normalization agit comme un rouleau compresseur qui aplanit la route : elle recentre et redimensionne les signaux Ă chaque couche pour que lâapprentissage se fasse sur une autoroute lisse plutĂŽt que sur un sentier de montagne chaotique.
La Batch Normalization (BN) (CodeSignal 2025a; Holbrook 2022; golmschenk 2016) est une technique introduite par Ioffe et Szegedy (2015) pour stabiliser et accĂ©lĂ©rer lâapprentissage. Son rĂŽle majeur est le lissage du paysage dâoptimisation, rendant la descente de gradient plus stable et plus rapide (semblable Ă une autoroute damĂ©e ou une piste bleue) (Ioffe and Szegedy 2015; Sarkar 2024; YouTube 2026b).
đą Formules de la Batch Normalization
Pour un mini-lot de prĂ©-activations \mathcal{B} = \{z_1, \dots, z_m\}, lâalgorithme normalise et met Ă lâĂ©chelle chaque valeur z_i (voir le Glossaire) :
Calcul de la moyenne du mini-lot : \mu_{\mathcal{B}} = \frac{1}{m} \sum_{i=1}^m z_i
Calcul de la variance du mini-lot : \sigma_{\mathcal{B}}^2 = \frac{1}{m} \sum_{i=1}^m (z_i - \mu_{\mathcal{B}})^2
Normalisation : \hat{z}_i = \frac{z_i - \mu_{\mathcal{B}}}{\sqrt{\sigma_{\mathcal{B}}^2 + \epsilon}}
Mise Ă lâĂ©chelle et dĂ©calage (Scaling & Shift) : \tilde{z}_i = \gamma \hat{z}_i + \beta
Guide des symboles :
- \mathcal{B} : le mini-lot (mini-batch) de donnĂ©es, câest-Ă -dire le sous-ensemble dâĂ©chantillons calculĂ©s simultanĂ©ment.
- m : la taille (nombre dâexemples) du mini-lot.
- \mu_{\mathcal{B}} (lettre grecque mu) : la moyenne des pré-activations sur le mini-lot.
- \sigma_{\mathcal{B}}^2 (lettre grecque sigma au carrĂ©) : la variance des prĂ©-activations sur le mini-lot (lâĂ©cart-type Ă©tant \sigma_{\mathcal{B}}).
- \hat{z}_i (âz-chapeauâ) : la valeur de prĂ©-activation normalisĂ©e (centrĂ©e sur 0 avec une variance de 1).
- \epsilon (lettre grecque epsilon) : une trÚs petite constante positive de stabilité numérique (pour éviter la division par zéro).
- \tilde{z}_i (âz-tildeâ) : la valeur finale aprĂšs normalisation, mise Ă lâĂ©chelle et dĂ©calage.
- \gamma (lettre grecque gamma) : le paramĂštre dâĂ©chelle (scaling) apprenable.
- \beta (lettre grecque bĂȘta) : le paramĂštre de dĂ©calage (shift) apprenable. (Note : Ă ne pas confondre avec le coefficient dâinertie de lâoptimiseur Adam ou le calendrier de bruit de diffusion).
- Intégration de la Batch Normalization :
- Ordre standard : \text{Linear} \to \text{BN} \to \text{Activation} (maximise la sensibilité de la non-linéarité).
- BĂ©nĂ©fices : Permet des taux dâapprentissage Ă©levĂ©s, rĂ©duit la dĂ©pendance Ă lâinitialisation des poids et rĂ©gularise lĂ©gĂšrement via les mini-lots.
đ LâApproche par Portes
Dans les rĂ©seaux rĂ©currents profonds (sĂ©quences longues), les architectures spĂ©cialisĂ©es introduisent des portes (gates) (comme dans le LSTM et GRU). Ces mĂ©canismes agissent comme des valves mathĂ©matiques contrĂŽlant le flux dâinformations :
- Elles permettent de prĂ©server lâinformation importante sur de longues distances temporelles.
- Elles crĂ©ent des voies rapides (lâĂ©tat de la cellule) oĂč le gradient peut sâĂ©couler sans attĂ©nuation, contournant ainsi structurellement la disparition du gradient (Bourdois 2019; Rosique 2017; ApX Machine Learning 2026; Le Scribouillard 2026).
Ces innovations ont permis dâindustrialiser les rĂ©seaux profonds pour des tĂąches complexes (NLP, planification urbaineâŠ) (Socher and Manning 2018; Wang et al. 2023; The Agility Effect 2025; Baraud-Serfaty 2019; Daoudi, Alfonso, and Cabot 2018).
graph LR
%% ThĂšme Solarized
classDef bg fill:var(--sol-base03),stroke:var(--sol-base01),stroke-width:2px,color:var(--sol-base0);
classDef gate fill:var(--accent-info),stroke:var(--sol-base03),stroke-width:2px,color:var(--sol-base3);
classDef cell fill:var(--accent-success),stroke:var(--sol-base03),stroke-width:2px,color:var(--sol-base3);
classDef forget fill:var(--accent-warning),stroke:var(--sol-base03),stroke-width:2px,color:var(--sol-base3);
X[Entrée X_t]:::bg --> Gate[Portes d'activation]:::gate
H_prev[Ătat CachĂ© H_t-1]:::bg --> Gate
C_prev[Cellule C_t-1 'Voie Rapide']:::bg --> Oubli(Porte d'oubli):::forget
Gate --> Oubli
Gate --> MiseAJour(Porte de mise Ă jour):::gate
Oubli --> C_next[Cellule C_t 'Voie Rapide']:::cell
MiseAJour --> C_next
C_next --> Sortie(Porte de sortie):::gate
Sortie --> H_next[Ătat CachĂ© H_t]:::bg
2.8 Limites Structurelles et Optimisation Continue
Bien que puissants, les rĂ©seaux de neurones classiques (MLP) ont leurs limites : ils manquent de sens de lâespace pour analyser les images (ce que rĂ©soudront les CNN) et de mĂ©moire pour analyser le texte ou les sĂ©ries temporelles (ce que rĂ©soudront les RNN et les Transformers).
MalgrĂ© sa polyvalence et son universalitĂ© thĂ©orique, le MLP souffre dâune myopie structurelle intrinsĂšque liĂ©e Ă sa connectivitĂ© totale. Comprendre ces limites est essentiel pour justifier lâĂ©mergence des architectures spĂ©cialisĂ©es qui font lâobjet des chapitres suivants (Auteur Collectif 2024; ResearchGate 2026).
2.8.1 LâincapacitĂ© Ă capturer les relations spatiales
Un rĂ©seau classique traite chaque pixel dâune image de façon isolĂ©e, sans comprendre quâun pixel voisin fait partie du mĂȘme objet, ce qui fait exploser le nombre de calculs nĂ©cessaires pour une simple photo.
Le MLP traite chaque dimension de lâentrĂ©e de maniĂšre indĂ©pendante et isotrope : il ne possĂšde aucun a priori sur la structure spatiale des donnĂ©es. Cette approche est catastrophique pour les images.
Pour une image en niveaux de gris de 100 \times 100 pixels (10\,000 entrĂ©es), un seul neurone de la premiĂšre couche cachĂ©e nĂ©cessite dĂ©jĂ 10\,000 poids. Une couche de 1\,000 neurones implique 10^7 paramĂštres pour la seule premiĂšre couche â et ce pour une image de rĂ©solution modeste. Ă 224 \times 224 pixels (rĂ©solution standard dâImageNet), le coĂ»t devient proprement rĂ©dhibitoire.
De plus, le MLP ignore la corrĂ©lation locale des pixels : deux pixels voisins ne sont pas traitĂ©s diffĂ©remment de deux pixels aux antipodes de lâimage. Cette indiffĂ©rence Ă la topologie spatiale est prĂ©cisĂ©ment ce que les CNN rĂ©solvent via la connectivitĂ© locale et le partage de poids.
2.8.2 La rigidité face aux données séquentielles
Les modĂšles classiques nâont aucune mĂ©moire : chaque mot dâune phrase est analysĂ© individuellement, ignorant complĂštement le contexte des mots prĂ©cĂ©dents.
En lâabsence de mĂ©canisme de rĂ©currence ou de mĂ©moire, le MLP traite chaque exemple de maniĂšre entiĂšrement indĂ©pendante. Pour une sĂ©quence de mots ou une sĂ©rie temporelle, chaque pas de temps est traitĂ© comme si le passĂ© nâexistait pas. Cette limitation fondamentale motive lâintroduction des RNN, LSTM et GRU (chapitre 3), puis des Transformers.
Il est important de noter que le MLP ne disparaĂźt pas pour autant dans les architectures modernes. Au cĆur mĂȘme des Transformers, un bloc Position-wise Feed-Forward Network (FFN) â structurellement identique Ă un MLP Ă deux couches avec activation GELU â traite chaque position de la sĂ©quence indĂ©pendamment aprĂšs le mĂ©canisme dâattention. Le MLP est donc un sous-composant universel des architectures les plus sophistiquĂ©es.
2.8.3 Planificateurs de taux dâapprentissage
Un taux dâapprentissage (LR) fixe est rarement optimal tout au long de lâentraĂźnement : trop Ă©levĂ©, il fait osciller la perte autour dâun minimum sans jamais converger ; trop bas, il piĂšge le rĂ©seau dans un minimum local mĂ©diocre (Dive into Deep Learning 2023; Chugani 2025; Frans 2023). Les planificateurs de LR (learning rate schedulers) adaptent dynamiquement ce taux au cours de lâentraĂźnement :
StepLR : RĂ©duit le LR dâun facteur multiplicatif \gamma (le coefficient de dĂ©croissance gamma) tous les k pas dâoptimisation (CodeSignal 2025b). Simple et prĂ©dictible mais nĂ©cessite un rĂ©glage manuel de k.
ReduceLROnPlateau : RĂ©duit le LR lorsque la mĂ©trique surveillĂ©e (typiquement la perte de validation) nâamĂ©liore plus depuis p Ă©poques. Adaptatif et particuliĂšrement robuste dans les pipelines de production.
CosineAnnealingLR : Fait dĂ©croĂźtre le LR selon un cosinus depuis \eta_{\max} jusquâĂ \eta_{\min} (oĂč la lettre grecque \eta [ĂȘta] reprĂ©sente le taux dâapprentissage), permettant un refroidissement progressif qui favorise la convergence vers des minima larges et plus gĂ©nĂ©ralisables.
Warmup + Decay : UtilisĂ© dans les Transformers, le LR monte linĂ©airement pendant quelques milliers de pas (warmup) puis dĂ©croĂźt selon 1/\sqrt{t}. Cela permet aux paramĂštres initiaux de se stabiliser avant dâappliquer de grandes mises Ă jour.
đ Comparateur de Planificateurs de Taux dâApprentissage
Ces planificateurs illustrent une rĂ©alitĂ© fondamentale de lâoptimisation profonde : le taux dâapprentissage nâest pas un hyperparamĂštre fixe, mais une trajectoire dans lâespace des paramĂštres. MaĂźtriser le MLP dans toute sa profondeur â architecture, activation, rĂ©tropropagation, normalisation et optimisation â constitue le prĂ©requis indispensable Ă lâĂ©tude des architectures spĂ©cialisĂ©es qui vont suivre.