2  🧠 RĂ©seaux de Neurones Profonds

2.1 Morphologie générale du réseau

Un rĂ©seau de neurones artificiels fonctionne comme une ligne d’assemblage en usine : les donnĂ©es d’entrĂ©e passent d’une couche de travailleurs (les couches cachĂ©es) Ă  une autre, chacun affinant et transformant la piĂšce jusqu’à ce que la couche de sortie dĂ©livre le produit fini.

L’apprentissage profond s’appuie sur une rĂ©volution architecturale oĂč la topologie mĂȘme du rĂ©seau dĂ©finit sa capacitĂ© Ă  capturer et traiter la complexitĂ© du monde rĂ©el. Le fonctionnement global de ce systĂšme peut ĂȘtre visualisĂ© comme une vaste toile d’araignĂ©e multicouche organisĂ©e de maniĂšre trĂšs rigoureuse (IBM 2026; Rivals et al. 1995; Djeffal 2026a).

  • La structure globale en “toile d’araignĂ©e” :

  • Cette architecture s’inspire initialement de l’efficacitĂ© et du traitement massivement parallĂšle du cerveau humain.

  • NĂ©anmoins, le rĂ©seau artificiel s’en dĂ©marque en Ă©tant une structure mathĂ©matique oĂč le flux d’informations est strictement dirigĂ© Ă  travers des couches discrĂštes.

  • Cette topologie est cruciale car elle permet de fragmenter un problĂšme global complexe en une succession de sous-problĂšmes rĂ©solubles localement (Blent.ai 2026; WikipĂ©dia 2026c; VergĂ© 2009).

  • La couche d’entrĂ©e (Input Layer) :

  • Elle constitue le point de contact direct avec le monde extĂ©rieur en rĂ©ceptionnant les vecteurs de caractĂ©ristiques bruts.

  • À titre d’exemple, si le rĂ©seau analyse une image, cette couche va rĂ©ceptionner l’information visuelle (comme des pixels) pour la transformer en un signal numĂ©rique initial (MonCoachData 2026; SITAMS 2026; MathWorks 2026).

  • Les couches cachĂ©es (Hidden Layers) :

  • Ces strates intermĂ©diaires reprĂ©sentent le cƓur du traitement de l’information et apportent la fameuse “profondeur” au rĂ©seau.

  • Le consensus acadĂ©mique considĂšre d’ailleurs que l’on entre dans le domaine du Deep Learning lorsqu’un rĂ©seau possĂšde au moins quatre de ces couches (IBM 2026; Serge 2020; Mezghani 2022).

  • Sans entrer dans le dĂ©tail de leurs composants, leur rĂŽle global est d’opĂ©rer un apprentissage hiĂ©rarchique : les premiĂšres strates dĂ©tectent des Ă©lĂ©ments trĂšs simples (comme des textures ou des bords), tandis que les strates suivantes synthĂ©tisent ces Ă©lĂ©ments pour identifier des concepts de plus en plus abstraits (Bodin and Recher 2026a; Elements of AI 2026; YouTube 2026a).

  • La couche de sortie (Output Layer) :

  • C’est l’ultime Ă©tape du rĂ©seau, celle qui est chargĂ©e de produire la rĂ©ponse brute ou l’infĂ©rence finale.

  • Dans des scĂ©narios de classification, elle utilise des mĂ©canismes (comme la fonction Softmax) pour transformer les signaux reçus en une distribution de probabilitĂ©s dont la somme est Ă©gale Ă  1, garantissant ainsi un rĂ©sultat clair oĂč les catĂ©gories sont mutuellement exclusives (Ultralytics 2026b; DataFranca 2026).

đŸ•žïž Simulateur de Flux d’Information — RĂ©seau Multicouche (RMN)

  • Lancer
  • Pause
  • Reset

RĂ©seau au repos — En attente d’informations.

2.2 Anatomie du neurone artificiel

Un neurone artificiel est une petite calculatrice qui prend plusieurs informations en entrĂ©e, leur donne plus ou moins d’importance (les poids), ajoute une tendance de base (le biais), puis fait la somme de tout cela pour dĂ©cider s’il transmet le signal.

Le neurone artificiel constitue l’atome de calcul fondamental de tout rĂ©seau de neurones (WikipĂ©dia 2026b; Djeffal 2026a). Sa force rĂ©side dans l’application des concepts de poids (w) et de biais (b) — dĂ©jĂ  introduits au chapitre 1 dans le cadre de l’optimisation gĂ©nĂ©rale — Ă  l’échelle d’une unitĂ© de calcul unique. Pour en comprendre le fonctionnement de maniĂšre intuitive, on peut l’imaginer comme un magasin connectĂ© situĂ© au cƓur d’une mĂ©tropole complexe.

  • L’analogie du magasin connectĂ© Ă  la ville : Dans cette mĂ©tropole, notre neurone est une enseigne commerciale dont les flux d’entrĂ©e proviennent de diffĂ©rents quartiers (les entrĂ©es x_i). Le but est de centraliser ces flux pour gĂ©nĂ©rer un indicateur global.
  • Les Poids (Weights) — Voies d’accĂšs et trafic : Les poids (w_i) modulent l’importance de chaque entrĂ©e (EITCA Academy 2026; Djeffal 2026b; SITAMS 2026). Ils reprĂ©sentent l’état et la capacitĂ© des routes menant au magasin. Une route large et fluide possĂšde un poids Ă©levĂ© ; une route fermĂ©e ou dĂ©gradĂ©e possĂšde un poids proche de zĂ©ro, neutralisant l’influence du signal.
  • Le Biais (Bias) — Chiffre d’affaires de base : Le biais (b) s’apparente au revenu minimal garanti du magasin (EITCA Academy 2026; Inconnu 2026a). Il dĂ©cale l’activation pour dĂ©finir le niveau d’excitation minimal requis pour que le neurone transmette un signal, mĂȘme lorsque les entrĂ©es sont nulles.
  • La Sommation PondĂ©rĂ©e — SynthĂšse de l’unitĂ© de calcul : Le neurone combine ces Ă©lĂ©ments en effectuant la sommation pondĂ©rĂ©e de l’ensemble de ces signaux routiers pour obtenir la prĂ©-activation (le rĂ©sultat intermĂ©diaire avant filtrage non linĂ©aire) (Bodin and Recher 2026a; Buzer 2022).

Le calcul de la sommation pondĂ©rĂ©e s’écrit :

h = \sum_{i} w_i x_i + b (voir le Glossaire)

  • h : la valeur de prĂ©-activation (la somme pondĂ©rĂ©e brute accumulĂ©e par le neurone avant d’appliquer la fonction d’activation).
  • \sum_{i} : le symbole de sommation, indiquant que l’on additionne les contributions de toutes les entrĂ©es indexĂ©es par i.
  • x_i : le signal de la i-Ăšme entrĂ©e.
  • w_i : le poids synaptique associĂ© Ă  la i-Ăšme entrĂ©e.
  • b : le biais (valeur de dĂ©calage).

🧠 Simulateur — Anatomie du Neurone Artificiel

2.3 Propagation avant (Forward Propagation)

La propagation avant est le voyage aller des donnĂ©es Ă  travers le rĂ©seau : elles entrent sous forme brute d’un cĂŽtĂ© (comme les pixels d’une image), sont transformĂ©es Ă  chaque Ă©tape par les calculs des neurones, et ressortent de l’autre cĂŽtĂ© sous forme de prĂ©diction (comme le nom de l’objet sur l’image).

La propagation avant constitue le flux tensorial unidirectionnel qui transforme une entrĂ©e brute en une prĂ©diction (Innovatiana 2026). C’est la phase d’infĂ©rence pure, oĂč le rĂ©seau dĂ©ploie sa structure et sa comprĂ©hension acquise pour interprĂ©ter de nouvelles activations.

  • Le processus de sommation pondĂ©rĂ©e : À chaque couche, les neurones reçoivent les activations de la couche prĂ©cĂ©dente. Le rĂ©seau calcule systĂ©matiquement les produits scalaires entre les poids et ces activations pour obtenir la combinaison linĂ©aire avant l’étape de filtrage (Bodin and Recher 2026b) : h = \sum_{i} w_i x_i + b.

2.3.1 Formalisme vectoriel et vectorisation

Pour tirer parti de l’accĂ©lĂ©ration matĂ©rielle des GPU, on reformule ces calculs individuels sous forme matricielle. L’ensemble d’une couche se calcule en une seule opĂ©ration, ce qui permet aux GPU d’effectuer des milliers de calculs en parallĂšle et rend l’entraĂźnement de rĂ©seaux profonds faisable (Nielsen 2019).

Le calcul vectorisĂ© pour une couche l s’écrit :

\mathbf{a}^l = \sigma\!\left(\mathbf{W}^l \mathbf{a}^{l-1} + \mathbf{b}^l\right) (voir le Glossaire)

  • Lettres grasses (ex: \mathbf{a}, \mathbf{W}, \mathbf{b}) : dĂ©signent des tenseurs (vecteurs ou matrices) plutĂŽt que des nombres isolĂ©s (scalaires).
  • L’exposant l (ex: \mathbf{a}^l) : indique la couche du rĂ©seau de neurones Ă  laquelle la variable appartient.
  • \mathbf{a}^l : le vecteur d’activations de la couche l.
  • \mathbf{W}^l \in \mathbb{R}^{n_l \times n_{l-1}} : la matrice des poids de la couche l.
    • Le symbole \in signifie “appartient à”.
    • \mathbb{R}^{n_l \times n_{l-1}} reprĂ©sente l’espace des matrices de nombres rĂ©els Ă  n_l lignes (nombre de neurones de la couche l) et n_{l-1} colonnes (nombre de neurones de la couche prĂ©cĂ©dente l-1).
  • \mathbf{a}^{l-1} : le vecteur d’activations de la couche prĂ©cĂ©dente l-1 (la couche \mathbf{a}^0 correspondant Ă  l’entrĂ©e \mathbf{x}).
  • \mathbf{b}^l : le vecteur des biais de la couche l.
  • \sigma (lettre grecque sigma) : la fonction d’activation, appliquĂ©e Ă©lĂ©ment par Ă©lĂ©ment sur le vecteur de prĂ©-activation.
  • L’impĂ©ratif de la non-linĂ©aritĂ© : Appliquer une fonction d’activation non linĂ©aire empĂȘche le rĂ©seau de s’effondrer mathĂ©matiquement en une simple rĂ©gression linĂ©aire (YouTube 2026d; Inconnu 2026a). Cette non-linĂ©aritĂ© lui permet de modĂ©liser les motifs complexes et les ruptures de la rĂ©alitĂ©.
  • La transformation progressive des donnĂ©es : À travers ce chaĂźnage alternĂ© d’opĂ©rations, les donnĂ©es transitent d’un Ă©tat brut (ex: pixels) Ă  des reprĂ©sentations abstraites de plus en plus sĂ©mantiques jusqu’à la sortie finale (Cloudflare 2026).

⚡ Simulateur — Propagation Avant couche par couche

2.4 Rétropropagation (Backpropagation)

La rĂ©tropropagation est le voyage retour de l’erreur : une fois la prĂ©diction faite, le rĂ©seau calcule l’écart avec la bonne rĂ©ponse et remonte Ă  l’envers Ă  travers toutes ses couches pour distribuer la responsabilitĂ© de l’erreur Ă  chaque neurone (grĂące Ă  la rĂšgle de la chaĂźne).

La rĂ©tropropagation est vĂ©ritablement le moteur algorithmique de l’apprentissage. Si la propagation avant dĂ©finit la vision ou la prĂ©diction actuelle du rĂ©seau, la rĂ©tropropagation (ou passage arriĂšre) est le mĂ©canisme par lequel le systĂšme Ă©value ses propres lacunes pour s’amĂ©liorer. Historiquement, bien que ce concept ait Ă©tĂ© popularisĂ© en 1986 par Rumelhart, Hinton et Williams, sa genĂšse remonte Ă  1970 grĂące aux travaux de Seppo Linnainmaa (WikipĂ©dia 2026d; Espinasse 2008). Ce mĂ©canisme permet au rĂ©seau d’ajuster ses paramĂštres internes en fonction de l’erreur qu’il vient de commettre.

Pour calculer la contribution d’un poids w d’une couche intermĂ©diaire Ă  l’erreur finale \mathcal{L}, on multiplie les dĂ©rivĂ©es partielles le long du chemin de propagation :

\frac{\partial \mathcal{L}}{\partial w} = \frac{\partial \mathcal{L}}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial w} (voir le Glossaire)

  • \partial (symbole de dĂ©rivation partielle) : reprĂ©sente la sensibilitĂ© d’une fonction aux variations d’une seule variable (ex: \frac{\partial \mathcal{L}}{\partial w} mesure la variation de la perte globale \mathcal{L} lorsque le poids w change, toutes les autres variables Ă©tant fixes).
  • \mathcal{L} : la fonction de perte (loss).
  • a : l’activation de sortie du neurone (a = \sigma(z)).
  • z : la valeur intermĂ©diaire de prĂ©-activation (z = w \cdot x + b).
  • \sigma'(z) : la dĂ©rivĂ©e premiĂšre de la fonction d’activation \sigma (le symbole prime ' indiquant la dĂ©rivĂ©e).
  • x : la valeur d’entrĂ©e connectĂ©e Ă  ce poids.

đŸ•žïž RĂ©seau de Neurones

Les entrées sont pondérées, sommées (Σ), puis filtrées par ReLU. Ajustez les paramÚtres dans la barre de contrÎles ci-dessus.

L’inspecteur remonte Ă  l’envers : il distribue la responsabilitĂ© de l’erreur proportionnellement au trafic (rĂšgle de la chaĂźne).

Le “Budget Travaux” corrige proportionnellement les poids. Modifiez le taux d’apprentissage ci-dessus pour observer l’amplitude des corrections.

2.5 Les fonctions d’activation en dĂ©tail

Les fonctions d’activation sont les interrupteurs du rĂ©seau : elles dĂ©cident si le signal d’un neurone est assez fort pour ĂȘtre transmis Ă  la couche suivante, tout en tordant la rĂ©alitĂ© mathĂ©matique pour modĂ©liser des courbes plutĂŽt que de simples lignes droites.

Les fonctions d’activation agissent comme des interrupteurs ou des variateurs, dictant la dynamique de transmission du signal au sein du rĂ©seau (Momotoculteur 2026a; Daniella 2024). Elles sont le cƓur de la non-linĂ©aritĂ© et se divisent en deux grandes familles.

  • Les fonctions classiques et leurs limitations :
    • SigmoĂŻde & TanH : Courbes en “S” d’inspiration biologique. Elles saturent aux valeurs extrĂȘmes, ce qui paralyse l’apprentissage en bloquant le gradient (Research Archive of Rising Scholars 2026).
    • ReLU (Rectified Linear Unit) : Simple et rapide (\max(0, x)), elle Ă©vite la saturation positive mais souffre du “Dying ReLU” (extinction dĂ©finitive de neurones) (YouTube 2026d; Stanford CS231n 2026; Ultralytics 2026a).
    • Softmax : UtilisĂ©e en sortie pour convertir des scores bruts en distribution de probabilitĂ©s sur des classes mutuellement exclusives (Ultralytics 2026b).
  • Saturation du Gradient : Pour de trĂšs grandes ou trĂšs petites valeurs de x, la dĂ©rivĂ©e de SigmoĂŻde et TanH tend vers 0. Lors de la rĂ©tropropagation, ce terme multiplicatif annule le gradient, empĂȘchant la mise Ă  jour des poids prĂ©cĂ©dents.
  • ProblĂšme du “Dying ReLU” : Si un neurone ReLU reçoit une entrĂ©e nĂ©gative, son gradient est nul. Si ce cas se gĂ©nĂ©ralise (poids mal initialisĂ©s ou taux d’apprentissage trop Ă©levĂ©), le neurone s’éteint dĂ©finitivement.

⚡ Simulateur des Fonctions d’Activation Classiques

📈 Courbes d’Activation

  • Les fonctions modernes :

    Ces fonctions plus récentes (comme GELU ou Swish) évitent les pannes sÚches en laissant passer une petite partie du signal négatif de maniÚre plus fluide.

    • GELU (Gaussian Error Linear Unit) : Fonction probabiliste douce pondĂ©rant le signal nĂ©gatif, pilier des Transformers car elle maintient un flux de gradient fluide (YouTube 2026c; WikipĂ©dia 2026e; Cortial 2026).
    • SELU (Scaled Exponential Linear Unit) : Conçue pour introduire des propriĂ©tĂ©s auto-normalisantes, permettant aux rĂ©seaux profonds de converger sans normalisation externe (Inconnu 2026b; Stanford University 2026).
    • Swish : Version lissĂ©e de ReLU qui laisse passer les petites valeurs nĂ©gatives pour Ă©viter les coupures abruptes (Lim 2026).
  • GELU et ProbabilitĂ© : Elle multiplie l’entrĂ©e x par la fonction de rĂ©partition d’une loi normale standard \Phi(x). Le neurone est donc activĂ© de maniĂšre dĂ©terministe mais selon son importance probabiliste relative.
  • Auto-normalisation (SELU) : En combinant un facteur d’échelle \lambda et un paramĂštre \alpha sur une fonction ELU, SELU garantit que si la moyenne et la variance des activations d’une couche sont proches de 0 et 1, elles le restent aprĂšs passage dans la couche suivante.

La fonction Swish s’écrit :

f(x) = x \cdot \text{sigmoid}(\beta x) = \frac{x}{1 + e^{-\beta x}}

OĂč \beta est un paramĂštre constant ou entraĂźnable. Lorsque \beta = 1, la fonction est Ă©galement appelĂ©e SiLU (Sigmoid Linear Unit).

✹ Simulateur des Fonctions d’Activation Modernes

📈 Courbes d’Activation (Modernes)

2.6 Le problĂšme du gradient (Vanishing / Exploding)

Dans un rĂ©seau trĂšs profond, le message d’erreur peut se perdre en route : soit il s’attĂ©nue Ă  chaque Ă©tape jusqu’à disparaĂźtre (la disparition du gradient, comme un chuchotement rĂ©pĂ©tĂ© 10 fois), soit il s’amplifie de maniĂšre dĂ©mesurĂ©e jusqu’à tout saturer (l’explosion du gradient, comme un cri amplifiĂ© Ă  chaque relais).

L’entraĂźnement des rĂ©seaux profonds se heurte souvent Ă  ce que l’on pourrait qualifier de “stabilitĂ© instable”. Lors de la phase de rĂ©tropropagation, la multiplication successive des gradients Ă  travers les nombreuses couches du rĂ©seau peut mener Ă  des phĂ©nomĂšnes critiques : leur disparition ou leur explosion (Sun, Xu, and Li 2025; GeeksforGeeks 2026b; Wikipedia 2026).

  • Le mĂ©canisme du gradient (Vanishing & Exploding) : Lors de la rĂ©tropropagation, calculer les gradients des premiĂšres couches nĂ©cessite de multiplier les dĂ©rivĂ©es des fonctions d’activation et les poids des couches suivantes en cascade (rĂšgle de la chaĂźne).
    • Disparition (Vanishing) : Si ces termes sont infĂ©rieurs Ă  1 (ex: avec la fonction SigmoĂŻde), le produit tend exponentiellement vers zĂ©ro, bloquant l’apprentissage des premiĂšres couches (Research Archive of Rising Scholars 2026).
    • Explosion (Exploding) : Si ces termes sont supĂ©rieurs Ă  1, le produit grandit de maniĂšre exponentielle, rendant les mises Ă  jour chaotiques et dĂ©stabilisant le modĂšle (GeeksforGeeks 2026b, 2026a).

Dans un rĂ©seau Ă  L couches, le gradient de la perte par rapport Ă  un poids w^1 de la premiĂšre couche s’exprime sous la forme d’un produit :

\frac{\partial \mathcal{L}}{\partial w^1} = \frac{\partial \mathcal{L}}{\partial a^L} \cdot \left( \prod_{k=2}^{L} w^k \sigma'(z^{k-1}) \right) \sigma'(z^1) x^0

Si \forall k, |w^k \sigma'(z^{k-1})| < 1, alors le terme de produit \prod_{k=2}^{L} tend vers 0 lorsque L augmente (gradients évanescents). Si \forall k, |w^k \sigma'(z^{k-1})| > 1, alors ce terme grandit exponentiellement (gradients explosifs).

  • Illustration par la transmission de la parole :
    • Évanouissement : Si 10 personnes se chuchotent un message en divisant le volume par deux Ă  chaque Ă©tape (dĂ©rivĂ©e de 0.5), la derniĂšre personne recevra 0.5^{10} \approx 0.001 du signal initial. Le message devient inaudible.
    • Explosion : Si chaque personne double le volume reçu (dĂ©rivĂ©e de 2), la derniĂšre personne Ă©mettra un signal 2^{10} = 1024 fois plus fort. Le message est saturĂ© et dĂ©formĂ©.

2.7 Solutions Ă  la disparition du gradient et optimisation du paysage

Pour rendre l’apprentissage stable et rapide, on applique plusieurs astuces : on initialise les poids intelligemment, on utilise des fonctions d’activation robustes (comme ReLU) et on normalise les signaux (Batch Normalization) pour aplanir les irrĂ©gularitĂ©s de notre paysage d’erreurs.

La rĂ©solution des problĂšmes de gradient a Ă©tĂ© un tournant majeur qui a permis l’émergence des modĂšles massifs actuels. L’enjeu principal est de transformer un paysage d’optimisation mathĂ©matiquement accidentĂ© en une voie praticable et stable pour l’algorithme d’apprentissage (Sun, Xu, and Li 2025; Bodin and Recher 2026c; Martens 2010).

📊 Batch Normalization

  • Fonction ReLU & Initialisation :

2.7.1 Batch Normalization

La Batch Normalization agit comme un rouleau compresseur qui aplanit la route : elle recentre et redimensionne les signaux à chaque couche pour que l’apprentissage se fasse sur une autoroute lisse plutît que sur un sentier de montagne chaotique.

La Batch Normalization (BN) (CodeSignal 2025a; Holbrook 2022; golmschenk 2016) est une technique introduite par Ioffe et Szegedy (2015) pour stabiliser et accĂ©lĂ©rer l’apprentissage. Son rĂŽle majeur est le lissage du paysage d’optimisation, rendant la descente de gradient plus stable et plus rapide (semblable Ă  une autoroute damĂ©e ou une piste bleue) (Ioffe and Szegedy 2015; Sarkar 2024; YouTube 2026b).

Pour un mini-lot de prĂ©-activations \mathcal{B} = \{z_1, \dots, z_m\}, l’algorithme normalise et met Ă  l’échelle chaque valeur z_i (voir le Glossaire) :

  1. Calcul de la moyenne du mini-lot : \mu_{\mathcal{B}} = \frac{1}{m} \sum_{i=1}^m z_i

  2. Calcul de la variance du mini-lot : \sigma_{\mathcal{B}}^2 = \frac{1}{m} \sum_{i=1}^m (z_i - \mu_{\mathcal{B}})^2

  3. Normalisation : \hat{z}_i = \frac{z_i - \mu_{\mathcal{B}}}{\sqrt{\sigma_{\mathcal{B}}^2 + \epsilon}}

  4. Mise Ă  l’échelle et dĂ©calage (Scaling & Shift) : \tilde{z}_i = \gamma \hat{z}_i + \beta

Guide des symboles :

  • \mathcal{B} : le mini-lot (mini-batch) de donnĂ©es, c’est-Ă -dire le sous-ensemble d’échantillons calculĂ©s simultanĂ©ment.
  • m : la taille (nombre d’exemples) du mini-lot.
  • \mu_{\mathcal{B}} (lettre grecque mu) : la moyenne des prĂ©-activations sur le mini-lot.
  • \sigma_{\mathcal{B}}^2 (lettre grecque sigma au carrĂ©) : la variance des prĂ©-activations sur le mini-lot (l’écart-type Ă©tant \sigma_{\mathcal{B}}).
  • \hat{z}_i (“z-chapeau”) : la valeur de prĂ©-activation normalisĂ©e (centrĂ©e sur 0 avec une variance de 1).
  • \epsilon (lettre grecque epsilon) : une trĂšs petite constante positive de stabilitĂ© numĂ©rique (pour Ă©viter la division par zĂ©ro).
  • \tilde{z}_i (“z-tilde”) : la valeur finale aprĂšs normalisation, mise Ă  l’échelle et dĂ©calage.
  • \gamma (lettre grecque gamma) : le paramĂštre d’échelle (scaling) apprenable.
  • \beta (lettre grecque bĂȘta) : le paramĂštre de dĂ©calage (shift) apprenable. (Note : Ă  ne pas confondre avec le coefficient d’inertie de l’optimiseur Adam ou le calendrier de bruit de diffusion).
  • IntĂ©gration de la Batch Normalization :
    • Ordre standard : \text{Linear} \to \text{BN} \to \text{Activation} (maximise la sensibilitĂ© de la non-linĂ©aritĂ©).
    • BĂ©nĂ©fices : Permet des taux d’apprentissage Ă©levĂ©s, rĂ©duit la dĂ©pendance Ă  l’initialisation des poids et rĂ©gularise lĂ©gĂšrement via les mini-lots.

Dans les rĂ©seaux rĂ©currents profonds (sĂ©quences longues), les architectures spĂ©cialisĂ©es introduisent des portes (gates) (comme dans le LSTM et GRU). Ces mĂ©canismes agissent comme des valves mathĂ©matiques contrĂŽlant le flux d’informations :

  • Elles permettent de prĂ©server l’information importante sur de longues distances temporelles.
  • Elles crĂ©ent des voies rapides (l’état de la cellule) oĂč le gradient peut s’écouler sans attĂ©nuation, contournant ainsi structurellement la disparition du gradient (Bourdois 2019; Rosique 2017; ApX Machine Learning 2026; Le Scribouillard 2026).

Ces innovations ont permis d’industrialiser les rĂ©seaux profonds pour des tĂąches complexes (NLP, planification urbaine
) (Socher and Manning 2018; Wang et al. 2023; The Agility Effect 2025; Baraud-Serfaty 2019; Daoudi, Alfonso, and Cabot 2018).

graph LR
    %% ThĂšme Solarized
    classDef bg fill:var(--sol-base03),stroke:var(--sol-base01),stroke-width:2px,color:var(--sol-base0);
    classDef gate fill:var(--accent-info),stroke:var(--sol-base03),stroke-width:2px,color:var(--sol-base3);
    classDef cell fill:var(--accent-success),stroke:var(--sol-base03),stroke-width:2px,color:var(--sol-base3);
    classDef forget fill:var(--accent-warning),stroke:var(--sol-base03),stroke-width:2px,color:var(--sol-base3);

    X[Entrée X_t]:::bg --> Gate[Portes d'activation]:::gate
    H_prev[État CachĂ© H_t-1]:::bg --> Gate
    C_prev[Cellule C_t-1 'Voie Rapide']:::bg --> Oubli(Porte d'oubli):::forget

    Gate --> Oubli
    Gate --> MiseAJour(Porte de mise Ă  jour):::gate

    Oubli --> C_next[Cellule C_t 'Voie Rapide']:::cell
    MiseAJour --> C_next
    C_next --> Sortie(Porte de sortie):::gate
    Sortie --> H_next[État CachĂ© H_t]:::bg

2.8 Limites Structurelles et Optimisation Continue

Bien que puissants, les rĂ©seaux de neurones classiques (MLP) ont leurs limites : ils manquent de sens de l’espace pour analyser les images (ce que rĂ©soudront les CNN) et de mĂ©moire pour analyser le texte ou les sĂ©ries temporelles (ce que rĂ©soudront les RNN et les Transformers).

MalgrĂ© sa polyvalence et son universalitĂ© thĂ©orique, le MLP souffre d’une myopie structurelle intrinsĂšque liĂ©e Ă  sa connectivitĂ© totale. Comprendre ces limites est essentiel pour justifier l’émergence des architectures spĂ©cialisĂ©es qui font l’objet des chapitres suivants (Auteur Collectif 2024; ResearchGate 2026).

2.8.1 L’incapacitĂ© Ă  capturer les relations spatiales

Un rĂ©seau classique traite chaque pixel d’une image de façon isolĂ©e, sans comprendre qu’un pixel voisin fait partie du mĂȘme objet, ce qui fait exploser le nombre de calculs nĂ©cessaires pour une simple photo.

Le MLP traite chaque dimension de l’entrĂ©e de maniĂšre indĂ©pendante et isotrope : il ne possĂšde aucun a priori sur la structure spatiale des donnĂ©es. Cette approche est catastrophique pour les images.

Pour une image en niveaux de gris de 100 \times 100 pixels (10\,000 entrĂ©es), un seul neurone de la premiĂšre couche cachĂ©e nĂ©cessite dĂ©jĂ  10\,000 poids. Une couche de 1\,000 neurones implique 10^7 paramĂštres pour la seule premiĂšre couche — et ce pour une image de rĂ©solution modeste. À 224 \times 224 pixels (rĂ©solution standard d’ImageNet), le coĂ»t devient proprement rĂ©dhibitoire.

De plus, le MLP ignore la corrĂ©lation locale des pixels : deux pixels voisins ne sont pas traitĂ©s diffĂ©remment de deux pixels aux antipodes de l’image. Cette indiffĂ©rence Ă  la topologie spatiale est prĂ©cisĂ©ment ce que les CNN rĂ©solvent via la connectivitĂ© locale et le partage de poids.

2.8.2 La rigidité face aux données séquentielles

Les modĂšles classiques n’ont aucune mĂ©moire : chaque mot d’une phrase est analysĂ© individuellement, ignorant complĂštement le contexte des mots prĂ©cĂ©dents.

En l’absence de mĂ©canisme de rĂ©currence ou de mĂ©moire, le MLP traite chaque exemple de maniĂšre entiĂšrement indĂ©pendante. Pour une sĂ©quence de mots ou une sĂ©rie temporelle, chaque pas de temps est traitĂ© comme si le passĂ© n’existait pas. Cette limitation fondamentale motive l’introduction des RNN, LSTM et GRU (chapitre 3), puis des Transformers.

Il est important de noter que le MLP ne disparaĂźt pas pour autant dans les architectures modernes. Au cƓur mĂȘme des Transformers, un bloc Position-wise Feed-Forward Network (FFN) — structurellement identique Ă  un MLP Ă  deux couches avec activation GELU — traite chaque position de la sĂ©quence indĂ©pendamment aprĂšs le mĂ©canisme d’attention. Le MLP est donc un sous-composant universel des architectures les plus sophistiquĂ©es.

2.8.3 Planificateurs de taux d’apprentissage

Un taux d’apprentissage (LR) fixe est rarement optimal tout au long de l’entraĂźnement : trop Ă©levĂ©, il fait osciller la perte autour d’un minimum sans jamais converger ; trop bas, il piĂšge le rĂ©seau dans un minimum local mĂ©diocre (Dive into Deep Learning 2023; Chugani 2025; Frans 2023). Les planificateurs de LR (learning rate schedulers) adaptent dynamiquement ce taux au cours de l’entraĂźnement :

  • StepLR : RĂ©duit le LR d’un facteur multiplicatif \gamma (le coefficient de dĂ©croissance gamma) tous les k pas d’optimisation (CodeSignal 2025b). Simple et prĂ©dictible mais nĂ©cessite un rĂ©glage manuel de k.

  • ReduceLROnPlateau : RĂ©duit le LR lorsque la mĂ©trique surveillĂ©e (typiquement la perte de validation) n’amĂ©liore plus depuis p Ă©poques. Adaptatif et particuliĂšrement robuste dans les pipelines de production.

  • CosineAnnealingLR : Fait dĂ©croĂźtre le LR selon un cosinus depuis \eta_{\max} jusqu’à \eta_{\min} (oĂč la lettre grecque \eta [ĂȘta] reprĂ©sente le taux d’apprentissage), permettant un refroidissement progressif qui favorise la convergence vers des minima larges et plus gĂ©nĂ©ralisables.

  • Warmup + Decay : UtilisĂ© dans les Transformers, le LR monte linĂ©airement pendant quelques milliers de pas (warmup) puis dĂ©croĂźt selon 1/\sqrt{t}. Cela permet aux paramĂštres initiaux de se stabiliser avant d’appliquer de grandes mises Ă  jour.

📉 Comparateur de Planificateurs de Taux d’Apprentissage

Ces planificateurs illustrent une rĂ©alitĂ© fondamentale de l’optimisation profonde : le taux d’apprentissage n’est pas un hyperparamĂštre fixe, mais une trajectoire dans l’espace des paramĂštres. MaĂźtriser le MLP dans toute sa profondeur — architecture, activation, rĂ©tropropagation, normalisation et optimisation — constitue le prĂ©requis indispensable Ă  l’étude des architectures spĂ©cialisĂ©es qui vont suivre.