📖 Glossaire & Notations Mathématiques

Ce glossaire regroupe les termes techniques, abréviations et notations mathématiques abordés tout au long du cours. Il est conçu comme une référence rapide pour faire le lien entre la théorie et l’implémentation.

Termes Techniques et Concepts

A

Actor-Critic (Acteur-Critique) : Architecture d’apprentissage par renforcement où le modèle est divisé en deux parties : l’Acteur (qui choisit les actions) et le Critique (qui évalue ces actions). Voir cours (Typologie).
Apprentissage Supervisé (Supervised Learning) : Type d’apprentissage automatique où le modèle apprend à partir d’exemples étiquetés (contenant l’entrée et la sortie attendue). Voir cours (Typologie).
Apprentissage Non Supervisé (Unsupervised Learning) : Type d’apprentissage automatique où le modèle cherche des structures ou regroupements cachés dans des données non étiquetées. Voir cours (Typologie).
Apprentissage par Renforcement Profond (Deep Reinforcement Learning - DRL) : Combinaison de l’apprentissage par renforcement et du deep learning, où un agent apprend à prendre des décisions optimales par essai-erreur en maximisant des récompenses grâce à des réseaux de neurones. Voir cours (Typologie).
Apprentissage par Transfert (Transfer Learning) : Méthode consistant à réutiliser un modèle pré-entraîné sur une tâche source volumineuse comme point de départ pour l’entraîner sur une tâche cible similaire mais avec moins de données. Voir cours (Finetuning).
Attention (Self-Attention / Multi-Head Attention) : Mécanisme permettant à un modèle de se focaliser sur différentes parties d’une séquence d’entrée pour calculer sa représentation, indépendamment de la distance entre les éléments. Voir cours (Attention).
Autoencodeur Variationnel (VAE - Variational Autoencoder) : Modèle génératif probabiliste qui compresse les données d’entrée dans un espace latent continu et structuré, permettant ensuite de générer de nouvelles données réalistes en échantillonnant cet espace. Voir cours (VAE).

B

Backpropagation (Rétropropagation du gradient) : Algorithme central du Deep Learning qui calcule les gradients de l’erreur par rapport à chaque poids du réseau, de la couche de sortie vers la couche d’entrée, afin d’ajuster les paramètres. Voir cours (Rétropropagation).
BERT (Bidirectional Encoder Representations from Transformers) : Modèle de langage pré-entraîné par Google, basé sur l’encodeur du Transformer, conçu pour comprendre le contexte bidirectionnel d’un mot dans une phrase. Voir cours (Embeddings de position).

C

Clustering : Technique non supervisée visant à regrouper les individus d’un dataset en plusieurs groupes (clusters) homogènes selon leur similarité. Voir cours (Typologie).
CNN (Convolutional Neural Network / Réseau de neurones convolutif) : Architecture de réseau de neurones spécialisée dans le traitement de données à grille spatiale (comme les images), utilisant des opérations de convolution pour extraire automatiquement des caractéristiques locales. Voir cours (Convolution).
Connexion Résiduelle (Residual / Skip Connection) : Connexion qui court-circuite une ou plusieurs couches en ajoutant directement l’entrée à la sortie de ces couches, facilitant la propagation des gradients dans les réseaux très profonds (introduite par ResNet). Voir cours (Architectures).
Connexions Denses (Dense Connections) : Motif d’architecture (utilisé dans DenseNet) où chaque couche reçoit en entrée les cartes de caractéristiques de toutes les couches précédentes, favorisant la réutilisation des caractéristiques et le flux d’informations. Voir cours (Architectures).

D

Descente de Gradient (Gradient Descent) : Algorithme d’optimisation utilisé pour minimiser la fonction de coût d’un modèle en ajustant ses poids pas à pas dans le sens inverse du gradient. Voir cours (Gradient).
Diffusion (Modèle de Diffusion / DDPM) : Classe de modèles génératifs qui apprennent à débruiter progressivement des données à partir d’un bruit gaussien pur pour générer de nouveaux échantillons réalistes. Voir cours (DDPM).

E

Espace Latent (Latent Space) : Espace vectoriel de dimension réduite dans lequel un modèle projette et organise des données complexes, capturant leurs caractéristiques intrinsèques les plus importantes. Voir cours (Autoencodeur).

F

Fine-tuning (Ajustement fin) : Processus consistant à réentraîner légèrement un modèle pré-entraîné sur un nouvel ensemble de données plus restreint pour l’adapter à une tâche spécifique. Voir cours (Finetuning).
Fine-tuning par Instruction (Instruction Fine-Tuning - IFT) : Technique consistant à entraîner un LLM sur des paires d’instructions et de réponses attendues afin qu’il atteigne le niveau requis pour suivre des consignes conversationnelles. Voir cours (Finetuning).
Fonction d’Activation (Activation Function) : Fonction mathématique introduisant une non-linéarité dans le neurone (ex: ReLU, Sigmoïde, Softmax), lui permettant de modéliser des relations complexes. Voir cours (Activation).
Fonction de Coût (Loss Function) : Formule calculant l’écart ou la pénalité entre la prédiction du modèle et la valeur réelle attendue. Voir cours (Gradient).

G

GAN (Generative Adversarial Network / Réseau antagoniste génératif) : Architecture composée de deux réseaux de neurones (un générateur et un discriminateur) s’entraînant mutuellement dans un cadre de théorie des jeux pour générer de nouvelles données réalistes. Voir cours (GANs).
Générateur / Discriminateur (Generator / Discriminator) : Les deux composants clés d’un GAN : le générateur crée de fausses données pour tromper le discriminateur, tandis que le discriminateur apprend à distinguer les vraies données des fausses. Voir cours (GANs).
GPT (Generative Pre-trained Transformer) : Famille de grands modèles de langage développés par OpenAI, basés sur le décodeur du Transformer et entraînés de manière autoregressive pour prédire le mot suivant. Voir cours (Embeddings de position).
GRU (Gated Recurrent Unit) : Variante simplifiée des LSTM conçue pour traiter les données séquentielles avec moins de paramètres tout en limitant le problème de disparition du gradient. Voir cours (GRU).

I

Initialisation des poids (Weight Initialization) : Choix des valeurs de départ attribuées aux paramètres d’un réseau de neurones (ex: Xavier/Glorot, He), crucial pour assurer la stabilité et éviter l’explosion ou la disparition des gradients lors de l’entraînement. Voir cours (Vanishing Gradient).

K

K-Means : Algorithme de clustering non supervisé très populaire qui partitionne les données en K groupes distincts en minimisant la distance entre les points et le centroïde de leur groupe. Voir cours (Typologie).

L

LLM (Large Language Model / Grand modèle de langage) : Modèle de traitement automatique du langage naturel contenant des milliards de paramètres, entraîné sur d’immenses corpus de textes pour comprendre, générer et manipuler du texte de façon quasi-humaine. Voir cours (Pré-entraînement).
LSTM (Long Short-Term Memory) : Architecture de réseau de neurones récurrent dotée de mécanismes de portes (gates) permettant de mémoriser et de propager des informations sur de longues séquences temporelles sans perte de gradient. Voir cours (LSTM).

O

Overfitting (Surapprentissage) : Phénomène où le modèle mémorise le bruit des données d’entraînement au lieu de généraliser, ce qui conduit à d’excellents résultats sur le train set mais à de mauvaises prédictions sur le test set. Voir cours (Biais-Variance).

P

PCA (ACP - Analyse en Composantes Principales) : Technique de réduction de dimension qui projette les données dans un espace de dimension inférieure tout en conservant le maximum de variance possible. Voir cours (Autoencodeur).
Perceptron Multicouche (PMC / MLP) : Architecture de base d’un réseau de neurones artificiel profond, composée d’une couche d’entrée, d’une ou plusieurs couches cachées, et d’une couche de sortie entièrement connectées. Voir cours (Anatomie).
PPO (Proximal Policy Optimization) : Algorithme populaire d’apprentissage par renforcement par gradient de politique, qui améliore la stabilité de l’entraînement en limitant l’écart maximal autorisé pour la mise à jour de la politique à chaque étape. Voir cours (Typologie).

R

Régression Linéaire : Modèle cherchant à établir une relation linéaire entre une variable continue cible et une ou plusieurs variables explicatives. Voir cours (Forward).
Régularisation (L1/L2) : Techniques (comme Lasso ou Ridge) qui pénalisent la complexité ou la taille des coefficients d’un modèle afin d’éviter le surapprentissage. Voir cours (Régularisation).
RLHF (Reinforcement Learning from Human Feedback) : Méthode d’alignement des modèles de langage associant l’apprentissage par renforcement à des évaluations et préférences fournies par des humains pour rendre les réponses plus sûres, utiles et honnêtes. Voir cours (Alignement).
RNN (Recurrent Neural Network / Réseau de neurones récurrent) : Type de réseau de neurones conçu pour traiter des données séquentielles en maintenant un état interne (mémoire) alimenté par les éléments précédents. Voir cours (Fondements).

S

SAC (Soft Actor-Critic) : Algorithme d’apprentissage par renforcement sans modèle (model-free) et hors-politique (off-policy), maximisant à la fois la récompense attendue et l’entropie de la politique pour encourager l’exploration. Voir cours (Typologie).

T

Tenseur (Tensor) : Structure de données multidimensionnelle (généralisation des scalaires, vecteurs et matrices) qui constitue l’unité fondamentale de transport et de calcul dans les frameworks de Deep Learning. Voir cours (Forward).
Transformer : Architecture de réseau de neurones basée entièrement sur des mécanismes d’attention (sans récurrence ni convolution), devenue le standard pour le traitement du langage naturel et d’autres tâches complexes. Voir cours (Attention).

U

Underfitting (Sous-apprentissage) : Phénomène où le modèle est trop simple pour capturer la structure sous-jacente des données, ce qui conduit à de mauvaises performances tant sur le train set que sur le test set. Voir cours (Biais-Variance).

V

Validation Croisée (Cross-Validation) : Technique d’évaluation consistant à diviser le jeu de données en K parties (folds), à entraîner le modèle sur K-1 parties et à le tester sur la partie restante, en répétant le processus K fois pour fiabiliser la métrique de performance. Voir cours (Applications).
Vanishing Gradient (Gradient évanescent) : Problème survenant lors de l’entraînement de réseaux de neurones profonds par rétropropagation, où les gradients diminuent de manière exponentielle en se rapprochant des premières couches du réseau. Voir cours (Vanishing Gradient).
Vision Transformer (ViT) : Adaptation de l’architecture Transformer aux tâches de vision par ordinateur, découpant une image en patchs traités comme des “mots” d’une phrase. Voir cours (Architectures).

Y

YOLO (You Only Look Once) : Famille d’algorithmes de détection d’objets en temps réel très rapides, qui prédisent à la fois les boîtes englobantes et les classes associées en une seule passe à travers le réseau. Voir cours (Détection).

🧮 Symboles Mathématiques & Notations

Ce tableau résume les notations mathématiques fondamentales utilisées tout au long de ce cours pour faciliter la transition entre la théorie algébrique et l’implémentation.

Symbole / Notation	Signification	Exemple d’utilisation
Lettres en gras (ex: \mathbf{x}, \mathbf{W})	Vecteurs ou matrices (tenseurs)	\mathbf{y} = \mathbf{W}\mathbf{x} + \mathbf{b}
\in	Appartient à (indique l’espace vectoriel)	\mathbf{W} \in \mathbb{R}^{d \times d}
\mathbb{R}	Ensemble des nombres réels	\mathbb{R}^{n \times m}
\leftarrow	Opérateur d’affectation (mise à jour)	w \leftarrow w - \eta \cdot \nabla_w \mathcal{L}
\eta (êta)	Taux d’apprentissage (learning rate)	\eta_{\max}, \eta_{\min}
\nabla (nabla)	Gradient (vecteur des dérivées partielles)	\nabla_w \mathcal{L}
\partial	Dérivée partielle	\frac{\partial \mathcal{L}}{\partial w}
\odot	Produit de Hadamard (élément par élément)	\mathbf{h}_t = \mathbf{o}_t \odot \tanh(\mathbf{c}_t)
\mathbb{E} ou E[\cdot]	Espérance mathématique (valeur moyenne théorique)	\mathbb{E}_{x \sim p}[f(x)]
\sim	Suit la loi de / Échantillonné depuis	\mathbf{z} \sim \mathcal{N}(0, \mathbf{I})
$\	\	$ ou \ \| \cdot\ \| ^2	Norme Euclidienne (L_2) (éventuellement au carré)	\ \| \mathbf{x} - g(f(\mathbf{x}))\ \| ^2
\operatorname{diag}(\cdot)	Matrice diagonale construite à partir d’un vecteur	\operatorname{diag}(\sigma'(z))
\rho (rho)	Rayon spectral (valeur propre maximale en module)	\rho(\mathbf{W}_h) < 1
\arg\min / \arg\max	Variable minimisant / maximisant la fonction	k^* = \arg\min_k \ \| z - e_k\ \| ^2
\mathbb{1}[\text{cond}]	Fonction indicatrice (vaut 1 si la condition est vraie, 0 sinon)	\mathbb{1}[k^* = k]
\cap / \cup	Intersection / Union d’ensembles	\text{IoU} = \frac{B_1 \cap B_2}{B_1 \cup B_2}
\text{sg}[\cdot]	Stop-Gradient (bloque la rétropropagation du gradient)	\text{sg}[z]
\mapsto	Associe à (définition de fonction)	G : z \mapsto x
\approx	Approximativement égal	a \approx b
\to	Tend vers	x \to \infty
\mathcal{L}	Fonction de perte (loss)	\mathcal{L}_{\text{MSE}}, \mathcal{L}_{\text{BCE}}
\epsilon (epsilon)	Constante positive de stabilité numérique	\sqrt{v_t} + \epsilon
\gamma (gamma)	Paramètre apprenable d’échelle ou coefficient de décroissance	\gamma \hat{z} + \beta
\beta (bêta)	Paramètre apprenable ou décroissance / calendrier de bruit	\beta_1, \beta_2 (Adam), \beta_t (Diffusion)
t (indice)	Pas temporel / itération d’optimisation	m_t, \mathbf{h}_t
l (exposant)	Indice de la couche d’un réseau de neurones	\mathbf{a}^l, \mathbf{W}^l
\sigma (sigma)	Fonction d’activation (sigmoïde) ou écart-type	\sigma(z), \boldsymbol{\Sigma}
\mu (mu)	Moyenne empirique ou théorique	\mu_{\mathcal{B}}, \boldsymbol{\mu}
T (exposant)	Transposée de matrice ou de vecteur	\mathbf{Q}\mathbf{K}^T
$		$	Déterminant d’une matrice carrée	$	$
\text{tr}(\mathbf{A})	Trace d’une matrice carrée	\text{tr}(\boldsymbol{\Sigma}_2^{-1} \boldsymbol{\Sigma}_1)
\Delta (delta)	Variation / incrément	\Delta\mathbf{W}
\prod	Produit multiplicatif successif	\prod_{s=1}^t \alpha_s

--- number-sections: false --- # 📖 Glossaire & Notations Mathématiques {.unnumbered} Ce glossaire regroupe les termes techniques, abréviations et notations mathématiques abordés tout au long du cours. Il est conçu comme une référence rapide pour faire le lien entre la théorie et l'implémentation. ## Termes Techniques et Concepts {.unnumbered} ### A - **Actor-Critic (Acteur-Critique) :** Architecture d'apprentissage par renforcement où le modèle est divisé en deux parties : l'Acteur (qui choisit les actions) et le Critique (qui évalue ces actions). [Voir cours (Typologie)](cours/1_machine_learning/_12_typologie.qmd). - **Apprentissage Supervisé (Supervised Learning) :** Type d'apprentissage automatique où le modèle apprend à partir d'exemples étiquetés (contenant l'entrée et la sortie attendue). [Voir cours (Typologie)](cours/1_machine_learning/_12_typologie.qmd). - **Apprentissage Non Supervisé (Unsupervised Learning) :** Type d'apprentissage automatique où le modèle cherche des structures ou regroupements cachés dans des données non étiquetées. [Voir cours (Typologie)](cours/1_machine_learning/_12_typologie.qmd). - **Apprentissage par Renforcement Profond (Deep Reinforcement Learning - DRL) :** Combinaison de l'apprentissage par renforcement et du deep learning, où un agent apprend à prendre des décisions optimales par essai-erreur en maximisant des récompenses grâce à des réseaux de neurones. [Voir cours (Typologie)](cours/1_machine_learning/_12_typologie.qmd). - **Apprentissage par Transfert (Transfer Learning) :** Méthode consistant à réutiliser un modèle pré-entraîné sur une tâche source volumineuse comme point de départ pour l'entraîner sur une tâche cible similaire mais avec moins de données. [Voir cours (Finetuning)](cours/8_avancé/_83_finetuning.qmd). - **Attention (Self-Attention / Multi-Head Attention) :** Mécanisme permettant à un modèle de se focaliser sur différentes parties d'une séquence d'entrée pour calculer sa représentation, indépendamment de la distance entre les éléments. [Voir cours (Attention)](cours/7_transformers/_77_attention.qmd). - **Autoencodeur Variationnel (VAE - Variational Autoencoder) :** Modèle génératif probabiliste qui compresse les données d'entrée dans un espace latent continu et structuré, permettant ensuite de générer de nouvelles données réalistes en échantillonnant cet espace. [Voir cours (VAE)](cours/5_vae/_52_vae.qmd). ### B - **Backpropagation (Rétropropagation du gradient) :** Algorithme central du Deep Learning qui calcule les gradients de l'erreur par rapport à chaque poids du réseau, de la couche de sortie vers la couche d'entrée, afin d'ajuster les paramètres. [Voir cours (Rétropropagation)](cours/2_réseaux_de_neurones/_24_backward.qmd). - **BERT (Bidirectional Encoder Representations from Transformers) :** Modèle de langage pré-entraîné par Google, basé sur l'encodeur du Transformer, conçu pour comprendre le contexte bidirectionnel d'un mot dans une phrase. [Voir cours (Embeddings de position)](cours/7_transformers/_75_positional.qmd). ### C - **Clustering :** Technique non supervisée visant à regrouper les individus d'un dataset en plusieurs groupes (clusters) homogènes selon leur similarité. [Voir cours (Typologie)](cours/1_machine_learning/_12_typologie.qmd). - **CNN (Convolutional Neural Network / Réseau de neurones convolutif) :** Architecture de réseau de neurones spécialisée dans le traitement de données à grille spatiale (comme les images), utilisant des opérations de convolution pour extraire automatiquement des caractéristiques locales. [Voir cours (Convolution)](cours/4_cnn/_41_convolution.qmd). - **Connexion Résiduelle (Residual / Skip Connection) :** Connexion qui court-circuite une ou plusieurs couches en ajoutant directement l'entrée à la sortie de ces couches, facilitant la propagation des gradients dans les réseaux très profonds (introduite par ResNet). [Voir cours (Architectures)](cours/4_cnn/_43_architectures.qmd). - **Connexions Denses (Dense Connections) :** Motif d'architecture (utilisé dans DenseNet) où chaque couche reçoit en entrée les cartes de caractéristiques de toutes les couches précédentes, favorisant la réutilisation des caractéristiques et le flux d'informations. [Voir cours (Architectures)](cours/4_cnn/_43_architectures.qmd). ### D - **Descente de Gradient (Gradient Descent) :** Algorithme d'optimisation utilisé pour minimiser la fonction de coût d'un modèle en ajustant ses poids pas à pas dans le sens inverse du gradient. [Voir cours (Gradient)](cours/1_machine_learning/_13_gradient.qmd). - **Diffusion (Modèle de Diffusion / DDPM) :** Classe de modèles génératifs qui apprennent à débruiter progressivement des données à partir d'un bruit gaussien pur pour générer de nouveaux échantillons réalistes. [Voir cours (DDPM)](cours/6_gan/_64_ddpm.qmd). ### E - **Espace Latent (Latent Space) :** Espace vectoriel de dimension réduite dans lequel un modèle projette et organise des données complexes, capturant leurs caractéristiques intrinsèques les plus importantes. [Voir cours (Autoencodeur)](cours/5_vae/_51_autoencoder.qmd). ### F - **Fine-tuning (Ajustement fin) :** Processus consistant à réentraîner légèrement un modèle pré-entraîné sur un nouvel ensemble de données plus restreint pour l'adapter à une tâche spécifique. [Voir cours (Finetuning)](cours/8_avancé/_83_finetuning.qmd). - **Fine-tuning par Instruction (Instruction Fine-Tuning - IFT) :** Technique consistant à entraîner un LLM sur des paires d'instructions et de réponses attendues afin qu'il atteigne le niveau requis pour suivre des consignes conversationnelles. [Voir cours (Finetuning)](cours/8_avancé/_83_finetuning.qmd). - **Fonction d'Activation (Activation Function) :** Fonction mathématique introduisant une non-linéarité dans le neurone (ex: ReLU, Sigmoïde, Softmax), lui permettant de modéliser des relations complexes. [Voir cours (Activation)](cours/2_réseaux_de_neurones/_25_activation.qmd). - **Fonction de Coût (Loss Function) :** Formule calculant l'écart ou la pénalité entre la prédiction du modèle et la valeur réelle attendue. [Voir cours (Gradient)](cours/1_machine_learning/_13_gradient.qmd). ### G - **GAN (Generative Adversarial Network / Réseau antagoniste génératif) :** Architecture composée de deux réseaux de neurones (un générateur et un discriminateur) s'entraînant mutuellement dans un cadre de théorie des jeux pour générer de nouvelles données réalistes. [Voir cours (GANs)](cours/6_gan/_62_gans.qmd). - **Générateur / Discriminateur (Generator / Discriminator) :** Les deux composants clés d'un GAN : le générateur crée de fausses données pour tromper le discriminateur, tandis que le discriminateur apprend à distinguer les vraies données des fausses. [Voir cours (GANs)](cours/6_gan/_62_gans.qmd). - **GPT (Generative Pre-trained Transformer) :** Famille de grands modèles de langage développés par OpenAI, basés sur le décodeur du Transformer et entraînés de manière autoregressive pour prédire le mot suivant. [Voir cours (Embeddings de position)](cours/7_transformers/_75_positional.qmd). - **GRU (Gated Recurrent Unit) :** Variante simplifiée des LSTM conçue pour traiter les données séquentielles avec moins de paramètres tout en limitant le problème de disparition du gradient. [Voir cours (GRU)](cours/3_rnn/_34_gru.qmd). ### I - **Initialisation des poids (Weight Initialization) :** Choix des valeurs de départ attribuées aux paramètres d'un réseau de neurones (ex: Xavier/Glorot, He), crucial pour assurer la stabilité et éviter l'explosion ou la disparition des gradients lors de l'entraînement. [Voir cours (Vanishing Gradient)](cours/2_réseaux_de_neurones/_26_vanishing.qmd). ### K - **K-Means :** Algorithme de clustering non supervisé très populaire qui partitionne les données en K groupes distincts en minimisant la distance entre les points et le centroïde de leur groupe. [Voir cours (Typologie)](cours/1_machine_learning/_12_typologie.qmd). ### L - **LLM (Large Language Model / Grand modèle de langage) :** Modèle de traitement automatique du langage naturel contenant des milliards de paramètres, entraîné sur d'immenses corpus de textes pour comprendre, générer et manipuler du texte de façon quasi-humaine. [Voir cours (Pré-entraînement)](cours/8_avancé/_81_pretraining.qmd). - **LSTM (Long Short-Term Memory) :** Architecture de réseau de neurones récurrent dotée de mécanismes de portes (gates) permettant de mémoriser et de propager des informations sur de longues séquences temporelles sans perte de gradient. [Voir cours (LSTM)](cours/3_rnn/_33_lstm.qmd). ### O - **Overfitting (Surapprentissage) :** Phénomène où le modèle mémorise le bruit des données d'entraînement au lieu de généraliser, ce qui conduit à d'excellents résultats sur le train set mais à de mauvaises prédictions sur le test set. [Voir cours (Biais-Variance)](cours/1_machine_learning/_14_biais_variance.qmd). ### P - **PCA (ACP - Analyse en Composantes Principales) :** Technique de réduction de dimension qui projette les données dans un espace de dimension inférieure tout en conservant le maximum de variance possible. [Voir cours (Autoencodeur)](cours/5_vae/_51_autoencoder.qmd). - **Perceptron Multicouche (PMC / MLP) :** Architecture de base d'un réseau de neurones artificiel profond, composée d'une couche d'entrée, d'une ou plusieurs couches cachées, et d'une couche de sortie entièrement connectées. [Voir cours (Anatomie)](cours/2_réseaux_de_neurones/_22_neurone.qmd). - **PPO (Proximal Policy Optimization) :** Algorithme populaire d'apprentissage par renforcement par gradient de politique, qui améliore la stabilité de l'entraînement en limitant l'écart maximal autorisé pour la mise à jour de la politique à chaque étape. [Voir cours (Typologie)](cours/1_machine_learning/_12_typologie.qmd). ### R - **Régression Linéaire :** Modèle cherchant à établir une relation linéaire entre une variable continue cible et une ou plusieurs variables explicatives. [Voir cours (Forward)](cours/2_réseaux_de_neurones/_23_forward.qmd). - **Régularisation (L1/L2) :** Techniques (comme Lasso ou Ridge) qui pénalisent la complexité ou la taille des coefficients d'un modèle afin d'éviter le surapprentissage. [Voir cours (Régularisation)](cours/1_machine_learning/_15_regularisation.qmd). - **RLHF (Reinforcement Learning from Human Feedback) :** Méthode d'alignement des modèles de langage associant l'apprentissage par renforcement à des évaluations et préférences fournies par des humains pour rendre les réponses plus sûres, utiles et honnêtes. [Voir cours (Alignement)](cours/8_avancé/index.qmd). - **RNN (Recurrent Neural Network / Réseau de neurones récurrent) :** Type de réseau de neurones conçu pour traiter des données séquentielles en maintenant un état interne (mémoire) alimenté par les éléments précédents. [Voir cours (Fondements)](cours/3_rnn/_31_fondements.qmd). ### S - **SAC (Soft Actor-Critic) :** Algorithme d'apprentissage par renforcement sans modèle (model-free) et hors-politique (off-policy), maximisant à la fois la récompense attendue et l'entropie de la politique pour encourager l'exploration. [Voir cours (Typologie)](cours/1_machine_learning/_12_typologie.qmd). ### T - **Tenseur (Tensor) :** Structure de données multidimensionnelle (généralisation des scalaires, vecteurs et matrices) qui constitue l'unité fondamentale de transport et de calcul dans les frameworks de Deep Learning. [Voir cours (Forward)](cours/2_réseaux_de_neurones/_23_forward.qmd). - **Transformer :** Architecture de réseau de neurones basée entièrement sur des mécanismes d'attention (sans récurrence ni convolution), devenue le standard pour le traitement du langage naturel et d'autres tâches complexes. [Voir cours (Attention)](cours/7_transformers/_77_attention.qmd). ### U - **Underfitting (Sous-apprentissage) :** Phénomène où le modèle est trop simple pour capturer la structure sous-jacente des données, ce qui conduit à de mauvaises performances tant sur le train set que sur le test set. [Voir cours (Biais-Variance)](cours/1_machine_learning/_14_biais_variance.qmd). ### V - **Validation Croisée (Cross-Validation) :** Technique d'évaluation consistant à diviser le jeu de données en K parties (folds), à entraîner le modèle sur K-1 parties et à le tester sur la partie restante, en répétant le processus K fois pour fiabiliser la métrique de performance. [Voir cours (Applications)](cours/3_rnn/_35_applications.qmd). - **Vanishing Gradient (Gradient évanescent) :** Problème survenant lors de l'entraînement de réseaux de neurones profonds par rétropropagation, où les gradients diminuent de manière exponentielle en se rapprochant des premières couches du réseau. [Voir cours (Vanishing Gradient)](cours/2_réseaux_de_neurones/_26_vanishing.qmd). - **Vision Transformer (ViT) :** Adaptation de l'architecture Transformer aux tâches de vision par ordinateur, découpant une image en patchs traités comme des "mots" d'une phrase. [Voir cours (Architectures)](cours/4_cnn/_43_architectures.qmd). ### Y - **YOLO (You Only Look Once) :** Famille d'algorithmes de détection d'objets en temps réel très rapides, qui prédisent à la fois les boîtes englobantes et les classes associées en une seule passe à travers le réseau. [Voir cours (Détection)](cours/4_cnn/_44_detection.qmd). ## 🧮 Symboles Mathématiques & Notations {.unnumbered} Ce tableau résume les notations mathématiques fondamentales utilisées tout au long de ce cours pour faciliter la transition entre la théorie algébrique et l'implémentation. | Symbole / Notation | Signification | Exemple d'utilisation | | | | | | | | :------------------------------------------------- | :--------------------------------------------------------------- | :------------------------------------------------------------ | :------------------------------- | :-- | :-------------------------------------------------- | :-- | :----------------------------- | :-- | | **Lettres en gras** (ex: $\mathbf{x}, \mathbf{W}$) | Vecteurs ou matrices (tenseurs) | $\mathbf{y} = \mathbf{W}\mathbf{x} + \mathbf{b}$ | | | | | | | | $\in$ | Appartient à (indique l'espace vectoriel) | $\mathbf{W} \in \mathbb{R}^{d \times d}$ | | | | | | | | $\mathbb{R}$ | Ensemble des nombres réels | $\mathbb{R}^{n \times m}$ | | | | | | | | $\leftarrow$ | Opérateur d'affectation (mise à jour) | $w \leftarrow w - \eta \cdot \nabla_w \mathcal{L}$ | | | | | | | | $\eta$ (êta) | Taux d'apprentissage (*learning rate*) | $\eta_{\max}$, $\eta_{\min}$ | | | | | | | | $\nabla$ (nabla) | Gradient (vecteur des dérivées partielles) | $\nabla_w \mathcal{L}$ | | | | | | | | $\partial$ | Dérivée partielle | $\frac{\partial \mathcal{L}}{\partial w}$ | | | | | | | | $\odot$ | Produit de Hadamard (élément par élément) | $\mathbf{h}_t = \mathbf{o}_t \odot \tanh(\mathbf{c}_t)$ | | | | | | | | $\mathbb{E}$ ou $E[\cdot]$ | Espérance mathématique (valeur moyenne théorique) | $\mathbb{E}_{x \sim p}[f(x)]$ | | | | | | | | $\sim$ | Suit la loi de / Échantillonné depuis | $\mathbf{z} \sim \mathcal{N}(0, \mathbf{I})$ | | | | | | | | $\ | \cdot\ | $ ou $\ | \cdot\ | ^2$ | Norme Euclidienne ($L_2$) (éventuellement au carré) | $\ | \mathbf{x} - g(f(\mathbf{x}))\ | ^2$ | | $\operatorname{diag}(\cdot)$ | Matrice diagonale construite à partir d'un vecteur | $\operatorname{diag}(\sigma'(z))$ | | | | | | | | $\rho$ (rho) | Rayon spectral (valeur propre maximale en module) | $\rho(\mathbf{W}_h) < 1$ | | | | | | | | $\arg\min$ / $\arg\max$ | Variable minimisant / maximisant la fonction | $k^* = \arg\min_k \ | z - e_k\ | ^2$ | | | | | | $\mathbb{1}[\text{cond}]$ | Fonction indicatrice (vaut 1 si la condition est vraie, 0 sinon) | $\mathbb{1}[k^* = k]$ | | | | | | | | $\cap$ / $\cup$ | Intersection / Union d'ensembles | $\text{IoU} = \frac{B_1 \cap B_2}{B_1 \cup B_2}$ | | | | | | | | $\text{sg}[\cdot]$ | Stop-Gradient (bloque la rétropropagation du gradient) | $\text{sg}[z]$ | | | | | | | | $\mapsto$ | Associe à (définition de fonction) | $G : z \mapsto x$ | | | | | | | | $\approx$ | Approximativement égal | $a \approx b$ | | | | | | | | $\to$ | Tend vers | $x \to \infty$ | | | | | | | | $\mathcal{L}$ | Fonction de perte (*loss*) | $\mathcal{L}_{\text{MSE}}$, $\mathcal{L}_{\text{BCE}}$ | | | | | | | | $\epsilon$ (epsilon) | Constante positive de stabilité numérique | $\sqrt{v_t} + \epsilon$ | | | | | | | | $\gamma$ (gamma) | Paramètre apprenable d'échelle ou coefficient de décroissance | $\gamma \hat{z} + \beta$ | | | | | | | | $\beta$ (bêta) | Paramètre apprenable ou décroissance / calendrier de bruit | $\beta_1, \beta_2$ (Adam), $\beta_t$ (Diffusion) | | | | | | | | $t$ (indice) | Pas temporel / itération d'optimisation | $m_t, \mathbf{h}_t$ | | | | | | | | $l$ (exposant) | Indice de la couche d'un réseau de neurones | $\mathbf{a}^l, \mathbf{W}^l$ | | | | | | | | $\sigma$ (sigma) | Fonction d'activation (sigmoïde) ou écart-type | $\sigma(z)$, $\boldsymbol{\Sigma}$ | | | | | | | | $\mu$ (mu) | Moyenne empirique ou théorique | $\mu_{\mathcal{B}}$, $\boldsymbol{\mu}$ | | | | | | | | $T$ (exposant) | Transposée de matrice ou de vecteur | $\mathbf{Q}\mathbf{K}^T$ | | | | | | | | $ | \mathbf{A} | $ | Déterminant d'une matrice carrée | $ | \boldsymbol{\Sigma} | $ | | | | $\text{tr}(\mathbf{A})$ | Trace d'une matrice carrée | $\text{tr}(\boldsymbol{\Sigma}_2^{-1} \boldsymbol{\Sigma}_1)$ | | | | | | | | $\Delta$ (delta) | Variation / incrément | $\Delta\mathbf{W}$ | | | | | | | | $\prod$ | Produit multiplicatif successif | $\prod_{s=1}^t \alpha_s$ | | | | | | |