// ==========================================
// _ojs_bridge.qmd â OJS Global Namespace Bridge
//
// Include ONCE at the top of each chapter index.qmd:
// {{< include ../../assets/_ojs_bridge.qmd >}}
//
// window.aptitek is set by an async `<script type="module">` in the page
// header (_quarto.yml include-in-header). That import may resolve AFTER
// OJS starts executing, causing `aptitek` to be undefined.
//
// Fix: return a Promise from this cell. OJS suspends all downstream cells
// until the promise resolves â the built-in, idiomatic solution for async
// dependencies in Observable JS.
//
// â
Zero-maintenance: adding a new export to index.js barrel is
// instantly available â no edits to this file ever needed.
// â
Race-condition-safe: downstream cells never see undefined.
// â
Anti-double-definition: only ONE OJS name (`aptitek`) is defined.
// ==========================================
aptitek = {
if (window.aptitek) return window.aptitek;
return new Promise(resolve => {
const check = () =>
window.aptitek
? resolve(window.aptitek)
: requestAnimationFrame(check);
check();
});
}8 đ LLMs AvancĂ©s : PrĂ©-entraĂźnement, Scaling et Alignement
8.1 Construire la Fondation
Le prĂ©-entraĂźnement est la grande phase de lecture dâun grand modĂšle de langage (LLM). Le modĂšle lit Ă©normĂ©ment de texte et apprend surtout une tĂąche simple : deviner le prochain token.
Cette étape construit sa culture générale statistique : vocabulaire, styles, faits fréquents, structures de phrases et raisonnements récurrents.
đ Lecture technique
Le dĂ©veloppement dâun grand modĂšle de langage (LLM) ne se rĂ©sume pas Ă une phase de calcul massive et indiffĂ©renciĂ©e. Le prĂ©-entraĂźnement est lâĂ©tape oĂč le modĂšle acquiert son capital de connaissances initial, sa structure cognitive et sa comprĂ©hension statistique du monde. La qualitĂ© de cette fondation dĂ©termine la capacitĂ© de gĂ©nĂ©ralisation et lâefficacitĂ© de toutes les spĂ©cialisations ultĂ©rieures (YĂŒksel and Flammarion 2025; GoPenAI 2026).
đ Perte dâentraĂźnement vs tokens traitĂ©s
8.1.1 Modélisation Autorégressive
Pendant le pré-entraßnement, le modÚle joue à compléter la phrase. à force de prédire la suite, il apprend quels mots vont ensemble et quelles structures sont plausibles.
đą Objectif de prĂ©-entraĂźnement
Sous lâangle mathĂ©matique, le prĂ©-entraĂźnement autorĂ©gressif par prĂ©diction du prochain token (next-token prediction) modĂ©lise le langage comme une chaĂźne de Markov dâordre k. Pour un corpus de N sĂ©quences de tokens, lâobjectif est de maximiser la vraisemblance (YĂŒksel and Flammarion 2025) :
\mathcal{L}_{\text{pré-entraßnement}} = \sum_{t} \log p_\theta(w_t | w_{t-1}, w_{t-2}, \ldots, w_{t-k})
Pour que les garanties thĂ©oriques de gĂ©nĂ©ralisation sâappliquent, on suppose des fonctions de logit bornĂ©es et Lipschitziennes. La performance se mesure selon deux axes (YĂŒksel and Flammarion 2025) :
Erreur in-sample : Précision sur des contextes déjà observés. Elle décroßt en O\!\left(\frac{1}{NT}\right) par rapport au nombre total de tokens NT.
Erreur out-of-sample : Performance sur des contextes inédits, liée aux propriétés de mélange (mixing properties, \tau_{\text{mix}}) de la chaßne de Markov sous-jacente. Le temps de mélange \tau_{\text{mix}} représente le nombre de pas nécessaires pour explorer de nouveaux états contextuels.
8.1.2 Qualité avant Quantité
Un bon modĂšle ne vient pas seulement de beaucoup de texte. Il faut aussi nettoyer ce texte : enlever les doublons, filtrer les contenus faibles, puis dĂ©couper le corpus pour nourrir lâentraĂźnement rĂ©guliĂšrement.
đ Pipeline de donnĂ©es
La performance du pré-entraßnement dépend autant de la qualité du corpus que de sa taille. Les LLMs modernes appliquent un pipeline rigoureux (GoPenAI 2026; Zhong et al. 2025) :
Déduplication :
La prĂ©sence de documents dupliquĂ©s dans le corpus de prĂ©-entraĂźnement est lâune des sources de dĂ©gradation les plus sous-estimĂ©es. Un corpus dupliquĂ© Ă 10% force le modĂšle Ă mĂ©moriser ces sĂ©quences rĂ©pĂ©tĂ©es plutĂŽt quâĂ gĂ©nĂ©raliser. La dĂ©duplication exacte (hash de n-grammes) et floue (MinHash pour la dĂ©duplication approximative) sont appliquĂ©es systĂ©matiquement (GoPenAI 2026).
Filtrage de Qualité :
Les pipelines modernes (ex. : FineWeb dâHugging Face) filtrent le web par classifieurs de qualitĂ© â souvent un modĂšle fine-tunĂ© sur des donnĂ©es curatĂ©es par des humains comme rĂ©fĂ©rence positive. Le ratio donnĂ©es âqualitĂ© webâ vs âqualitĂ© bookâ conditionne les capacitĂ©s de raisonnement (Technology Innovation Institute (TII) 2023).
Tokenisation et Sharding :
Pour les corpus de plusieurs tera-tokens, le pipeline de tokenisation et de dĂ©coupage (sharding) devient un problĂšme dâingĂ©nierie en lui-mĂȘme. Des systĂšmes comme Youmu (Zhong et al. 2025) optimisent le pipeline de donnĂ©es columnar pour alimenter lâentraĂźnement sans crĂ©er de stalls (Zhong et al. 2025).
8.1.3 Au-delà de la Mémorisation
Le but nâest pas de rĂ©citer le corpus. Un bon modĂšle doit utiliser ce quâil a vu pour rĂ©pondre correctement Ă des phrases nouvelles.
đ GĂ©nĂ©ralisation
La capacitĂ© de gĂ©nĂ©ralisation dâun modĂšle ne dĂ©pend pas du nombre brut de paramĂštres, mais de la complexitĂ© statistique de sa classe dâhypothĂšse. Une architecture bien dĂ©finie permet de briser la âmalĂ©diction de la dimensionnalitĂ©â des modĂšles n-grammes classiques, offrant des taux de gĂ©nĂ©ralisation qui ne croissent pas exponentiellement avec k (YĂŒksel and Flammarion 2025).
Les Transformers, via leur mĂ©canisme dâattention global, apprennent une classe dâhypothĂšse implicitement rĂ©gularisĂ©e : la structure de lâattention force le modĂšle Ă exprimer ses prĂ©dictions comme des combinaisons convexes de patterns vus Ă lâentraĂźnement. Cette inductive bias est le mĂ©canisme profond qui permet la gĂ©nĂ©ralisation Ă de nouveaux contextes jamais vus.
8.2 Lois dâĂchelle et Optimisation du Compute
Les lois dâĂ©chelle rĂ©pondent Ă une question trĂšs concrĂšte : avec un budget donnĂ©, vaut-il mieux agrandir le modĂšle, lui donner plus de donnĂ©es, ou faire les deux ?
đ Lecture technique
Les lois dâĂ©chelle (scaling laws) Ă©tablissent des relations quantitatives entre les trois ressources fondamentales du prĂ©-entraĂźnement : la taille du modĂšle N (nombre de paramĂštres), le volume de donnĂ©es D (nombre de tokens), et le budget de calcul C \approx 6ND (FLOPs). Lâarbitrage entre ces trois ressources est lâune des dĂ©cisions stratĂ©giques les plus importantes dans le dĂ©veloppement dâun LLM.
đ Lois dâĂchelle
8.2.1 Loi de Chinchilla
La rÚgle Chinchilla dit : ne construisez pas seulement un modÚle énorme ; donnez-lui aussi assez de texte. Un grand cerveau sous-entraßné reste mal utilisé.
đą RĂšgle Chinchilla
Hoffmann et al. (DeepMind, 2022) établissent que pour un budget de calcul C fixé, la perte de validation est minimisée quand la taille du modÚle N et le volume de données D sont augmentés proportionnellement (Hoffmann et al. 2022) :
N^* \propto C^{0.5}, \qquad D^* \propto C^{0.5}, \qquad N^* \approx \frac{D^*}{20}
La rĂšgle pratique est la suivante : entraĂźner sur environ 20 tokens par paramĂštre. Llama 2 (7B paramĂštres) entraĂźnĂ© sur 2 trillions de tokens (\approx 285 tokens/paramĂštre) dĂ©passe dĂ©jĂ significativement cet optimum dâentraĂźnement.
8.2.2 Inférence Optimale
Quand un modĂšle sert des milliards de requĂȘtes, le coĂ»t dâutilisation devient aussi important que le coĂ»t dâentraĂźnement. Parfois, un modĂšle plus petit mais mieux entraĂźnĂ© coĂ»te moins cher au total.
đą CoĂ»t total
Sardana et Frankle (2024) reformulent le problĂšme : pour une organisation qui dĂ©ploiera le modĂšle sur Q requĂȘtes dâinfĂ©rence, quel est le point dâopĂ©ration optimal ? (Sardana et al. 2024)
Le coĂ»t total sur le cycle de vie est la somme du coĂ»t dâentraĂźnement et du coĂ»t dâinfĂ©rence :
C_{\text{total}} = C_{\text{train}}(N, D) + Q \cdot C_{\text{inférence}}(N)
C_{\text{infĂ©rence}}(N) croĂźt linĂ©airement avec N (plus de paramĂštres â plus de FLOPs par token gĂ©nĂ©rĂ©). Pour Q trĂšs grand, minimiser C_{\text{total}} nĂ©cessite un modĂšle plus petit (moins coĂ»teux Ă lâinfĂ©rence), compensĂ© par beaucoup plus de tokens dâentraĂźnement.
| CritÚre | Chinchilla-Optimal | Inférence-Optimal |
|---|---|---|
| Objectif | Minimiser la perte dâentraĂźnement | Minimiser le coĂ»t total (train + infĂ©rence) |
| Seuil dâusage | Prototypage / Recherche | > 10^9 requĂȘtes dâinfĂ©rence |
| Tokens par paramĂštre | ~20 | JusquâĂ 10 000+ |
| Exemple emblématique | GPT-4 (estimation) | Llama 3 (15T tokens sur 8B) |
Calcul illustratif : Pour 2 trillions de tokens dâinfĂ©rence anticipĂ©s, choisir un modĂšle 7B entraĂźnĂ© intensivement plutĂŽt quâun 13B Chinchilla-optimal peut rĂ©duire le coĂ»t total de 17% â soit 1.7 \times 10^{22} FLOPs Ă©conomisĂ©s (Sardana et al. 2024).
8.2.3 Lois dâĂchelle et Architecture
Les lois dâĂ©chelle ne remplacent pas le choix dâarchitecture. Selon la tĂąche, un modĂšle gĂ©nĂ©ratif ou un encodeur spĂ©cialisĂ© peut rester plus adaptĂ©.
đ Architecture et cas dâusage
Les lois dâĂ©chelle font apparaĂźtre une tension entre architecture et donnĂ©es. Concernant les modĂšles encoder-only (BERT-like) vs decoder-only (GPT-like), GisserotBoukhlef et al. (2026) montrent que les encodeurs prĂ©-entraĂźnĂ©s avec MLM (Masked Language Modeling) maintiennent des avantages spĂ©cifiques pour les tĂąches de classification en rĂ©gime de peu de donnĂ©es, mĂȘme Ă lâĂšre des LLMs gĂ©nĂ©ratifs. La question âfaut-il encore prĂ©-entraĂźner des encodeurs ?â reste ouverte et dĂ©pend du cas dâusage (Gisserot-Boukhlef et al. 2026).
8.2.4 Jalons de LLaMA
LâĂ©volution de LLaMA illustre le changement : les modĂšles rĂ©cents sont souvent entraĂźnĂ©s beaucoup plus longtemps sur plus de tokens, mĂȘme quand leur taille reste modĂ©rĂ©e.
| ModĂšle | ParamĂštres | Tokens dâentraĂźnement | Tokens/paramĂštre | StratĂ©gie |
|---|---|---|---|---|
| LLaMA 1 (2023) | 65B | 1.4T | ~21 | Chinchilla-proche |
| LLaMA 2 (2023) | 7Bâ70B | 2T | 285 (7B) | DĂ©jĂ sur-entraĂźnĂ© |
| LLaMA 3 (2024) | 8Bâ70B | 15T | 1875 (8B) | InfĂ©rence-optimal |
Cette Ă©volution illustre le basculement de paradigme : LLaMA 3 8B, entraĂźnĂ© sur 15T tokens, surpasse LLaMA 2 70B sur de nombreux benchmarks, confirmant empiriquement la supĂ©rioritĂ© de lâapproche infĂ©rence-optimale pour les modĂšles dĂ©ployĂ©s Ă grande Ă©chelle (Sardana et al. 2024).
8.3 Du Savoir Général au Métier
Le pré-entraßnement donne une culture générale au modÚle. Le fine-tuning lui apprend ensuite un comportement précis : répondre dans un format, respecter un domaine, ou suivre des instructions.
đ Lecture technique
Le prĂ©-entraĂźnement produit un modĂšle aux capacitĂ©s gĂ©nĂ©rales remarquables mais dont le comportement est non alignĂ© avec les attentes utilisateurs : il prĂ©dit le prochain token, pas nĂ©cessairement des rĂ©ponses utiles et sĂ»res. Le fine-tuning est le processus qui sculpte ce modĂšle brut en un assistant spĂ©cialisĂ©, adaptĂ© Ă un domaine ou Ă un format dâinteraction particulier (Hugging Face 2026b; Vo and GreenNode 2026).
đ Dynamiques PrĂ©coces
8.3.1 Transfer Learning vs Fine-Tuning Complet
Adapter un modĂšle peut ĂȘtre lĂ©ger ou profond. Si le domaine ressemble dĂ©jĂ Ă ce que le modĂšle connaĂźt, on change peu de choses ; si le domaine est trĂšs diffĂ©rent, il faut ajuster davantage.
đ Niveaux dâadaptation
Le choix de la profondeur dâadaptation dĂ©pend de lâampleur du Domain Shift â lâĂ©cart entre la distribution des donnĂ©es gĂ©nĂ©rales du web et celle du domaine cible (Vo and GreenNode 2026) :
Transfer Learning (Head-only) : Les poids du âbackboneâ (corps du Transformer) sont gelĂ©s. Seule la âtĂȘteâ (classification head ou adapter layers) est rĂ©entraĂźnĂ©e. AdaptĂ© quand le corpus cible est petit (<100K exemples) et le jargon est couvert par le prĂ©-entraĂźnement.
Fine-Tuning Complet : Toutes les couches sont mises Ă jour. NĂ©cessaire quand la logique mĂ©tier diverge radicalement (mĂ©dical, juridique, code propriĂ©taire). Le risque est lâoubli catastrophique (catastrophic forgetting) : le modĂšle oublie les connaissances gĂ©nĂ©rales en sur-optimisant sur le domaine cible (Schweighofer et al. 2025).
Domain-Adaptive Post-Training : Une phase intermédiaire de pré-entraßnement sur des données du domaine (sans supervision), avant le fine-tuning supervisé. ParticuliÚrement efficace pour les domaines à terminologie spécialisée (finance, biomédical) (Ke et al. 2025).
8.3.2 DonnĂ©es dâInstruction SFT
Le Supervised Fine-Tuning (SFT) entraĂźne le modĂšle avec des exemples du type : instruction â bonne rĂ©ponse. Câest une façon directe de lui montrer le comportement attendu.
đ Organisation des donnĂ©es SFT
Le Supervised Fine-Tuning (SFT) entraĂźne le modĂšle sur des paires instruction-rĂ©ponse. La structure de ces donnĂ©es dâinstruction conditionne directement la qualitĂ© finale (Hugging Face 2026b).
Stacked vs Phased Training :
Une controverse active porte sur lâordonnancement optimal des donnĂ©es. Lâapproche Phased (Orca-style) entraĂźne dâabord sur des donnĂ©es âconnaissancesâ puis sur des donnĂ©es âcompĂ©tencesâ selon une progression de difficultĂ©. Lâapproche Stacked mĂ©lange toutes les donnĂ©es dĂšs le dĂ©but (Pareja et al. 2025).
Les travaux de Pareja et al. (2025) sur les modĂšles 3Bâ7B dĂ©montrent que le Stacked training est systĂ©matiquement plus efficace en termes dâĂ©chantillonnage : la mĂ©thode Phased nâapporte aucun gain mesurable et risque de provoquer un oubli partiel des premiĂšres phases lors des transitions (Pareja et al. 2025).
8.3.3 Dynamiques Précoces
On peut souvent repĂ©rer trĂšs tĂŽt si un entraĂźnement part bien. Comme pour une course longue, un dĂ©part rĂ©gulier vaut mieux quâun dĂ©part brutal.
đ HyperparamĂštres et signaux prĂ©coces
Pareja et al. (2025) rĂ©vĂšlent une ârecette secrĂšteâ basĂ©e sur les dynamiques prĂ©coces de lâentraĂźnement (Pareja et al. 2025) :
HyperparamĂštres optimaux :
- Batch size Ă©levĂ© (ex. : 4K sĂ©quences) avec un taux dâapprentissage bas (ex. : 1e-5) : Cette combinaison stabilise les gradients et permet une convergence vers des minima plus plats.
- Gradient accumulation : Permet de simuler un grand batch sur du matĂ©riel limitĂ© â accumuler k mini-batchs avant chaque pas dâoptimiseur.
- Warmup linĂ©aire suivi dâune dĂ©croissance cosinus du taux dâapprentissage.
Indicateurs de SuccÚs Précoces :
Contre lâintuition, une norme de gradient faible couplĂ©e Ă des valeurs de perte initiales Ă©levĂ©es durant les premiers centaines de pas sont des prĂ©dicteurs de succĂšs final (Pareja et al. 2025). Cette dynamique indique que le modĂšle se trouve dans un bassin dâattraction large et rĂ©gulier, plutĂŽt quâun optimum local Ă©troit. Ă lâinverse, une norme de gradient Ă©levĂ©e dĂšs le dĂ©but signale une instabilitĂ© probable.
Ce diagnostic prĂ©coce permet dâarrĂȘter prĂ©maturĂ©ment les runs sous-optimaux sans attendre la convergence complĂšte â Ă©conomisant jusquâĂ 70% du budget de calcul de fine-tuning.
| Indicateur précoce | Bon signal | Mauvais signal |
|---|---|---|
| Norme du gradient | Faible, stable | ĂlevĂ©e, oscillante |
| Perte initiale | Haute (puis décroßt) | Déjà basse (sous-fitté) |
| Stabilité des poids | Faibles variations | Grandes mises à jour |
8.4 PEFT, LoRA et Alignement
Le fine-tuning complet coĂ»te cher. Le Parameter-Efficient Fine-Tuning (PEFT) cherche une idĂ©e plus lĂ©gĂšre : garder le grand modĂšle presque intact et nâentraĂźner que de petits modules dâadaptation.
đ Lecture technique
Le fine-tuning complet dâun LLM de 7 milliards de paramĂštres requiert plusieurs dizaines de GPU A100 pendant plusieurs jours â prohibitif pour la grande majoritĂ© des praticiens. Le PEFT (Parameter-Efficient Fine-Tuning) permet dâatteindre des performances comparables en ne mettant Ă jour quâune fraction infime des paramĂštres (Hugging Face 2026a; Balne et al. 2024).
đ DĂ©composition LoRA
8.4.1 LoRA et Bas Rang
LoRA ajoute de petites piĂšces entraĂźnables sur un modĂšle gelĂ©. Câest comme corriger une grande machine avec quelques rĂ©glages externes plutĂŽt que de reconstruire tout le moteur.
đą DĂ©composition LoRA
LoRA (Low-Rank Adaptation, Hu et al. 2021) est la mĂ©thode PEFT la plus rĂ©pandue. Lâintuition fondamentale : la mise Ă jour des poids lors du fine-tuning a un rang intrinsĂšquement bas â elle nâexplore quâun sous-espace restreint de lâespace des paramĂštres (Wikipedia contributors 2026).
PlutÎt que de modifier directement une matrice de poids \mathbf{W} \in \mathbb{R}^{d \times d}, LoRA ajoute une décomposition de bas rang apprise :
\mathbf{W}' = \mathbf{W} + \Delta\mathbf{W} = \mathbf{W} + \mathbf{B}\mathbf{A}
oĂč \mathbf{A} \in \mathbb{R}^{r \times d}, \mathbf{B} \in \mathbb{R}^{d \times r}, et r \ll \min(d, d) est le rang LoRA. Seules \mathbf{A} et \mathbf{B} sont entraĂźnĂ©es ; \mathbf{W} est gelĂ©e. Pour r = 8 et d = 4096, LoRA rĂ©duit les paramĂštres entraĂźnables dâun facteur \approx 256.
Initialisation : \mathbf{A} est initialisĂ©e alĂ©atoirement (distribution gaussienne), \mathbf{B} est initialisĂ©e Ă zĂ©ro â garantissant que \Delta\mathbf{W} = 0 au dĂ©but de lâentraĂźnement, prĂ©servant le comportement du modĂšle prĂ©-entraĂźnĂ©.
Ă lâinfĂ©rence : On absorbe LoRA dans le poids original : \mathbf{W}' = \mathbf{W} + \mathbf{B}\mathbf{A}. Il nây a aucun surcoĂ»t de latence par rapport au modĂšle de base â LoRA est une technique dâentraĂźnement, pas dâarchitecture.
HyperparamÚtres clés (Unsloth 2026) :
| HyperparamĂštre | RĂŽle | Valeurs typiques |
|---|---|---|
| r (rang) | Capacité de la décomposition | 8, 16, 64 |
| \alpha (scaling) | Mise Ă lâĂ©chelle : \frac{\alpha}{r}\mathbf{BA} | r, 2r |
target_modules |
Quelles matrices adapter (Q, K, V, FFN) | Toutes les projections |
dropout |
RĂ©gularisation des matrices A, B | 0.05â0.1 |
8.4.2 QLoRA sur GPU Grand Public
QLoRA pousse lâĂ©conomie plus loin : le modĂšle de base est stockĂ© en trĂšs basse prĂ©cision, et seuls les petits adaptateurs restent entraĂźnĂ©s finement.
đ DĂ©tails QLoRA
QLoRA (Dettmers et al. 2023) combine LoRA avec la quantification en 4 bits du modĂšle de base, permettant le fine-tuning dâun modĂšle 65B sur un seul GPU de 48 Go (Dettmers et al. 2023) :
- NF4 (NormalFloat 4-bit) : Format de quantification optimal pour les poids normalement distribuĂ©s â chaque poids est stockĂ© sur 4 bits avec une grille de quantification adaptĂ©e Ă \mathcal{N}(0,1).
- Double Quantification : Quantification des constantes de quantification elles-mĂȘmes, rĂ©duisant davantage lâempreinte mĂ©moire.
- Paged Optimizers : Gestion de la mémoire GPU/CPU pour éviter les OOM (Out Of Memory) lors des pics de gradient.
LâinfĂ©rence QLoRA reste en 4 bits ; seuls les adaptateurs LoRA sont en prĂ©cision complĂšte (bf16). Les performances sont comparables au fine-tuning complet en bf16 sur les benchmarks standards (Dettmers et al. 2023).
8.4.3 Alignement Professionnel
AprĂšs le fine-tuning, il reste une question : le modĂšle rĂ©pond-il de façon utile, sĂ»re et conforme aux attentes humaines ? Lâalignement sert Ă rĂ©gler ce comportement.
đ MĂ©thodes dâalignement
Le SFT produit un modĂšle qui suit les instructions mais pas nĂ©cessairement de façon utile et sĂ»re (helpful and harmless). Lâalignement est la derniĂšre Ă©tape du pipeline post-entraĂźnement, garantissant que lâexpert mĂ©tier produit des rĂ©ponses conformes aux valeurs et aux besoins de lâutilisateur (ApX Machine Learning 2024).
RLHF (Reinforcement Learning from Human Feedback) :
Le processus standard en trois phases : (1) SFT, (2) entraĂźnement dâun modĂšle de rĂ©compense par comparaisons humaines de rĂ©ponses, (3) optimisation par RL (PPO) du LLM pour maximiser la rĂ©compense. RLHF est la mĂ©thode utilisĂ©e par InstructGPT, ChatGPT et Claude.
DPO (Direct Preference Optimization) :
Une simplification théoriquement fondée qui élimine le modÚle de récompense explicite. DPO paramétrise directement la politique optimale en fonction des préférences humaines, transformant le problÚme RL en une simple classification binaire sur des paires de préférences (Jiang et al. 2025).
Continual Learning et Oubli Catastrophique :
Dans les dĂ©ploiements production, les modĂšles sont continuellement mis Ă jour avec de nouvelles donnĂ©es ou de nouvelles instructions. Sans prĂ©cautions, chaque fine-tuning ultĂ©rieur risque dâĂ©craser les connaissances prĂ©cĂ©dentes (Chen et al. 2026; Schweighofer et al. 2025). Les techniques de mitigation incluent :
- Replay de données : Mélanger des données du pré-entraßnement original dans le fine-tuning.
- EWC (Elastic Weight Consolidation) : Pénalise les modifications des poids les plus importants pour les tùches précédentes.
- LoRA pour lâisolation : Les adaptateurs LoRA sĂ©parent physiquement les connaissances gĂ©nĂ©rales (poids gelĂ©s) des spĂ©cialisations (matrices A, B).