8  🚀 LLMs AvancĂ©s : PrĂ©-entraĂźnement, Scaling et Alignement

8.1 Construire la Fondation

Le prĂ©-entraĂźnement est la grande phase de lecture d’un grand modĂšle de langage (LLM). Le modĂšle lit Ă©normĂ©ment de texte et apprend surtout une tĂąche simple : deviner le prochain token.

Cette étape construit sa culture générale statistique : vocabulaire, styles, faits fréquents, structures de phrases et raisonnements récurrents.

Le dĂ©veloppement d’un grand modĂšle de langage (LLM) ne se rĂ©sume pas Ă  une phase de calcul massive et indiffĂ©renciĂ©e. Le prĂ©-entraĂźnement est l’étape oĂč le modĂšle acquiert son capital de connaissances initial, sa structure cognitive et sa comprĂ©hension statistique du monde. La qualitĂ© de cette fondation dĂ©termine la capacitĂ© de gĂ©nĂ©ralisation et l’efficacitĂ© de toutes les spĂ©cialisations ultĂ©rieures (YĂŒksel and Flammarion 2025; GoPenAI 2026).

📉 Perte d’entraĂźnement vs tokens traitĂ©s

8.1.1 Modélisation Autorégressive

Pendant le prĂ©-entraĂźnement, le modĂšle joue Ă  complĂ©ter la phrase. À force de prĂ©dire la suite, il apprend quels mots vont ensemble et quelles structures sont plausibles.

Sous l’angle mathĂ©matique, le prĂ©-entraĂźnement autorĂ©gressif par prĂ©diction du prochain token (next-token prediction) modĂ©lise le langage comme une chaĂźne de Markov d’ordre k. Pour un corpus de N sĂ©quences de tokens, l’objectif est de maximiser la vraisemblance (YĂŒksel and Flammarion 2025) :

\mathcal{L}_{\text{pré-entraßnement}} = \sum_{t} \log p_\theta(w_t | w_{t-1}, w_{t-2}, \ldots, w_{t-k})

Pour que les garanties thĂ©oriques de gĂ©nĂ©ralisation s’appliquent, on suppose des fonctions de logit bornĂ©es et Lipschitziennes. La performance se mesure selon deux axes (YĂŒksel and Flammarion 2025) :

  • Erreur in-sample : PrĂ©cision sur des contextes dĂ©jĂ  observĂ©s. Elle dĂ©croĂźt en O\!\left(\frac{1}{NT}\right) par rapport au nombre total de tokens NT.

  • Erreur out-of-sample : Performance sur des contextes inĂ©dits, liĂ©e aux propriĂ©tĂ©s de mĂ©lange (mixing properties, \tau_{\text{mix}}) de la chaĂźne de Markov sous-jacente. Le temps de mĂ©lange \tau_{\text{mix}} reprĂ©sente le nombre de pas nĂ©cessaires pour explorer de nouveaux Ă©tats contextuels.

📚 L’Élùve et le Corpus

Imaginez un Ă©lĂšve qui apprend une langue en lisant des millions de textes. S’il complĂšte seulement des phrases dĂ©jĂ  vues, il mĂ©morise. S’il complĂšte correctement des phrases nouvelles, il commence Ă  gĂ©nĂ©raliser. Un bon corpus doit donc ĂȘtre variĂ© : sinon, le modĂšle apprend surtout Ă  rĂ©pĂ©ter.

8.1.2 Qualité avant Quantité

Un bon modĂšle ne vient pas seulement de beaucoup de texte. Il faut aussi nettoyer ce texte : enlever les doublons, filtrer les contenus faibles, puis dĂ©couper le corpus pour nourrir l’entraĂźnement rĂ©guliĂšrement.

La performance du pré-entraßnement dépend autant de la qualité du corpus que de sa taille. Les LLMs modernes appliquent un pipeline rigoureux (GoPenAI 2026; Zhong et al. 2025) :

Déduplication :

La prĂ©sence de documents dupliquĂ©s dans le corpus de prĂ©-entraĂźnement est l’une des sources de dĂ©gradation les plus sous-estimĂ©es. Un corpus dupliquĂ© Ă  10% force le modĂšle Ă  mĂ©moriser ces sĂ©quences rĂ©pĂ©tĂ©es plutĂŽt qu’à gĂ©nĂ©raliser. La dĂ©duplication exacte (hash de n-grammes) et floue (MinHash pour la dĂ©duplication approximative) sont appliquĂ©es systĂ©matiquement (GoPenAI 2026).

Filtrage de Qualité :

Les pipelines modernes (ex. : FineWeb d’Hugging Face) filtrent le web par classifieurs de qualitĂ© — souvent un modĂšle fine-tunĂ© sur des donnĂ©es curatĂ©es par des humains comme rĂ©fĂ©rence positive. Le ratio donnĂ©es “qualitĂ© web” vs “qualitĂ© book” conditionne les capacitĂ©s de raisonnement (Technology Innovation Institute (TII) 2023).

Tokenisation et Sharding :

Pour les corpus de plusieurs tera-tokens, le pipeline de tokenisation et de dĂ©coupage (sharding) devient un problĂšme d’ingĂ©nierie en lui-mĂȘme. Des systĂšmes comme Youmu (Zhong et al. 2025) optimisent le pipeline de donnĂ©es columnar pour alimenter l’entraĂźnement sans crĂ©er de stalls (Zhong et al. 2025).

8.1.3 Au-delà de la Mémorisation

Le but n’est pas de rĂ©citer le corpus. Un bon modĂšle doit utiliser ce qu’il a vu pour rĂ©pondre correctement Ă  des phrases nouvelles.

La capacitĂ© de gĂ©nĂ©ralisation d’un modĂšle ne dĂ©pend pas du nombre brut de paramĂštres, mais de la complexitĂ© statistique de sa classe d’hypothĂšse. Une architecture bien dĂ©finie permet de briser la “malĂ©diction de la dimensionnalitĂ©â€ des modĂšles n-grammes classiques, offrant des taux de gĂ©nĂ©ralisation qui ne croissent pas exponentiellement avec k (YĂŒksel and Flammarion 2025).

Les Transformers, via leur mĂ©canisme d’attention global, apprennent une classe d’hypothĂšse implicitement rĂ©gularisĂ©e : la structure de l’attention force le modĂšle Ă  exprimer ses prĂ©dictions comme des combinaisons convexes de patterns vus Ă  l’entraĂźnement. Cette inductive bias est le mĂ©canisme profond qui permet la gĂ©nĂ©ralisation Ă  de nouveaux contextes jamais vus.

8.2 Lois d’Échelle et Optimisation du Compute

Les lois d’échelle rĂ©pondent Ă  une question trĂšs concrĂšte : avec un budget donnĂ©, vaut-il mieux agrandir le modĂšle, lui donner plus de donnĂ©es, ou faire les deux ?

Les lois d’échelle (scaling laws) Ă©tablissent des relations quantitatives entre les trois ressources fondamentales du prĂ©-entraĂźnement : la taille du modĂšle N (nombre de paramĂštres), le volume de donnĂ©es D (nombre de tokens), et le budget de calcul C \approx 6ND (FLOPs). L’arbitrage entre ces trois ressources est l’une des dĂ©cisions stratĂ©giques les plus importantes dans le dĂ©veloppement d’un LLM.

📐 Lois d’Échelle

8.2.1 Loi de Chinchilla

La rÚgle Chinchilla dit : ne construisez pas seulement un modÚle énorme ; donnez-lui aussi assez de texte. Un grand cerveau sous-entraßné reste mal utilisé.

Hoffmann et al. (DeepMind, 2022) Ă©tablissent que pour un budget de calcul C fixĂ©, la perte de validation est minimisĂ©e quand la taille du modĂšle N et le volume de donnĂ©es D sont augmentĂ©s proportionnellement (Hoffmann et al. 2022) :

N^* \propto C^{0.5}, \qquad D^* \propto C^{0.5}, \qquad N^* \approx \frac{D^*}{20}

La rĂšgle pratique est la suivante : entraĂźner sur environ 20 tokens par paramĂštre. Llama 2 (7B paramĂštres) entraĂźnĂ© sur 2 trillions de tokens (\approx 285 tokens/paramĂštre) dĂ©passe dĂ©jĂ  significativement cet optimum d’entraĂźnement.

⚠ Un Optimum Mal DĂ©fini

L’approche Chinchilla minimise la perte finale d’entraĂźnement pour un budget C fixĂ©. Mais la perte d’entraĂźnement n’est pas l’objectif ultime — la performance Ă  l’infĂ©rence l’est. Cette distinction cruciale redĂ©finit le problĂšme d’optimisation.

8.2.2 Inférence Optimale

Quand un modĂšle sert des milliards de requĂȘtes, le coĂ»t d’utilisation devient aussi important que le coĂ»t d’entraĂźnement. Parfois, un modĂšle plus petit mais mieux entraĂźnĂ© coĂ»te moins cher au total.

Sardana et Frankle (2024) reformulent le problĂšme : pour une organisation qui dĂ©ploiera le modĂšle sur Q requĂȘtes d’infĂ©rence, quel est le point d’opĂ©ration optimal ? (Sardana et al. 2024)

Le coĂ»t total sur le cycle de vie est la somme du coĂ»t d’entraĂźnement et du coĂ»t d’infĂ©rence :

C_{\text{total}} = C_{\text{train}}(N, D) + Q \cdot C_{\text{inférence}}(N)

C_{\text{infĂ©rence}}(N) croĂźt linĂ©airement avec N (plus de paramĂštres → plus de FLOPs par token gĂ©nĂ©rĂ©). Pour Q trĂšs grand, minimiser C_{\text{total}} nĂ©cessite un modĂšle plus petit (moins coĂ»teux Ă  l’infĂ©rence), compensĂ© par beaucoup plus de tokens d’entraĂźnement.

CritÚre Chinchilla-Optimal Inférence-Optimal
Objectif Minimiser la perte d’entraĂźnement Minimiser le coĂ»t total (train + infĂ©rence)
Seuil d’usage Prototypage / Recherche > 10^9 requĂȘtes d’infĂ©rence
Tokens par paramùtre ~20 Jusqu’à 10 000+
Exemple emblématique GPT-4 (estimation) Llama 3 (15T tokens sur 8B)

Calcul illustratif : Pour 2 trillions de tokens d’infĂ©rence anticipĂ©s, choisir un modĂšle 7B entraĂźnĂ© intensivement plutĂŽt qu’un 13B Chinchilla-optimal peut rĂ©duire le coĂ»t total de 17% — soit 1.7 \times 10^{22} FLOPs Ă©conomisĂ©s (Sardana et al. 2024).

8.2.3 Lois d’Échelle et Architecture

Les lois d’échelle ne remplacent pas le choix d’architecture. Selon la tĂąche, un modĂšle gĂ©nĂ©ratif ou un encodeur spĂ©cialisĂ© peut rester plus adaptĂ©.

Les lois d’échelle font apparaĂźtre une tension entre architecture et donnĂ©es. Concernant les modĂšles encoder-only (BERT-like) vs decoder-only (GPT-like), GisserotBoukhlef et al. (2026) montrent que les encodeurs prĂ©-entraĂźnĂ©s avec MLM (Masked Language Modeling) maintiennent des avantages spĂ©cifiques pour les tĂąches de classification en rĂ©gime de peu de donnĂ©es, mĂȘme Ă  l’ùre des LLMs gĂ©nĂ©ratifs. La question “faut-il encore prĂ©-entraĂźner des encodeurs ?” reste ouverte et dĂ©pend du cas d’usage (Gisserot-Boukhlef et al. 2026).

8.2.4 Jalons de LLaMA

L’évolution de LLaMA illustre le changement : les modĂšles rĂ©cents sont souvent entraĂźnĂ©s beaucoup plus longtemps sur plus de tokens, mĂȘme quand leur taille reste modĂ©rĂ©e.

ModĂšle ParamĂštres Tokens d’entraĂźnement Tokens/paramĂštre StratĂ©gie
LLaMA 1 (2023) 65B 1.4T ~21 Chinchilla-proche
LLaMA 2 (2023) 7B–70B 2T 285 (7B) DĂ©jĂ  sur-entraĂźnĂ©
LLaMA 3 (2024) 8B–70B 15T 1875 (8B) InfĂ©rence-optimal

Cette Ă©volution illustre le basculement de paradigme : LLaMA 3 8B, entraĂźnĂ© sur 15T tokens, surpasse LLaMA 2 70B sur de nombreux benchmarks, confirmant empiriquement la supĂ©rioritĂ© de l’approche infĂ©rence-optimale pour les modĂšles dĂ©ployĂ©s Ă  grande Ă©chelle (Sardana et al. 2024).

8.3 Du Savoir Général au Métier

Le pré-entraßnement donne une culture générale au modÚle. Le fine-tuning lui apprend ensuite un comportement précis : répondre dans un format, respecter un domaine, ou suivre des instructions.

Le prĂ©-entraĂźnement produit un modĂšle aux capacitĂ©s gĂ©nĂ©rales remarquables mais dont le comportement est non alignĂ© avec les attentes utilisateurs : il prĂ©dit le prochain token, pas nĂ©cessairement des rĂ©ponses utiles et sĂ»res. Le fine-tuning est le processus qui sculpte ce modĂšle brut en un assistant spĂ©cialisĂ©, adaptĂ© Ă  un domaine ou Ă  un format d’interaction particulier (Hugging Face 2026b; Vo and GreenNode 2026).

📊 Dynamiques PrĂ©coces

8.3.1 Transfer Learning vs Fine-Tuning Complet

Adapter un modĂšle peut ĂȘtre lĂ©ger ou profond. Si le domaine ressemble dĂ©jĂ  Ă  ce que le modĂšle connaĂźt, on change peu de choses ; si le domaine est trĂšs diffĂ©rent, il faut ajuster davantage.

Le choix de la profondeur d’adaptation dĂ©pend de l’ampleur du Domain Shift — l’écart entre la distribution des donnĂ©es gĂ©nĂ©rales du web et celle du domaine cible (Vo and GreenNode 2026) :

Transfer Learning (Head-only) : Les poids du “backbone” (corps du Transformer) sont gelĂ©s. Seule la “tĂȘte” (classification head ou adapter layers) est rĂ©entraĂźnĂ©e. AdaptĂ© quand le corpus cible est petit (<100K exemples) et le jargon est couvert par le prĂ©-entraĂźnement.

Fine-Tuning Complet : Toutes les couches sont mises Ă  jour. NĂ©cessaire quand la logique mĂ©tier diverge radicalement (mĂ©dical, juridique, code propriĂ©taire). Le risque est l’oubli catastrophique (catastrophic forgetting) : le modĂšle oublie les connaissances gĂ©nĂ©rales en sur-optimisant sur le domaine cible (Schweighofer et al. 2025).

Domain-Adaptive Post-Training : Une phase intermédiaire de pré-entraßnement sur des données du domaine (sans supervision), avant le fine-tuning supervisé. ParticuliÚrement efficace pour les domaines à terminologie spécialisée (finance, biomédical) (Ke et al. 2025).

8.3.2 DonnĂ©es d’Instruction SFT

Le Supervised Fine-Tuning (SFT) entraĂźne le modĂšle avec des exemples du type : instruction → bonne rĂ©ponse. C’est une façon directe de lui montrer le comportement attendu.

Le Supervised Fine-Tuning (SFT) entraĂźne le modĂšle sur des paires instruction-rĂ©ponse. La structure de ces donnĂ©es d’instruction conditionne directement la qualitĂ© finale (Hugging Face 2026b).

Stacked vs Phased Training :

Une controverse active porte sur l’ordonnancement optimal des donnĂ©es. L’approche Phased (Orca-style) entraĂźne d’abord sur des donnĂ©es “connaissances” puis sur des donnĂ©es “compĂ©tences” selon une progression de difficultĂ©. L’approche Stacked mĂ©lange toutes les donnĂ©es dĂšs le dĂ©but (Pareja et al. 2025).

Les travaux de Pareja et al. (2025) sur les modĂšles 3B–7B dĂ©montrent que le Stacked training est systĂ©matiquement plus efficace en termes d’échantillonnage : la mĂ©thode Phased n’apporte aucun gain mesurable et risque de provoquer un oubli partiel des premiĂšres phases lors des transitions (Pareja et al. 2025).

8.3.3 Dynamiques Précoces

On peut souvent repĂ©rer trĂšs tĂŽt si un entraĂźnement part bien. Comme pour une course longue, un dĂ©part rĂ©gulier vaut mieux qu’un dĂ©part brutal.

Pareja et al. (2025) rĂ©vĂšlent une “recette secrĂšte” basĂ©e sur les dynamiques prĂ©coces de l’entraĂźnement (Pareja et al. 2025) :

HyperparamĂštres optimaux :

  • Batch size Ă©levĂ© (ex. : 4K sĂ©quences) avec un taux d’apprentissage bas (ex. : 1e-5) : Cette combinaison stabilise les gradients et permet une convergence vers des minima plus plats.
  • Gradient accumulation : Permet de simuler un grand batch sur du matĂ©riel limitĂ© — accumuler k mini-batchs avant chaque pas d’optimiseur.
  • Warmup linĂ©aire suivi d’une dĂ©croissance cosinus du taux d’apprentissage.

Indicateurs de SuccÚs Précoces :

Contre l’intuition, une norme de gradient faible couplĂ©e Ă  des valeurs de perte initiales Ă©levĂ©es durant les premiers centaines de pas sont des prĂ©dicteurs de succĂšs final (Pareja et al. 2025). Cette dynamique indique que le modĂšle se trouve dans un bassin d’attraction large et rĂ©gulier, plutĂŽt qu’un optimum local Ă©troit. À l’inverse, une norme de gradient Ă©levĂ©e dĂšs le dĂ©but signale une instabilitĂ© probable.

Ce diagnostic prĂ©coce permet d’arrĂȘter prĂ©maturĂ©ment les runs sous-optimaux sans attendre la convergence complĂšte — Ă©conomisant jusqu’à 70% du budget de calcul de fine-tuning.

Indicateur précoce Bon signal Mauvais signal
Norme du gradient Faible, stable ÉlevĂ©e, oscillante
Perte initiale Haute (puis décroßt) Déjà basse (sous-fitté)
Stabilité des poids Faibles variations Grandes mises à jour
🏃 Marathon en Premier Kilomùtre

Un entraĂźneur de marathon peut prĂ©dire la performance finale d’un coureur dĂšs le premier kilomĂštre — non pas par la vitesse, mais par la rĂ©gularitĂ© de la foulĂ©e et la frĂ©quence cardiaque. Un rythme trop Ă©levĂ© dĂšs le dĂ©part (Ă©quivalent : gradient Ă©levĂ©) signale un coureur qui s’épuisera avant l’arrivĂ©e. Un dĂ©part rĂ©gulier et contrĂŽlĂ©, mĂȘme plus lent, prĂ©dit une meilleure performance finale. Les dynamiques prĂ©coces du SFT suivent la mĂȘme logique.

8.4 PEFT, LoRA et Alignement

Le fine-tuning complet coĂ»te cher. Le Parameter-Efficient Fine-Tuning (PEFT) cherche une idĂ©e plus lĂ©gĂšre : garder le grand modĂšle presque intact et n’entraĂźner que de petits modules d’adaptation.

Le fine-tuning complet d’un LLM de 7 milliards de paramĂštres requiert plusieurs dizaines de GPU A100 pendant plusieurs jours — prohibitif pour la grande majoritĂ© des praticiens. Le PEFT (Parameter-Efficient Fine-Tuning) permet d’atteindre des performances comparables en ne mettant Ă  jour qu’une fraction infime des paramĂštres (Hugging Face 2026a; Balne et al. 2024).

🔑 DĂ©composition LoRA

8.4.1 LoRA et Bas Rang

LoRA ajoute de petites piĂšces entraĂźnables sur un modĂšle gelĂ©. C’est comme corriger une grande machine avec quelques rĂ©glages externes plutĂŽt que de reconstruire tout le moteur.

LoRA (Low-Rank Adaptation, Hu et al. 2021) est la mĂ©thode PEFT la plus rĂ©pandue. L’intuition fondamentale : la mise Ă  jour des poids lors du fine-tuning a un rang intrinsĂšquement bas — elle n’explore qu’un sous-espace restreint de l’espace des paramĂštres (Wikipedia contributors 2026).

PlutÎt que de modifier directement une matrice de poids \mathbf{W} \in \mathbb{R}^{d \times d}, LoRA ajoute une décomposition de bas rang apprise :

\mathbf{W}' = \mathbf{W} + \Delta\mathbf{W} = \mathbf{W} + \mathbf{B}\mathbf{A}

oĂč \mathbf{A} \in \mathbb{R}^{r \times d}, \mathbf{B} \in \mathbb{R}^{d \times r}, et r \ll \min(d, d) est le rang LoRA. Seules \mathbf{A} et \mathbf{B} sont entraĂźnĂ©es ; \mathbf{W} est gelĂ©e. Pour r = 8 et d = 4096, LoRA rĂ©duit les paramĂštres entraĂźnables d’un facteur \approx 256.

Initialisation : \mathbf{A} est initialisĂ©e alĂ©atoirement (distribution gaussienne), \mathbf{B} est initialisĂ©e Ă  zĂ©ro — garantissant que \Delta\mathbf{W} = 0 au dĂ©but de l’entraĂźnement, prĂ©servant le comportement du modĂšle prĂ©-entraĂźnĂ©.

À l’infĂ©rence : On absorbe LoRA dans le poids original : \mathbf{W}' = \mathbf{W} + \mathbf{B}\mathbf{A}. Il n’y a aucun surcoĂ»t de latence par rapport au modĂšle de base — LoRA est une technique d’entraĂźnement, pas d’architecture.

HyperparamÚtres clés (Unsloth 2026) :

HyperparamĂštre RĂŽle Valeurs typiques
r (rang) Capacité de la décomposition 8, 16, 64
\alpha (scaling) Mise Ă  l’échelle : \frac{\alpha}{r}\mathbf{BA} r, 2r
target_modules Quelles matrices adapter (Q, K, V, FFN) Toutes les projections
dropout RĂ©gularisation des matrices A, B 0.05–0.1

8.4.2 QLoRA sur GPU Grand Public

QLoRA pousse l’économie plus loin : le modĂšle de base est stockĂ© en trĂšs basse prĂ©cision, et seuls les petits adaptateurs restent entraĂźnĂ©s finement.

QLoRA (Dettmers et al. 2023) combine LoRA avec la quantification en 4 bits du modĂšle de base, permettant le fine-tuning d’un modĂšle 65B sur un seul GPU de 48 Go (Dettmers et al. 2023) :

  1. NF4 (NormalFloat 4-bit) : Format de quantification optimal pour les poids normalement distribuĂ©s — chaque poids est stockĂ© sur 4 bits avec une grille de quantification adaptĂ©e Ă  \mathcal{N}(0,1).
  2. Double Quantification : Quantification des constantes de quantification elles-mĂȘmes, rĂ©duisant davantage l’empreinte mĂ©moire.
  3. Paged Optimizers : Gestion de la mémoire GPU/CPU pour éviter les OOM (Out Of Memory) lors des pics de gradient.

L’infĂ©rence QLoRA reste en 4 bits ; seuls les adaptateurs LoRA sont en prĂ©cision complĂšte (bf16). Les performances sont comparables au fine-tuning complet en bf16 sur les benchmarks standards (Dettmers et al. 2023).

8.4.3 Alignement Professionnel

AprĂšs le fine-tuning, il reste une question : le modĂšle rĂ©pond-il de façon utile, sĂ»re et conforme aux attentes humaines ? L’alignement sert Ă  rĂ©gler ce comportement.

Le SFT produit un modĂšle qui suit les instructions mais pas nĂ©cessairement de façon utile et sĂ»re (helpful and harmless). L’alignement est la derniĂšre Ă©tape du pipeline post-entraĂźnement, garantissant que l’expert mĂ©tier produit des rĂ©ponses conformes aux valeurs et aux besoins de l’utilisateur (ApX Machine Learning 2024).

RLHF (Reinforcement Learning from Human Feedback) :

Le processus standard en trois phases : (1) SFT, (2) entraĂźnement d’un modĂšle de rĂ©compense par comparaisons humaines de rĂ©ponses, (3) optimisation par RL (PPO) du LLM pour maximiser la rĂ©compense. RLHF est la mĂ©thode utilisĂ©e par InstructGPT, ChatGPT et Claude.

DPO (Direct Preference Optimization) :

Une simplification théoriquement fondée qui élimine le modÚle de récompense explicite. DPO paramétrise directement la politique optimale en fonction des préférences humaines, transformant le problÚme RL en une simple classification binaire sur des paires de préférences (Jiang et al. 2025).

Continual Learning et Oubli Catastrophique :

Dans les dĂ©ploiements production, les modĂšles sont continuellement mis Ă  jour avec de nouvelles donnĂ©es ou de nouvelles instructions. Sans prĂ©cautions, chaque fine-tuning ultĂ©rieur risque d’écraser les connaissances prĂ©cĂ©dentes (Chen et al. 2026; Schweighofer et al. 2025). Les techniques de mitigation incluent :

  • Replay de donnĂ©es : MĂ©langer des donnĂ©es du prĂ©-entraĂźnement original dans le fine-tuning.
  • EWC (Elastic Weight Consolidation) : PĂ©nalise les modifications des poids les plus importants pour les tĂąches prĂ©cĂ©dentes.
  • LoRA pour l’isolation : Les adaptateurs LoRA sĂ©parent physiquement les connaissances gĂ©nĂ©rales (poids gelĂ©s) des spĂ©cialisations (matrices A, B).
🔑 Cycle de Vie d’un LLM
  • PrĂ©-entraĂźnement : Le modĂšle apprend une culture gĂ©nĂ©rale en lisant beaucoup de texte et en devinant la suite.
  • Lois d’échelle : Choisir la bonne taille de modĂšle dĂ©pend aussi du nombre de tokens disponibles et du coĂ»t futur d’utilisation.
  • SFT : Le modĂšle apprend Ă  suivre des instructions grĂące Ă  des exemples instruction-rĂ©ponse.
  • LoRA : Adapter un grand modĂšle peut se faire en entraĂźnant de petites matrices plutĂŽt que tous les poids.
  • Alignement : RLHF ou DPO aident Ă  transformer un prĂ©dicteur de texte en assistant plus fiable, utile et sĂ»r.