8 🚀 LLMs Avancés : Pré-entraînement, Scaling et Alignement

// ==========================================
// _ojs_bridge.qmd — OJS Global Namespace Bridge
//
// Include ONCE at the top of each chapter index.qmd:
//   {{< include ../../assets/_ojs_bridge.qmd >}}
//
// window.aptitek is set by an async `<script type="module">` in the page
// header (_quarto.yml include-in-header). That import may resolve AFTER
// OJS starts executing, causing `aptitek` to be undefined.
//
// Fix: return a Promise from this cell. OJS suspends all downstream cells
// until the promise resolves — the built-in, idiomatic solution for async
// dependencies in Observable JS.
//
// ✅ Zero-maintenance: adding a new export to index.js barrel is
//    instantly available — no edits to this file ever needed.
// ✅ Race-condition-safe: downstream cells never see undefined.
// ✅ Anti-double-definition: only ONE OJS name (`aptitek`) is defined.
// ==========================================
aptitek = {
  if (window.aptitek) return window.aptitek;
  return new Promise(resolve => {
    const check = () =>
      window.aptitek
        ? resolve(window.aptitek)
        : requestAnimationFrame(check);
    check();
  });
}

8.1 Construire la Fondation

Le pré-entraînement est la grande phase de lecture d’un grand modèle de langage (LLM). Le modèle lit énormément de texte et apprend surtout une tâche simple : deviner le prochain token.

Cette étape construit sa culture générale statistique : vocabulaire, styles, faits fréquents, structures de phrases et raisonnements récurrents.

🔍 Lecture technique

Le développement d’un grand modèle de langage (LLM) ne se résume pas à une phase de calcul massive et indifférenciée. Le pré-entraînement est l’étape où le modèle acquiert son capital de connaissances initial, sa structure cognitive et sa compréhension statistique du monde. La qualité de cette fondation détermine la capacité de généralisation et l’efficacité de toutes les spécialisations ultérieures (Yüksel and Flammarion 2025; GoPenAI 2026).

📉 Perte d’entraînement vs tokens traités

import { updatePretrainingViz } from "../../assets/js/simulations/learning-curves.js"

_pretraining = {
  updatePretrainingViz(document.getElementById("pretraining-chart-container"));
}

8.1.1 Modélisation Autorégressive

Pendant le pré-entraînement, le modèle joue à compléter la phrase. À force de prédire la suite, il apprend quels mots vont ensemble et quelles structures sont plausibles.

🔢 Objectif de pré-entraînement

Sous l’angle mathématique, le pré-entraînement autorégressif par prédiction du prochain token (next-token prediction) modélise le langage comme une chaîne de Markov d’ordre k. Pour un corpus de N séquences de tokens, l’objectif est de maximiser la vraisemblance (Yüksel and Flammarion 2025) :

\mathcal{L}_{\text{pré-entraînement}} = \sum_{t} \log p_\theta(w_t | w_{t-1}, w_{t-2}, \ldots, w_{t-k})

Pour que les garanties théoriques de généralisation s’appliquent, on suppose des fonctions de logit bornées et Lipschitziennes. La performance se mesure selon deux axes (Yüksel and Flammarion 2025) :

Erreur in-sample : Précision sur des contextes déjà observés. Elle décroît en O\!\left(\frac{1}{NT}\right) par rapport au nombre total de tokens NT.
Erreur out-of-sample : Performance sur des contextes inédits, liée aux propriétés de mélange (mixing properties, \tau_{\text{mix}}) de la chaîne de Markov sous-jacente. Le temps de mélange \tau_{\text{mix}} représente le nombre de pas nécessaires pour explorer de nouveaux états contextuels.

📚 L’Élève et le Corpus

Imaginez un élève qui apprend une langue en lisant des millions de textes. S’il complète seulement des phrases déjà vues, il mémorise. S’il complète correctement des phrases nouvelles, il commence à généraliser. Un bon corpus doit donc être varié : sinon, le modèle apprend surtout à répéter.

8.1.2 Qualité avant Quantité

Un bon modèle ne vient pas seulement de beaucoup de texte. Il faut aussi nettoyer ce texte : enlever les doublons, filtrer les contenus faibles, puis découper le corpus pour nourrir l’entraînement régulièrement.

🔍 Pipeline de données

La performance du pré-entraînement dépend autant de la qualité du corpus que de sa taille. Les LLMs modernes appliquent un pipeline rigoureux (GoPenAI 2026; Zhong et al. 2025) :

Déduplication :

La présence de documents dupliqués dans le corpus de pré-entraînement est l’une des sources de dégradation les plus sous-estimées. Un corpus dupliqué à 10% force le modèle à mémoriser ces séquences répétées plutôt qu’à généraliser. La déduplication exacte (hash de n-grammes) et floue (MinHash pour la déduplication approximative) sont appliquées systématiquement (GoPenAI 2026).

Filtrage de Qualité :

Les pipelines modernes (ex. : FineWeb d’Hugging Face) filtrent le web par classifieurs de qualité — souvent un modèle fine-tuné sur des données curatées par des humains comme référence positive. Le ratio données “qualité web” vs “qualité book” conditionne les capacités de raisonnement (Technology Innovation Institute (TII) 2023).

Tokenisation et Sharding :

Pour les corpus de plusieurs tera-tokens, le pipeline de tokenisation et de découpage (sharding) devient un problème d’ingénierie en lui-même. Des systèmes comme Youmu (Zhong et al. 2025) optimisent le pipeline de données columnar pour alimenter l’entraînement sans créer de stalls (Zhong et al. 2025).

8.1.3 Au-delà de la Mémorisation

Le but n’est pas de réciter le corpus. Un bon modèle doit utiliser ce qu’il a vu pour répondre correctement à des phrases nouvelles.

🔍 Généralisation

La capacité de généralisation d’un modèle ne dépend pas du nombre brut de paramètres, mais de la complexité statistique de sa classe d’hypothèse. Une architecture bien définie permet de briser la “malédiction de la dimensionnalité” des modèles n-grammes classiques, offrant des taux de généralisation qui ne croissent pas exponentiellement avec k (Yüksel and Flammarion 2025).

Les Transformers, via leur mécanisme d’attention global, apprennent une classe d’hypothèse implicitement régularisée : la structure de l’attention force le modèle à exprimer ses prédictions comme des combinaisons convexes de patterns vus à l’entraînement. Cette inductive bias est le mécanisme profond qui permet la généralisation à de nouveaux contextes jamais vus.

8.2 Lois d’Échelle et Optimisation du Compute

Les lois d’échelle répondent à une question très concrète : avec un budget donné, vaut-il mieux agrandir le modèle, lui donner plus de données, ou faire les deux ?

🔍 Lecture technique

Les lois d’échelle (scaling laws) établissent des relations quantitatives entre les trois ressources fondamentales du pré-entraînement : la taille du modèle N (nombre de paramètres), le volume de données D (nombre de tokens), et le budget de calcul C \approx 6ND (FLOPs). L’arbitrage entre ces trois ressources est l’une des décisions stratégiques les plus importantes dans le développement d’un LLM.

📐 Lois d’Échelle

import { updateScalingViz } from "../../assets/js/simulations/learning-curves.js"

_scaling = {
  updateScalingViz(document.getElementById("scaling-chart-container"));
}

8.2.1 Loi de Chinchilla

La règle Chinchilla dit : ne construisez pas seulement un modèle énorme ; donnez-lui aussi assez de texte. Un grand cerveau sous-entraîné reste mal utilisé.

🔢 Règle Chinchilla

Hoffmann et al. (DeepMind, 2022) établissent que pour un budget de calcul C fixé, la perte de validation est minimisée quand la taille du modèle N et le volume de données D sont augmentés proportionnellement (Hoffmann et al. 2022) :

N^* \propto C^{0.5}, \qquad D^* \propto C^{0.5}, \qquad N^* \approx \frac{D^*}{20}

La règle pratique est la suivante : entraîner sur environ 20 tokens par paramètre. Llama 2 (7B paramètres) entraîné sur 2 trillions de tokens (\approx 285 tokens/paramètre) dépasse déjà significativement cet optimum d’entraînement.

⚠️ Un Optimum Mal Défini

L’approche Chinchilla minimise la perte finale d’entraînement pour un budget C fixé. Mais la perte d’entraînement n’est pas l’objectif ultime — la performance à l’inférence l’est. Cette distinction cruciale redéfinit le problème d’optimisation.

8.2.2 Inférence Optimale

Quand un modèle sert des milliards de requêtes, le coût d’utilisation devient aussi important que le coût d’entraînement. Parfois, un modèle plus petit mais mieux entraîné coûte moins cher au total.

🔢 Coût total

Sardana et Frankle (2024) reformulent le problème : pour une organisation qui déploiera le modèle sur Q requêtes d’inférence, quel est le point d’opération optimal ? (Sardana et al. 2024)

Le coût total sur le cycle de vie est la somme du coût d’entraînement et du coût d’inférence :

C_{\text{total}} = C_{\text{train}}(N, D) + Q \cdot C_{\text{inférence}}(N)

C_{\text{inférence}}(N) croît linéairement avec N (plus de paramètres → plus de FLOPs par token généré). Pour Q très grand, minimiser C_{\text{total}} nécessite un modèle plus petit (moins coûteux à l’inférence), compensé par beaucoup plus de tokens d’entraînement.

Critère	Chinchilla-Optimal	Inférence-Optimal
Objectif	Minimiser la perte d’entraînement	Minimiser le coût total (train + inférence)
Seuil d’usage	Prototypage / Recherche	> 10^9 requêtes d’inférence
Tokens par paramètre	~20	Jusqu’à 10 000+
Exemple emblématique	GPT-4 (estimation)	Llama 3 (15T tokens sur 8B)

Calcul illustratif : Pour 2 trillions de tokens d’inférence anticipés, choisir un modèle 7B entraîné intensivement plutôt qu’un 13B Chinchilla-optimal peut réduire le coût total de 17% — soit 1.7 \times 10^{22} FLOPs économisés (Sardana et al. 2024).

8.2.3 Lois d’Échelle et Architecture

Les lois d’échelle ne remplacent pas le choix d’architecture. Selon la tâche, un modèle génératif ou un encodeur spécialisé peut rester plus adapté.

🔍 Architecture et cas d’usage

Les lois d’échelle font apparaître une tension entre architecture et données. Concernant les modèles encoder-only (BERT-like) vs decoder-only (GPT-like), GisserotBoukhlef et al. (2026) montrent que les encodeurs pré-entraînés avec MLM (Masked Language Modeling) maintiennent des avantages spécifiques pour les tâches de classification en régime de peu de données, même à l’ère des LLMs génératifs. La question “faut-il encore pré-entraîner des encodeurs ?” reste ouverte et dépend du cas d’usage (Gisserot-Boukhlef et al. 2026).

8.2.4 Jalons de LLaMA

L’évolution de LLaMA illustre le changement : les modèles récents sont souvent entraînés beaucoup plus longtemps sur plus de tokens, même quand leur taille reste modérée.

Modèle	Paramètres	Tokens d’entraînement	Tokens/paramètre	Stratégie
LLaMA 1 (2023)	65B	1.4T	~21	Chinchilla-proche
LLaMA 2 (2023)	7B–70B	2T	285 (7B)	Déjà sur-entraîné
LLaMA 3 (2024)	8B–70B	15T	1875 (8B)	Inférence-optimal

Cette évolution illustre le basculement de paradigme : LLaMA 3 8B, entraîné sur 15T tokens, surpasse LLaMA 2 70B sur de nombreux benchmarks, confirmant empiriquement la supériorité de l’approche inférence-optimale pour les modèles déployés à grande échelle (Sardana et al. 2024).

8.3 Du Savoir Général au Métier

Le pré-entraînement donne une culture générale au modèle. Le fine-tuning lui apprend ensuite un comportement précis : répondre dans un format, respecter un domaine, ou suivre des instructions.

🔍 Lecture technique

Le pré-entraînement produit un modèle aux capacités générales remarquables mais dont le comportement est non aligné avec les attentes utilisateurs : il prédit le prochain token, pas nécessairement des réponses utiles et sûres. Le fine-tuning est le processus qui sculpte ce modèle brut en un assistant spécialisé, adapté à un domaine ou à un format d’interaction particulier (Hugging Face 2026b; Vo and GreenNode 2026).

📊 Dynamiques Précoces

import { updateFinetuningViz } from "../../assets/js/simulations/learning-curves.js"

_finetuning = {
  updateFinetuningViz(document.getElementById("finetuning-chart-container"));
}

8.3.1 Transfer Learning vs Fine-Tuning Complet

Adapter un modèle peut être léger ou profond. Si le domaine ressemble déjà à ce que le modèle connaît, on change peu de choses ; si le domaine est très différent, il faut ajuster davantage.

🔍 Niveaux d’adaptation

Le choix de la profondeur d’adaptation dépend de l’ampleur du Domain Shift — l’écart entre la distribution des données générales du web et celle du domaine cible (Vo and GreenNode 2026) :

Transfer Learning (Head-only) : Les poids du “backbone” (corps du Transformer) sont gelés. Seule la “tête” (classification head ou adapter layers) est réentraînée. Adapté quand le corpus cible est petit (<100K exemples) et le jargon est couvert par le pré-entraînement.

Fine-Tuning Complet : Toutes les couches sont mises à jour. Nécessaire quand la logique métier diverge radicalement (médical, juridique, code propriétaire). Le risque est l’oubli catastrophique (catastrophic forgetting) : le modèle oublie les connaissances générales en sur-optimisant sur le domaine cible (Schweighofer et al. 2025).

Domain-Adaptive Post-Training : Une phase intermédiaire de pré-entraînement sur des données du domaine (sans supervision), avant le fine-tuning supervisé. Particulièrement efficace pour les domaines à terminologie spécialisée (finance, biomédical) (Ke et al. 2025).

8.3.2 Données d’Instruction SFT

Le Supervised Fine-Tuning (SFT) entraîne le modèle avec des exemples du type : instruction → bonne réponse. C’est une façon directe de lui montrer le comportement attendu.

🔍 Organisation des données SFT

Le Supervised Fine-Tuning (SFT) entraîne le modèle sur des paires instruction-réponse. La structure de ces données d’instruction conditionne directement la qualité finale (Hugging Face 2026b).

Stacked vs Phased Training :

Une controverse active porte sur l’ordonnancement optimal des données. L’approche Phased (Orca-style) entraîne d’abord sur des données “connaissances” puis sur des données “compétences” selon une progression de difficulté. L’approche Stacked mélange toutes les données dès le début (Pareja et al. 2025).

Les travaux de Pareja et al. (2025) sur les modèles 3B–7B démontrent que le Stacked training est systématiquement plus efficace en termes d’échantillonnage : la méthode Phased n’apporte aucun gain mesurable et risque de provoquer un oubli partiel des premières phases lors des transitions (Pareja et al. 2025).

8.3.3 Dynamiques Précoces

On peut souvent repérer très tôt si un entraînement part bien. Comme pour une course longue, un départ régulier vaut mieux qu’un départ brutal.

🔍 Hyperparamètres et signaux précoces

Pareja et al. (2025) révèlent une “recette secrète” basée sur les dynamiques précoces de l’entraînement (Pareja et al. 2025) :

Hyperparamètres optimaux :

Batch size élevé (ex. : 4K séquences) avec un taux d’apprentissage bas (ex. : 1e-5) : Cette combinaison stabilise les gradients et permet une convergence vers des minima plus plats.
Gradient accumulation : Permet de simuler un grand batch sur du matériel limité — accumuler k mini-batchs avant chaque pas d’optimiseur.
Warmup linéaire suivi d’une décroissance cosinus du taux d’apprentissage.

Indicateurs de Succès Précoces :

Contre l’intuition, une norme de gradient faible couplée à des valeurs de perte initiales élevées durant les premiers centaines de pas sont des prédicteurs de succès final (Pareja et al. 2025). Cette dynamique indique que le modèle se trouve dans un bassin d’attraction large et régulier, plutôt qu’un optimum local étroit. À l’inverse, une norme de gradient élevée dès le début signale une instabilité probable.

Ce diagnostic précoce permet d’arrêter prématurément les runs sous-optimaux sans attendre la convergence complète — économisant jusqu’à 70% du budget de calcul de fine-tuning.

Indicateur précoce	Bon signal	Mauvais signal
Norme du gradient	Faible, stable	Élevée, oscillante
Perte initiale	Haute (puis décroît)	Déjà basse (sous-fitté)
Stabilité des poids	Faibles variations	Grandes mises à jour

🏃 Marathon en Premier Kilomètre

Un entraîneur de marathon peut prédire la performance finale d’un coureur dès le premier kilomètre — non pas par la vitesse, mais par la régularité de la foulée et la fréquence cardiaque. Un rythme trop élevé dès le départ (équivalent : gradient élevé) signale un coureur qui s’épuisera avant l’arrivée. Un départ régulier et contrôlé, même plus lent, prédit une meilleure performance finale. Les dynamiques précoces du SFT suivent la même logique.

8.4 PEFT, LoRA et Alignement

Le fine-tuning complet coûte cher. Le Parameter-Efficient Fine-Tuning (PEFT) cherche une idée plus légère : garder le grand modèle presque intact et n’entraîner que de petits modules d’adaptation.

🔍 Lecture technique

Le fine-tuning complet d’un LLM de 7 milliards de paramètres requiert plusieurs dizaines de GPU A100 pendant plusieurs jours — prohibitif pour la grande majorité des praticiens. Le PEFT (Parameter-Efficient Fine-Tuning) permet d’atteindre des performances comparables en ne mettant à jour qu’une fraction infime des paramètres (Hugging Face 2026a; Balne et al. 2024).

🔑 Décomposition LoRA

viewof lora_d = Inputs.range([8, 128], { value: 64, step: 8, label: "Dimension d" })
viewof lora_r = Inputs.range([1, 32],  { value: 8,  step: 1, label: "Rang r" })

import { updateLoRAViz } from "../../assets/js/simulations/lora.js"

_loraViz = {
  updateLoRAViz(document.getElementById("lora-diagram-container"), { d: lora_d, r: lora_r });
}

8.4.1 LoRA et Bas Rang

LoRA ajoute de petites pièces entraînables sur un modèle gelé. C’est comme corriger une grande machine avec quelques réglages externes plutôt que de reconstruire tout le moteur.

🔢 Décomposition LoRA

LoRA (Low-Rank Adaptation, Hu et al. 2021) est la méthode PEFT la plus répandue. L’intuition fondamentale : la mise à jour des poids lors du fine-tuning a un rang intrinsèquement bas — elle n’explore qu’un sous-espace restreint de l’espace des paramètres (Wikipedia contributors 2026).

Plutôt que de modifier directement une matrice de poids \mathbf{W} \in \mathbb{R}^{d \times d}, LoRA ajoute une décomposition de bas rang apprise :

\mathbf{W}' = \mathbf{W} + \Delta\mathbf{W} = \mathbf{W} + \mathbf{B}\mathbf{A}

où \mathbf{A} \in \mathbb{R}^{r \times d}, \mathbf{B} \in \mathbb{R}^{d \times r}, et r \ll \min(d, d) est le rang LoRA. Seules \mathbf{A} et \mathbf{B} sont entraînées ; \mathbf{W} est gelée. Pour r = 8 et d = 4096, LoRA réduit les paramètres entraînables d’un facteur \approx 256.

Initialisation : \mathbf{A} est initialisée aléatoirement (distribution gaussienne), \mathbf{B} est initialisée à zéro — garantissant que \Delta\mathbf{W} = 0 au début de l’entraînement, préservant le comportement du modèle pré-entraîné.

À l’inférence : On absorbe LoRA dans le poids original : \mathbf{W}' = \mathbf{W} + \mathbf{B}\mathbf{A}. Il n’y a aucun surcoût de latence par rapport au modèle de base — LoRA est une technique d’entraînement, pas d’architecture.

Hyperparamètres clés (Unsloth 2026) :

Hyperparamètre	Rôle	Valeurs typiques
r (rang)	Capacité de la décomposition	8, 16, 64
\alpha (scaling)	Mise à l’échelle : \frac{\alpha}{r}\mathbf{BA}	r, 2r
`target_modules`	Quelles matrices adapter (Q, K, V, FFN)	Toutes les projections
`dropout`	Régularisation des matrices A, B	0.05–0.1

8.4.2 QLoRA sur GPU Grand Public

QLoRA pousse l’économie plus loin : le modèle de base est stocké en très basse précision, et seuls les petits adaptateurs restent entraînés finement.

🔍 Détails QLoRA

QLoRA (Dettmers et al. 2023) combine LoRA avec la quantification en 4 bits du modèle de base, permettant le fine-tuning d’un modèle 65B sur un seul GPU de 48 Go (Dettmers et al. 2023) :

NF4 (NormalFloat 4-bit) : Format de quantification optimal pour les poids normalement distribués — chaque poids est stocké sur 4 bits avec une grille de quantification adaptée à \mathcal{N}(0,1).
Double Quantification : Quantification des constantes de quantification elles-mêmes, réduisant davantage l’empreinte mémoire.
Paged Optimizers : Gestion de la mémoire GPU/CPU pour éviter les OOM (Out Of Memory) lors des pics de gradient.

L’inférence QLoRA reste en 4 bits ; seuls les adaptateurs LoRA sont en précision complète (bf16). Les performances sont comparables au fine-tuning complet en bf16 sur les benchmarks standards (Dettmers et al. 2023).

8.4.3 Alignement Professionnel

Après le fine-tuning, il reste une question : le modèle répond-il de façon utile, sûre et conforme aux attentes humaines ? L’alignement sert à régler ce comportement.

🔍 Méthodes d’alignement

Le SFT produit un modèle qui suit les instructions mais pas nécessairement de façon utile et sûre (helpful and harmless). L’alignement est la dernière étape du pipeline post-entraînement, garantissant que l’expert métier produit des réponses conformes aux valeurs et aux besoins de l’utilisateur (ApX Machine Learning 2024).

RLHF (Reinforcement Learning from Human Feedback) :

Le processus standard en trois phases : (1) SFT, (2) entraînement d’un modèle de récompense par comparaisons humaines de réponses, (3) optimisation par RL (PPO) du LLM pour maximiser la récompense. RLHF est la méthode utilisée par InstructGPT, ChatGPT et Claude.

DPO (Direct Preference Optimization) :

Une simplification théoriquement fondée qui élimine le modèle de récompense explicite. DPO paramétrise directement la politique optimale en fonction des préférences humaines, transformant le problème RL en une simple classification binaire sur des paires de préférences (Jiang et al. 2025).

Continual Learning et Oubli Catastrophique :

Dans les déploiements production, les modèles sont continuellement mis à jour avec de nouvelles données ou de nouvelles instructions. Sans précautions, chaque fine-tuning ultérieur risque d’écraser les connaissances précédentes (Chen et al. 2026; Schweighofer et al. 2025). Les techniques de mitigation incluent :

Replay de données : Mélanger des données du pré-entraînement original dans le fine-tuning.
EWC (Elastic Weight Consolidation) : Pénalise les modifications des poids les plus importants pour les tâches précédentes.
LoRA pour l’isolation : Les adaptateurs LoRA séparent physiquement les connaissances générales (poids gelés) des spécialisations (matrices A, B).

🔑 Cycle de Vie d’un LLM

Pré-entraînement : Le modèle apprend une culture générale en lisant beaucoup de texte et en devinant la suite.
Lois d’échelle : Choisir la bonne taille de modèle dépend aussi du nombre de tokens disponibles et du coût futur d’utilisation.
SFT : Le modèle apprend à suivre des instructions grâce à des exemples instruction-réponse.
LoRA : Adapter un grand modèle peut se faire en entraînant de petites matrices plutôt que tous les poids.
Alignement : RLHF ou DPO aident à transformer un prédicteur de texte en assistant plus fiable, utile et sûr.

ApX Machine Learning. 2024. “Comparing LLM Alignment Techniques.” https://apxml.com.

Balne, Charith Chandra Sai, Sreyoshi Bhaduri, Tamoghna Roy, Vinija Jain, and Aman Chadha. 2024. “Parameter Efficient Fine Tuning: A Comprehensive Analysis Across Applications.” arXiv Preprint arXiv:2404.13506. https://arxiv.org/abs/2404.13506.

Chen, Hongyang, Zhongwu Sun, Hongfei Ye, Kunchi Li, and Xuemin Lin. 2026. “Continual Learning in Large Language Models: Methods, Challenges, and Opportunities.” arXiv Preprint arXiv:2603.12658. https://arxiv.org/abs/2603.12658.

Dettmers, Tim, Artidoro Pagnoni, Ari Holtzman, and Luke Zettlemoyer. 2023. “QLORA: Efficient Finetuning of Quantized LLMs.” In 37th Conference on Neural Information Processing Systems (NeurIPS). https://doi.org/10.52202/075280-0441.

Gisserot-Boukhlef, Hippolyte, Nicolas Boizard, Manuel Faysse, Duarte Miguel Alves, Emmanuel Malherbe, Andre Martins, Celine Hudelot, and Pierre Colombo. 2026. “Should We Still Pretrain Encoders with Masked Language Modeling?” In International Conference on Learning Representations (ICLR). https://openreview.net/forum?id=DKFGm8LdAA.

GoPenAI. 2026. “Why Deduplication Is the Most Underestimated Step in LLM Pretraining and What It Costs You to Get It Wrong.” https://blog.gopenai.com.

Hoffmann, Jordan, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, et al. 2022. “Training Compute-Optimal Large Language Models.” arXiv Preprint arXiv:2203.15556. https://arxiv.org/abs/2203.15556.

Hugging Face. 2026a. “PEFT Documentation.” https://huggingface.co/docs/peft.

———. 2026b. “Supervised Fine-Tuning - LLM Course.” https://huggingface.co/docs.

Jiang, Haitao, Wenbo Zhang, Jiarui Yao, Hengrui Cai, Sheng Wang, and Rui Song. 2025. “Supervised Fine-Tuning Versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models.” arXiv Preprint. https://doi.org/10.22541/au.177368679.96351489/v1.

Ke, Zixuan, Yifei Ming, Xuan-Phi Nguyen, Caiming Xiong, and Shafiq Joty. 2025. “Demystifying Domain-Adaptive Post-Training for Financial LLMs.” ACL Anthology. https://doi.org/10.18653/v1/2025.emnlp-main.1579.

Pareja, Aldo, Nikhil Shivakumar Nayak, Hao Wang, Krishnateja Killamsetty, Shivchander Sudalairaj, Wenlong Zhao, Seungwook Han, et al. 2025. “Unveiling the Secret Recipe: A Guide for Supervised Fine-Tuning Small LLMs.” In International Conference on Learning Representations (ICLR). https://openreview.net/forum?id=As72m7ZwNU.

Sardana, Nikhil, Jacob Portes, Sasha Doubov, and Jonathan Frankle. 2024. “Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws.” In Proceedings of the 41st International Conference on Machine Learning (ICML). https://arxiv.org/abs/2401.00448.

Schweighofer, Kajetan, Conor F. Hayes, Roberto Dailey, Risto Miikkulainen, and Xin Qiu. 2025. “Overcoming Forgetting in LLM Fine-Tuning with Evolution Strategies.” arXiv Preprint. https://arxiv.org/abs/2605.30148.

Technology Innovation Institute (TII). 2023. “A NeurIPS Datasets and Benchmark Checklist (Falcon-RefinedWeb).” NeurIPS Supplementary Material. https://proceedings.neurips.cc/paper_files/paper/2023/file/fa3ed726cc5073b9c31e3e49a807789c-Supplemental-Datasets_and_Benchmarks.pdf.

Unsloth. 2026. “LoRA Fine-Tuning Hyperparameters Guide.” Unsloth Documentation. https://unsloth.ai.

Vo, Clara, and GreenNode. 2026. “Fine-Tuning Vs Transfer Learning: Key Differences for ML and LLM Workflows.” https://greennode.com.

Wikipedia contributors. 2026. “LoRA (Machine Learning) — Wikipedia, the Free Encyclopedia.” https://en.wikipedia.org/w/index.php?title=LoRA_(machine_learning).

Yüksel, Oğuz Kaan, and Nicolas Flammarion. 2025. “On the Sample Complexity of Next-Token Prediction.” In Proceedings of the 28th International Conference on Artificial Intelligence and Statistics (AISTATS). https://proceedings.mlr.press/v258/yuksel25a.html.

Zhong, Tianle, Jiechen Zhao, Qiang Su, and Geoffrey Fox. 2025. “Youmu: Efficient Columnar Data Pipeline for LLM Training.” In Proceedings of the 8th MLSys Conference. https://openreview.net/forum?id=I2LF8QHaua.