## Construire la Fondation

Le pré-entraînement est la grande phase de lecture d'un grand modèle de langage (LLM). Le modèle lit énormément de texte et apprend surtout une tâche simple : deviner le prochain token.

Cette étape construit sa culture générale statistique : vocabulaire, styles, faits fréquents, structures de phrases et raisonnements récurrents.

::: {.callout-note collapse="true"}
## 🔍 Lecture technique
Le développement d'un grand modèle de langage (LLM) ne se résume pas à une phase de calcul massive et indifférenciée. Le pré-entraînement est l'étape où le modèle acquiert son **capital de connaissances** initial, sa structure cognitive et sa compréhension statistique du monde. La qualité de cette fondation détermine la capacité de généralisation et l'efficacité de toutes les spécialisations ultérieures [@Yuksel2025; @GoPenAI2026].
:::

::: {.card .card-window .mb-4}

:::: {.card-header}
📉 Perte d'entraînement vs tokens traités
::::

:::: {.card-body .p-2}

::::: {#pretraining-chart-container .p-1}
:::::

::::

:::

```{ojs}
//| echo: false
import { updatePretrainingViz } from "../../assets/js/simulations/learning-curves.js"

_pretraining = {
  updatePretrainingViz(document.getElementById("pretraining-chart-container"));
}
```

### Modélisation Autorégressive

Pendant le pré-entraînement, le modèle joue à compléter la phrase. À force de prédire la suite, il apprend quels mots vont ensemble et quelles structures sont plausibles.

::: {.callout-note collapse="true"}
## 🔢 Objectif de pré-entraînement
Sous l'angle mathématique, le pré-entraînement autorégressif par **prédiction du prochain token** (*next-token prediction*) modélise le langage comme une chaîne de Markov d'ordre $k$. Pour un corpus de $N$ séquences de tokens, l'objectif est de maximiser la vraisemblance [@Yuksel2025] :

$$\mathcal{L}_{\text{pré-entraînement}} = \sum_{t} \log p_\theta(w_t | w_{t-1}, w_{t-2}, \ldots, w_{t-k})$$

Pour que les garanties théoriques de généralisation s'appliquent, on suppose des fonctions de logit bornées et Lipschitziennes. La performance se mesure selon deux axes [@Yuksel2025] :

* **Erreur in-sample** : Précision sur des contextes déjà observés. Elle décroît en $O\!\left(\frac{1}{NT}\right)$ par rapport au nombre total de tokens $NT$.

* **Erreur out-of-sample** : Performance sur des contextes inédits, liée aux propriétés de **mélange** (*mixing properties*, $\tau_{\text{mix}}$) de la chaîne de Markov sous-jacente. Le temps de mélange $\tau_{\text{mix}}$ représente le nombre de pas nécessaires pour explorer de nouveaux états contextuels.
:::

::: {.callout-note appearance="simple" icon="false"}
## 📚 L'Élève et le Corpus

Imaginez un élève qui apprend une langue en lisant des millions de textes. S'il complète seulement des phrases déjà vues, il mémorise. S'il complète correctement des phrases nouvelles, il commence à généraliser. Un bon corpus doit donc être varié : sinon, le modèle apprend surtout à répéter.
:::

### Qualité avant Quantité

Un bon modèle ne vient pas seulement de beaucoup de texte. Il faut aussi nettoyer ce texte : enlever les doublons, filtrer les contenus faibles, puis découper le corpus pour nourrir l'entraînement régulièrement.

::: {.callout-note collapse="true"}
## 🔍 Pipeline de données
La performance du pré-entraînement dépend autant de la **qualité** du corpus que de sa taille. Les LLMs modernes appliquent un pipeline rigoureux [@GoPenAI2026; @Zhong2025] :

**Déduplication :**

La présence de documents dupliqués dans le corpus de pré-entraînement est l'une des sources de dégradation les plus sous-estimées. Un corpus dupliqué à 10% force le modèle à mémoriser ces séquences répétées plutôt qu'à généraliser. La déduplication exacte (hash de n-grammes) et floue (MinHash pour la déduplication approximative) sont appliquées systématiquement [@GoPenAI2026].

**Filtrage de Qualité :**

Les pipelines modernes (ex. : FineWeb d'Hugging Face) filtrent le web par classifieurs de qualité — souvent un modèle fine-tuné sur des données curatées par des humains comme référence positive. Le ratio données "qualité web" vs "qualité book" conditionne les capacités de raisonnement [@TII2023].

**Tokenisation et Sharding :**

Pour les corpus de plusieurs tera-tokens, le pipeline de tokenisation et de découpage (*sharding*) devient un problème d'ingénierie en lui-même. Des systèmes comme Youmu (Zhong et al. 2025) optimisent le pipeline de données columnar pour alimenter l'entraînement sans créer de stalls [@Zhong2025].
:::

### Au-delà de la Mémorisation

Le but n'est pas de réciter le corpus. Un bon modèle doit utiliser ce qu'il a vu pour répondre correctement à des phrases nouvelles.

::: {.callout-note collapse="true"}
## 🔍 Généralisation
La capacité de généralisation d'un modèle ne dépend pas du nombre brut de paramètres, mais de la **complexité statistique** de sa classe d'hypothèse. Une architecture bien définie permet de briser la "malédiction de la dimensionnalité" des modèles $n$-grammes classiques, offrant des taux de généralisation qui ne croissent pas exponentiellement avec $k$ [@Yuksel2025].

Les Transformers, via leur mécanisme d'attention global, apprennent une classe d'hypothèse implicitement régularisée : la structure de l'attention force le modèle à exprimer ses prédictions comme des combinaisons convexes de patterns vus à l'entraînement. Cette inductive bias est le mécanisme profond qui permet la généralisation à de nouveaux contextes jamais vus.
:::