Section : Théorèmes limites
Précédent : Loi faible des grands nombres
Suivant : Intervalles de confiance

Théorème central limite

En simulation, la situation typique est celle où on exécute un très grand nombre de fois une boucle, en calculant à chaque passage des réalisations de variables aléatoires indépendantes. Le résultat attendu est en général l'estimation d'une espérance. Pas plus en simulation qu'en physique ou en biologie on ne donnera un résultat sans indication sur sa précision. C'est le théorème central limite qui permet de calculer cette précision.

Théorème 4.2   Soit $ (X_n), n\in \mathbb{N}^*$ une suite de variables aléatoires variables aléatoires indépendantes de même loi, d'espérance $ \mu$ et de variance $ \sigma^2$ finies. Posons :

$\displaystyle \forall n\in \mathbb{N}^*\;,\quad
\overline X_n = \frac{X_1+\cdots +X_n}{n}$   et$\displaystyle \quad
Z_n
=\frac{\sqrt{n} }{\sigma} \left(\overline X_n - \mu \right)
\;.
$

La loi de $ Z_n$ converge vers la loi normale $ {\cal N}(0,1)$, c'est-à-dire que pour tout $ a<b$ :

$\displaystyle \lim_{n\rightarrow\infty}\,P[a<Z_n<b]\;=\;
\int_a^b \frac{1}{\sqrt{2\pi}}e^{-x^2/2}\,dx
\;.
$


Interprétation. Dans le théorème central limite, $ \mu$ est la valeur à estimer. Les $ n$ valeurs $ X_1,\ldots,X_n$ constituent un échantillon de mesures aléatoires indépendantes d'espérance $ \mu$. La quantité $ (X_1+\cdots +X_n)/n$ est la moyenne empirique de l'échantillon, qui d'après la loi des grands nombres doit converger vers l'espérance $ \mu$. Le théorème central limite donne la précision de cette approximation. On peut le lire intuitivement comme suit. Si $ n$ est assez grand alors $ Z_n$ est très probablement compris entre $ -3$ et $ 3$ (la probabilité est $ 0.9973$). Soit encore :

$\displaystyle \frac{X_1+\cdots +X_n}{n} - \mu\;\in\;
\left[-\frac{3\sigma}{\sqrt n}\;;\;
+\frac{3\sigma}{\sqrt n}\right]
\;,
$

ou bien $ \overline X_n$ (moyenne empirique) est égale à $ \mu$ à $ 3 \sigma /\sqrt{n}$ près. On formalise ceci par la notion d' intervalle de confiance.

Le théorème central limite est utilisé pour des valeurs finies de $ n$. L'idée concrète est la suivante. Si $ n$ est assez grand, la variable centrée réduite (espérance 0, variance 1) $ Z_n$ associée à la somme de $ n$ variables indépendantes suit approximativement la loi $ {\cal N}(0,1)$. Si on réalise suffisamment de simulations de $ Z_n$ et si on trace un histogramme des valeurs obtenues, celui-ci ne sera pas très loin de la courbe $ \frac{ 1}{\sqrt{2\pi}}e^{-x^2/2}$. Pas plus loin en tout cas que si on avait simulé des variables aléatoires de loi $ {\cal N}(0,1)$. Si $ Z$ suit la loi $ {\cal N}(0,1)$, alors $ Y=\sigma Z+\mu$ suit la loi $ {\cal N}(\mu,\sigma^2)$. On peut aussi dire que pour n assez grand une somme de n variables aléatoires indépendantes indépendantes suit approximativement une loi normale, dont l'espérance et la variance sont respectivement la somme des espérances et la somme des variances des variables que l'on ajoute. Le problème est de savoir à partir de quelle valeur $ n$ est "assez grand", pour la précision désirée. Cela dépend beaucoup de la loi des $ X_n$. L'approximation est d'autant meilleure que la loi des $ X_n$ est plus symétrique. En particulier, le bon comportement de la loi uniforme vis à vis du théorème central limite conduit à un algorithme approché de simulation pour la loi $ {\cal N}(0,1)$.

$ X\longleftarrow -6$
Répéter $ 12$ fois
$ X\longleftarrow X+$ Random
finRépéter

Justification : Si $ (R_n)$ désigne la suite des appels de Random (suite de variables indépendantes de loi uniforme sur $ [0,1])$, on a :

$\displaystyle \frac{R_1+\cdots +R_n-n/2}{\sqrt n\sqrt{\frac{1}{12}}}
\stackrel {\cal L} \longrightarrow
{\cal N}(0,1)\;.
$

On évite une division et on obtient une approximation déjà correcte en prenant $ n=12$. Cet algorithme n'est cependant pas conseillé avec les générateurs classiques. Son principal inconvénient est de consommer trop d'appels de Random, ce qui pose le problème de la dépendance des réalisations successives.

Pour des lois plus dissymétriques comme la loi exponentielle, l'approximation normale n'est pas valable pour des sommes de quelques dizaines de variables. On peut la considérer comme justifiée à partir de quelques centaines. En simulation, ce sont des milliers, voire des millions de variables qui sont engendrées, et l'approximation normale est tout à fait légitime.



Section : Théorèmes limites
Précédent : Loi faible des grands nombres
Suivant : Intervalles de confiance