Section : Variables aléatoires
Précédent : Loi d'une variable aléatoire
Suivant : Variables aléatoires continues

Variables aléatoires discrètes.

Définition 3.3   On dit qu'une variable aléatoire est discrète si elle ne prend qu'un nombre fini ou dénombrable de valeurs :

$\displaystyle X\in \{x_k\,,\;k\in K\subset \mathbb{N}\}\;.
$

Dans ce cas, la loi de la variable aléatoire $ X$ est la loi de probabilité sur l'ensemble des valeurs possibles de $ X$ qui affecte la probabilité $ P[X=x_k]$ au singleton $ \{x_k\}$.

En pratique, l'ensemble des valeurs que peut prendre $ X$ est $ \mathbb{N}$ ou une partie de $ \mathbb{N}$.

Déterminer la loi d'une variable aléatoire discrète c'est

  1. Déterminer l'ensemble des valeurs que peut prendre $ X$.
  2. Calculer $ P[X=x_k]$ pour chacune de ces valeurs $ x_k$.

Point de vue fréquentiste. Rappelons que le seul sens pratique que l'on puisse donner à la notion de probabilité est celui d'une limite de fréquences expérimentales. C'est aussi le sens qu'il faut donner à la notion de loi discrète.

Répétons $ n$ fois indépendamment l'expérience aléatoire à l'issue de laquelle $ X$ est mesurée. On obtient ainsi un $ n$-uplet $ (X_1,\ldots ,X_n)$ de variables aléatoires indépendantes de même loi que $ X$ (cela s'appelle un échantillon). On peut sur ce $ n$-uplet calculer les fréquences expérimentales des évènements "$ X=x_k$".

$\displaystyle f_n(\{x_k\})
=\frac{1}{n}\Big($1$\displaystyle _{ \{x_k\} }(X_1)+\cdots+$1$\displaystyle _{ \{x_k\} }(X_n)\Big)\;.
$

D'après la loi des grands nombres cette fréquence doit converger vers $ P[X=x_k]$. Pour tout $ n$ les fréquences expérimentales $ f_n(\{x_k\})$ définissent une loi de probabilité discrète sur l'ensemble des $ x_i$.

On représente graphiquement une loi discrète par un diagramme en bâtons  : il consiste à tracer au dessus de l'abscisse $ x_i$ un segment vertical de longueur proportionnelle à $ P[X=x_k]$.

Les lois discrètes les plus courantes sont les suivantes.

Loi uniforme. La loi uniforme sur un ensemble fini est la loi des "tirages au hasard" dans cet ensemble, ou équiprobabilité. Elle donne la même probabilité $ 1/n$ à tous les éléments de l'ensemble, s'il est de cardinal $ n$.


Loi de Bernoulli. Les plus simples des variables aléatoires discrètes sont les indicatrices d'évènements. Si $ A$ est un évènement de probabilité $ p$, la variable aléatoire 1$ _A$ prend la valeur 1 si $ A$ est réalisé, et 0 sinon. Sa loi est la loi de Bernoulli de paramètre $ p$.

$\displaystyle P[$1$\displaystyle _A=0]=1-p\quad,\quad P[$1$\displaystyle _A=1]=p\;.
$

Les deux autres exemples de base sont la loi binomiale et la loi géométrique.

Loi binomiale. On répète la même expérience $ n$ fois indépendamment et on compte le nombre de fois où l'évènement $ A$ se produit. On considèrera la répétition des $ n$ expériences comme une nouvelle expérience globale. Comme seul l'évènement $ A$ nous importe, on pourra ne retenir de l'expérience globale qu'un $ n$-uplet de booléens du type :

$\displaystyle (A,\, \overline A,\, A,\,A,\, \overline A,\ldots,
\overline{A},\,A),
$

qu'il sera plus simple de transformer en un $ n$-uplet de 0 et de 1. Notons :
$ \bullet$
$ X_i= 1$ si $ A$ est vrai à l'issue de la $ i$-ème expérience, $ X_i= 0$ sinon.
$ \bullet$
$ S_n = \displaystyle\sum\limits^{n}_{i=1}X_i
$ le nombre de fois où $ A$ est réalisé au cours des $ n$ expériences.
Notons $ p$ la probabilité de l'évènement $ A$. La variable aléatoire $ X_i$ suit la loi de Bernoulli de paramètre $ p$. La variable aléatoire $ S_n$ prend ses valeurs dans l'ensemble $ \{0,\ldots,n\}$. Pour déterminer sa loi, ce sont les évènements du type "$ S_n=k$" qui nous intéressent. Du fait de l'hypothèse d'indépendance des expériences, la probabilité d'un résultat quelconque de l'expérience globale est un produit de probabilités. Par exemple :

$\displaystyle P[(A,\overline A, A, A, \overline A,\ldots, \overline{A}, A)]
=
p\,(1\!-\!p)\,p\,p\,(1\!-\!p)\ldots(1\!-\!p)\,p\;.
$

Tout $ n$-uplet particulier contenant $ k$ "1" (et $ n-k$ "0") a pour probabilité $ p^k(1\!-\!p)^{n-k}$. Il y en a :

$\displaystyle \binom{n}{k} = \frac{n!}{k!\,(n\!-\!k)!}\;,
$

qui est le nombre de manières de choisir $ k$ indices parmi $ n$. D'où :

$\displaystyle P[S_n=k]=\binom{n}{k}p^k(1-p)^{n-k}\;,\quad\forall k=0,\ldots,n\;.
$

Définition 3.4   On dit qu'une variable aléatoire $ X$ suit la loi binomiale de paramètres $ n$ et $ p$ (notée $ {\cal B}(n,p)$) si :
  1. $ X$ prend ses valeurs dans l'ensemble $ \{0,1,\ldots ,n\}$
  2. $ P[X=k]=\binom{n}{k}p^k(1-p)^{n-k}\;,\quad\forall k=0,\ldots,n\;.
$

A retenir : Le nombre d'occurrences d'un même évènement au cours de $ n$ expériences indépendantes suit une loi binomiale.

Simulation  : En sortie de l'algorithme suivant, $ X$ suit la loi binomiale $ {\cal B}(n,p)$. C'est la situation typique où on rencontre la loi binomiale, mais ce n'est pas la méthode de simulation la plus efficace.

$ X\leftarrow 0$
Répéter $ n$ fois
Si ( Random $ <p $) alors $ X\leftarrow X+1$
finSi
finRépéter

Remarque : C'est une bonne habitude à prendre que de vérifier que la somme des probabilités calculées vaut 1. Ici : $ \displaystyle\sum\limits^n_{k=0}\binom{n}{k}p^k(1\!-\!p)^{n-k}
=(p +(1\!-\!p ))^n=1$, par la formule du binôme de Newton (d'où le nom de loi binomiale).

Loi géométrique. Le problème ici est d'observer une suite de répétitions indépendantes d'une même expérience. On s'intéresse au moment où l'évènement $ A$ se produit pour la première fois. On suppose que la probabilité $ p$ de $ A$ est strictement positive.

Notons $ N$ le rang de l'expérience au cours de laquelle $ A$ se produit pour la première fois. C'est une variable aléatoire, qui dépend de l'expérience aléatoire  :

"répéter indépendamment jusqu'à ce que $ A$ soit réalisé".

L'ensemble des valeurs possibles pour $ N$ est $ \{1,2,\ldots \}=\mathbb{N}^*$. Pour tout $ k\geq 1$ on a :

$\displaystyle P[N=k]=P[(\underbrace{\overline A\ldots\overline A}_{k-1}A)]
=\underbrace{(1\!-\!p) \cdots (1\!-\!p)}_{k-1} p=p\; (1\!-\!p)^{k-1}\;.
$

Définition 3.5   On dit qu'une variable aléatoire $ X$ suit la loi géométrique de paramètre $ p$ (notée $ {\cal G}(p)$), si :
  1. $ X$ prend ses valeurs dans l'ensemble $ \mathbb{N}^*$ .
  2. $ P[X=k]=p (1\!-\!p )^{k-1}\;,\quad\forall k\geq 1\;.
$

A retenir : Le nombre d'expériences indépendantes nécessaires à la première observation d'un évènement suit une loi géométrique.

Simulation  : En sortie de l'algorithme suivant, $ X$ suit la loi géométrique $ {\cal G}(p)$. C'est la situation typique où on rencontre la loi géométrique, mais ce n'est pas la méthode de simulation la plus efficace.


$ X\leftarrow 0$
Répéter
$ X\leftarrow X+1$
Jusqu'à ( Random $ <p $)


Remarque : $ \displaystyle\sum\limits^\infty_{k=1}p(1\!-\!p)^{k-1}
=\displaystyle{\frac{ p}{1-(1\!-\!p)}}=1$.

La conséquence de cette remarque est la suivante : au cours d'une suite d'expériences indépendantes, tout évènement finira par se produire si sa probabilité est strictement positive. Une suite aléatoire de 0 et de 1 doit nécessairement contenir $ 100000$ zéros à la suite. Si un singe tape au hasard sur une machine à écrire, il finira forcément par taper Les Misérables sans fautes, de la première majuscule au dernier point.

Pour comprendre ce paradoxe, calculons la probabilité qu'un évènement de probabilité $ p$ se produise au plus tard à la $ k$-ème expérience.

$\displaystyle P[N\leq k]
=\sum\limits_{i=1}^kp(1\!-\!p)^{i-1}
=p\frac{1-(1\!-\!p)^{k}}{1-(1\!-\!p)}=1-(1\!-\!p)^k\;.
$

Voici quelques valeurs de $ P[N\leq k]$ en fonction de $ k$ et $ p$ .

$ k$ $ \backslash$ $ p$
$ 10^{-2}$
$ 10^{-3}$
$ 10^{-4}$
10
0.096
0.010
0.001
100
0.634
0.095
0.010

Même si toutes les particules de l'univers étaient des singes tapant à raison de 10 caractères par seconde, il faudrait beaucoup plus de temps qu'il ne s'en est écoulé depuis le début de l'univers pour avoir une chance non négligeable d'en voir un taper Les Misérables.

La loi binomiale et la loi géométrique apparaissent fréquemment dans l'analyse des algorithmes de simulation. Voici l'exemple du calcul d'une probabilité conditionnelle. La programmation directe de la définition intuitive (proportion de fois où $ A$ est réalisé parmi celles où $ B$ l'est aussi) conduirait à l'algorithme suivant.

$ n_A\leftarrow 0$
$ n_{A\cap B}\leftarrow 0$
Répéter $ n$ fois
expérience
Si $ B$ réalisé alors $ n_B\leftarrow n_B+1$
Si $ A$ réalisé alors $ n_{A\cap B} \leftarrow n_{A\cap B}+1$
finSi
finSi
finRépéter
$ f_{A\vert B} \leftarrow
\displaystyle{\frac{n_{A\cap B}}{n_B}}\;.$

Rien n'empêche $ n_B$ d'être nul à l'issue de $ n$ expériences (même si c'est peu probable). On préfère fixer $ n_B$ et écrire :

Répéter $ n_B$ fois
Répéter
expérience
Jusqu'à $ B$ réalisé
Si $ A$ réalisé alors $ n_{A\cap B} \leftarrow n_{A\cap B}+1$
finSi
finRépéter
$ f_{A\vert B}=\displaystyle{\frac{n_{A\cap B}}{n_B}}\;.$

Exécuter cet algorithme revient à calculer la fréquence expérimentale de $ A$ à l'issue de $ n_B$ répétitions indépendantes d'une expérience globale. Cette expérience globale consiste à répéter indépendamment une même expérience jusqu'à la première réalisation de $ B$. Notons $ P$ la probabilité relative à la "petite" expérience, et $ Prob$ la probabilité relative à l'expérience globale. La "durée" de cette expérience globale est un nombre entier aléatoire. Il suit la loi géométrique de paramètre $ P[B]$. On démontre que la variable $ n_{A\cap B}$ suit la loi binomiale de paramètres $ n_B$ et $ P[A\vert B]$.

Exemple :

$ n_{A\cap B}\leftarrow 0$
Répéter $ n_B$ fois
Répéter
$ D\leftarrow Int($ Random $ * 6)+1$ (* lancer d'un dé *)
Jusqu'à ($ D$ pair) (* $ B$ est l'évènement "$ D$ pair" *)
Si $ D\geq 4$ alors $ n_{A\cap B} \leftarrow n_{A\cap B}+1$ (* $ A$ est l'évènement "$ D\geq 4$" *)
finSi
finRépéter
$ f_{A\vert B}\leftarrow n_{A\cap B}/n_B\;.$

En sortie de cet algorithme, $ f_{A\vert B}$ contient un nombre d'autant plus proche de $ 2/3$ que $ n$ est grand. Le nombre de répétitions de l'expérience au cours de chaque passage dans la boucle principale suit la loi géométrique $ {\cal G}(1/2)$.

D'autres lois discrètes classiques sont souvent utilisées. Il s'agit des lois de Poisson, des lois hypergéométriques et des lois binomiales négatives.

Loi de Poisson. De nombreuses variables aléatoires discrètes correspondent à des comptages d'objets possédant un caractère relativement rare dans un grand ensemble : atomes d'un isotope, molécules d'un élément chimique, bactéries, virus, individus porteurs d'un gène particuler,... On utilise souvent une loi de Poisson comme modèle pour ces comptages.

Une variable aléatoire suit la loi de Poisson de paramètre $ \lambda>0$ si elle prend ses valeurs dans $ \mathbb{N}$, et si pour tout $ k\in \mathbb{N}$,

$\displaystyle P[X=k]=e^{-\lambda }\frac{\lambda^k}{k!}\;.
$

Loi hypergéométrique. La loi hypergéométrique est la loi des "tirages sans remise". D'une population de taille $ N$, on extrait au hasard un échantillon (sous-ensemble) de taille $ n$. Parmi les $ N$ individus, $ m$ sont "marqués". Le nombre $ X$ d'individus marqués sur les $ n$ individus choisis suit la loi hypergéométrique de paramètres $ N$, $ m$ et $ n$, La variable aléatoire $ X$ prend ses valeurs dans l'ensemble $ \{0,\ldots,n\}$, et pour tout $ k\in \{0,\ldots , n\}$ :

$\displaystyle P[X=k]=\frac{\binom{m}{k}\,\binom{N-m}{n-k} }{\binom{N}{n}}\;.
$

(Par convention $ \binom{i}{j}=0$, si $ j\not\in \{0,\ldots ,i\}$).

On rencontre fréquemment cette loi dans les jeux de hasard.

Variable aléatoire
$ N$
$ m$
$ n$
Nombre d'as dans une main au poker
32
4
5
Nombre d'as dans une main au bridge
52
4
6
Nombre de bons numéros sur une grille au loto
49
6
6
Nombre de bons numéros sur une grille au Kéno
70
20
$ n\in \{4,\ldots ,10\}$


Loi binomiale négative. Cette loi est souvent utilisée dans les comptages en biologie. Le modèle de base qui la définit peut encore s'écrire en termes d'indicatrices d'évènements indépendants, comme pour les lois binomiales et géométriques. Au cours d'une suite d'expériences aléatoires indépendantes, observons un évènement $ A$ de probabilité $ p$. Notons $ X$ le nombre d'observations de $ \overline{A}$ avant la $ n$-ième observation de $ A$. Alors $ X$ suit la loi binomiale négative de paramètres $ n$ et $ p$, notée $ {\cal BN}(n,p)$. L'ensemble des valeurs prises est $ \mathbb{N}$ et pour tout $ k\in \mathbb{N}$,

$\displaystyle P[X=k] = \binom{n+k-1}{n-1} p^n (1-p)^k\;.
$

La variable aléatoire $ X$ suit la loi $ {\cal BN}(n,p)$ en sortie de l'algorithme suivant.

$ X \longleftarrow 0$
Répéter $ n$ fois
Tantque (Random $ > p$)
$ X \longleftarrow X+1$
finTantque
finRépéter



Section : Variables aléatoires
Précédent : Loi d'une variable aléatoire
Suivant : Variables aléatoires continues