Théorème de Glivenko-Cantelli

En théorie des probabilités, le théorème de Glivenko-Cantelli, communément appelé « théorème fondamental de la statistique »[1] exprime dans quelle mesure une loi de probabilité peut être révélée par la connaissance d'un (grand) échantillon de ladite loi de probabilité.

Notations

Soit X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} un échantillon de variables aléatoires réelles i.i.d. définies sur un espace de probabilité ( Ω , A , P ) {\displaystyle (\Omega ,{\mathcal {A}},\mathbb {P} )} avec pour fonction de répartition commune F {\displaystyle F} .

Le théorème de Glivenko-Cantelli énonce la convergence uniforme presque partout de la fonction de répartition empirique F n {\displaystyle F_{n}} vers F {\displaystyle F} . Il entraîne donc de plus la convergence en loi de μ n {\displaystyle \mu _{n}} vers la loi de probabilité μ {\displaystyle \mu } correspondant dont la fonction de répartition est F {\displaystyle F} , une loi de probabilité étant caractérisée par sa fonction de répartition.

Énoncé

Théorème — Presque sûrement, la fonction de répartition empirique F n {\displaystyle F_{n}} converge uniformément vers la fonction de répartition F {\displaystyle F} , ou bien, de manière équivalente :

P ω ( lim n   F n ( , ω ) F = 0 ) = 1. {\displaystyle \mathbb {P} _{\omega }\left(\lim _{n}\ \|F_{n}(\cdot ,\omega )-F\|_{\infty }=0\right)=1.}

La fonction de répartition peut s'écrire comme une moyenne de variables aléatoires de Bernoulli, i.e.

F n ( x , ω ) = 1 n i = 1 n 1 { X i ( ω ) x } . {\displaystyle F_{n}(x,\omega )={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{X_{i}(\omega )\leq x\}}.}

Puisque ces variables sont de moyenne F ( x ) {\displaystyle F(x)} , la loi forte des grands nombres implique que

x R , P ( lim n   | F n ( x , ω ) F ( x ) | = 0 ) = 1 , {\displaystyle \forall x\in \mathbb {R} ,\quad \mathbb {P} \left(\lim _{n}\ |F_{n}(x,\omega )-F(x)|=0\right)=1,}

mais il n'en découle pas nécessairement que

P ( x R , lim n   | F n ( x , ω ) F ( x ) | = 0 ) = 1 , {\displaystyle \mathbb {P} \left(\forall x\in \mathbb {R} ,\quad \lim _{n}\ |F_{n}(x,\omega )-F(x)|=0\right)=1,}

puisqu'une intersection non dénombrable d'ensembles de probabilité 1 (ensembles presque sûrs) n'est pas nécessairement de probabilité 1. Cette intersection serait-elle de probabilité 1 qu'on n'aurait alors prouvé que la convergence simple, au lieu de la convergence uniforme énoncée par le théorème de Glivenko-Cantelli.

Le théorème de Donsker et l'inégalité DKW précisent le théorème de Glivenko-Cantelli en donnant des indications sur la rapidité de convergence, qui est de l'ordre de 1 / n . {\displaystyle 1/{\sqrt {n}}.}

Démonstration

Cette preuve utilise le deuxième théorème de Dini[2]. Pour une preuve combinatoire faisant intervenir des inégalités de concentration, voir la preuve des classes de Glivenko-Cantelli. La loi forte des grands nombres nous assure que pour tout x R , F n ( x ) {\displaystyle x\in \mathbb {R} ,F_{n}(x)} converge presque-sûrement vers F ( x ) {\displaystyle F(x)} et de plus F n {\displaystyle F_{n}} est croissante pour tout n N {\displaystyle n\in \mathbb {N} ^{*}} . Néanmoins quelques problèmes se posent pour appliquer ce théorème :

  • La fonction de répartition F {\displaystyle F} n'est pas nécessairement continue ;
  • La convergence n'a pas lieu sur un segment ;
  • La loi forte des grands nombres nous donne une convergence sur un ensemble qui dépend de x R {\displaystyle x\in \mathbb {R} } , i.e.
    x R , A x A   t.q.   P ( A x ) = 1   e t   ω A x , lim n + F n ( x , ω ) = F ( x ) . {\displaystyle \forall x\in \mathbb {R} ,\exists A_{x}\in {\mathcal {A}}\ {\textrm {t.q.}}\ \mathbb {P} (A_{x})=1\ \mathrm {et} \ \forall \omega \in A_{x},\lim _{n\to +\infty }F_{n}(x,\omega )=F(x).}
    Pour pouvoir appliquer le second théorème de Dini, il faudrait que
    A A   t . q .   P ( A ) = 1   e t   x R , ω A , lim n + F n ( x , ω ) = F n ( x ) . {\displaystyle \exists A\in {\mathcal {A}}\ \mathrm {t.q.} \ \mathbb {P} (A)=1\ \mathrm {et} \ \forall x\in \mathbb {R} ,\forall \omega \in {\mathcal {A}},\lim _{n\to +\infty }F_{n}(x,\omega )=F_{n}(x).}

On résout les deux premiers points avec l'inverse généralisée de la fonction de répartition (appelée aussi fonction de quantile) F {\displaystyle F^{\leftarrow }} et le troisième grâce à la séparabilité de R {\displaystyle \mathbb {R} } (i.e. R {\displaystyle \mathbb {R} } admet un sous-ensemble dense et au plus dénombrable comme Q {\displaystyle \mathbb {Q} } ).

Soient U 1 , , U n {\displaystyle U_{1},\dots ,U_{n}} des variables i.i.d. uniformes sur [ 0 , 1 ] {\displaystyle [0,1]} alors la fonction de répartition inverse vérifie la propriété X i   = L   F ( U i ) {\displaystyle X_{i}\ {\overset {\mathcal {L}}{=}}\ F^{\leftarrow }(U_{i})} [3]. Alors

sup t R | F n ( t ) F ( t ) | = sup t R | 1 n i = 1 n 1 { X i t } F ( t ) | sup t R | 1 n i = 1 n 1 { F ( U i ) t } F ( t ) | = sup t R | 1 n i = 1 n 1 { U i F ( t ) } F ( t ) | = sup s F ( R ) | 1 n i = 1 n 1 { U i s } s | sup s [ 0 , 1 ] | 1 n i = 1 n 1 { U i s } s | {\displaystyle {\begin{aligned}\sup _{t\in \mathbb {R} }|F_{n}(t)-F(t)|&=\sup _{t\in \mathbb {R} }\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{X_{i}\leq t\}}-F(t)\right|\\&\sim \sup _{t\in \mathbb {R} }\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{F^{\leftarrow }(U_{i})\leq t\}}-F(t)\right|=\sup _{t\in \mathbb {R} }\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{U_{i}\leq F(t)\}}-F(t)\right|\\&=\sup _{s\in F(\mathbb {R} )}\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{U_{i}\leq s\}}-s\right|\leq \sup _{s\in [0,1]}\left|{\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{\{U_{i}\leq s\}}-s\right|\end{aligned}}}

Il suffit donc de montrer que le théorème de Glivenko-Cantelli est vrai dans le cas de variables aléatoires uniformes sur [ 0 , 1 ] {\displaystyle [0,1]} . Grâce à la loi forte des grands nombres, on a que :

s [ 0 , 1 ] , A s A   t.q.   P ( A s ) = 1   et   ω A s , 1 n k = 1 n 1 { U k ( ω ) s } n + s . {\displaystyle \forall s\in [0,1],\exists A_{s}\in {\mathcal {A}}\ {\textrm {t.q.}}\ \mathbb {P} (A_{s})=1\ {\textrm {et}}\ \forall \omega \in A_{s},{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}{\underset {n\to +\infty }{\longrightarrow }}s.}

Il faut donc trouver un ensemble A {\displaystyle A} de mesure pleine qui soit uniforme pour tous les s [ 0 , 1 ] {\displaystyle s\in [0,1]} . Comme Q {\displaystyle \mathbb {Q} } est dénombrable et que l'intersection dénombrable d'ensembles de mesure pleine étant de mesure pleine, on en déduit que :

A A   t.q.   P ( A ) = 1   et   s [ 0 , 1 ] Q , ω A , 1 n k = 1 n 1 { U k ( ω ) s } n + s . {\displaystyle \exists A\in {\mathcal {A}}\ {\textrm {t.q.}}\ \mathbb {P} (A)=1\ {\textrm {et}}\ \forall s\in [0,1]\cap \mathbb {Q} ,\forall \omega \in A,{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}{\underset {n\to +\infty }{\longrightarrow }}s.}

Montrons que la propriété reste vraie pour tout s [ 0 , 1 ] {\displaystyle s\in [0,1]}  : soit s [ 0 , 1 ] {\displaystyle s\in [0,1]} et ω A {\displaystyle \omega \in A} alors on se donne une suite croissante ( s n ) n N {\displaystyle (s_{n})_{n\in \mathbb {N} }} et décroissante ( t n ) n N {\displaystyle (t_{n})_{n\in \mathbb {N} }} appartenant à [ 0 , 1 ] Q {\displaystyle [0,1]\cap \mathbb {Q} } et de limite s {\displaystyle s} . Alors pour l {\displaystyle l} fixé et n 1 {\displaystyle n\geq 1}  :

1 n k = 1 n 1 { U k ( ω ) s l } 1 n k = 1 n 1 { U k ( ω ) s } 1 n k = 1 n 1 { U k ( ω ) t l } , {\displaystyle {\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s_{l}\}}\leq {\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}\leq {\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq t_{l}\}},}

d'où, en faisant tendre n + {\displaystyle n\to +\infty } ,

s l lim inf n + 1 n k = 1 n 1 { U k ( ω ) s } lim sup n + 1 n k = 1 n 1 { U k ( ω ) s } t l {\displaystyle s_{l}\leq \liminf _{n\to +\infty }{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}\leq \limsup _{n\to +\infty }{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}\leq t_{l}}

et on conclut en faisant tendre l + {\displaystyle l\to +\infty } . On a donc montré que

ω A , 1 n k = 1 n 1 { U k ( ω ) s } s {\displaystyle \forall \omega \in A,{\frac {1}{n}}\sum _{k=1}^{n}\mathbf {1} _{\{U_{k}(\omega )\leq s\}}\to s}

sur [ 0 , 1 ] {\displaystyle [0,1]} . La convergence est uniforme par le deuxième théorème de Dini.

Généralisation

Article détaillé : Classe de Glivenko-Cantelli.

On pose X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} des variables i.i.d. à valeurs dans un espace X {\displaystyle {\mathcal {X}}} de loi P = P X {\displaystyle P=\mathbb {P} ^{X}} et F {\displaystyle {\mathcal {F}}} une classe de fonctions définies sur X {\displaystyle {\mathcal {X}}} à valeurs réelles. La classe F {\displaystyle {\mathcal {F}}} est appelée classe de Glivenko-Cantelli si elle vérifie

| | P n P | | F = sup f F | P n ( f ) P ( f ) |   n +   0 , {\displaystyle ||P_{n}-P||_{\mathcal {F}}=\sup _{f\in {\mathcal {F}}}|P_{n}(f)-P(f)|~{\xrightarrow[{n\to +\infty }]{}}~0,}

avec P n {\displaystyle P_{n}} la mesure empirique définie par P n ( f ) = 1 n i = 1 n f ( X i ) {\displaystyle P_{n}(f)={\frac {1}{n}}\sum _{i=1}^{n}f(X_{i})} et P ( f ) = E [ f ( X 1 ) ] {\displaystyle P(f)=\mathbb {E} [f(X_{1})]} . Le théorème de Glivenko-Cantelli revient donc à dire que la classe des fonctions indicatrices F = { x 1 { x t } : t R } {\displaystyle {\mathcal {F}}=\{x\mapsto \mathbf {1} _{\{x\leq t\}}:t\in \mathbb {R} \}} est une classe de Glivenko-Cantelli.

Bibliographie

  • (en) Galen R. Shorack et Jon A. Wellner, Empirical Processes with Applications to Statistics, SIAM, , 998 p. (ISBN 978-0-89871901-7, lire en ligne)
  • (en) A. W. van der Vaart et J. A. Wellner, Weak Convergence and Empirical Processes : With Applications to Statistics, Springer, , 508 p. (ISBN 978-0-387-94640-5, lire en ligne)
  • (en) Patrick Billingsley, Probability and Measure, John Wiley & Sons, , 4e éd., 656 p. (ISBN 978-1-118-34191-9, Modèle:Google Livers), p. 268

Voir aussi

Références

  1. Benoît Cadre, « Modélisation statistique » (consulté le )
  2. Ivan Nourdin, Agrégation de mathématiques épreuve oral, Dunod, 2e éd., p. 109
  3. Philippe Barbe et Michel Ledoux, Probabilité, EDP Sciences, coll. « Enseignement Sup », p. 50
v · m
Index du projet probabilités et statistiques
Théorie des probabilités
Bases théoriques
Principes généraux
Convergence de lois
Calcul stochastique
Lois de probabilité
Lois continues
Lois discrètes
Mélange entre statistiques et probabilités
Interprétations de la probabilité
Théorie des statistiques
Statistiques descriptives
Bases théoriques
Tableaux
Visualisation de données
Paramètres de position
Paramètres de dispersion
Paramètres de forme
Statistiques inductives
Bases théoriques
Tests paramétriques
Tests non-paramétriques
Application
  • icône décorative Portail des mathématiques
  • icône décorative Portail des probabilités et de la statistique