Fonction génératrice des moments

Page d’aide sur l’homonymie

Ne doit pas être confondu avec Fonction génératrice des probabilités.

En théorie des probabilités et en statistique, la fonction génératrice des moments d'une variable aléatoire X est la fonction MX définie par

M X ( t ) = E ( e t X ) {\displaystyle M_{X}(t)=\mathbb {E} \left(\operatorname {e} ^{tX}\right)} ,

pour tout réel t tel que cette espérance existe. Cette fonction, comme son nom l'indique, est utilisée afin d'engendrer les moments associés à la distribution de probabilités de la variable aléatoire X.

Définition et calcul

Si à X est associée une densité de probabilité continue f, alors la fonction génératrice des moments est donnée par

M X ( t ) = + e t x f ( x ) d x {\displaystyle M_{X}(t)=\int _{-\infty }^{+\infty }\operatorname {e} ^{tx}f(x)\,\mathrm {d} x} .

En introduisant dans cette équation le développement en série entière de l'exponentielle, cette expression est équivalente à :

M X ( t ) = R ( 1 + t x + t 2 x 2 2 ! + ) f ( x ) d x {\displaystyle M_{X}(t)=\int _{\mathbb {R} }\left(1+tx+{\frac {t^{2}x^{2}}{2!}}+\cdots \right)f(x)\,\mathrm {d} x}
= 1 + t m 1 + t 2 m 2 2 ! + , {\displaystyle =1+tm_{1}+{\frac {t^{2}m_{2}}{2!}}+\cdots ,}

où la dernière égalité est obtenue par le théorème de convergence dominée, et où mi est le i-ème moment de X.

Si la densité de probabilité n'est pas continue, la fonction génératrice des moments peut être obtenue par l'intégrale de Stieltjes :

M X ( t ) = R e t x d F ( x ) {\displaystyle M_{X}(t)=\int _{\mathbb {R} }\operatorname {e} ^{tx}\,\mathrm {d} F(x)}

F est la fonction de répartition de X.

Les expressions précédentes s'appliquent à des variables aléatoires. Dans le cas d'un vecteur aléatoire à composantes réelles, la fonction génératrice des moments est alors définie comme suit :

M X ( t ) = E ( e t , X ) {\displaystyle M_{X}(t)=\mathbb {E} (\operatorname {e} ^{\langle t,X\rangle })}

t est un vecteur et t , X {\displaystyle \langle t,X\rangle } est le produit scalaire.

Propriétés

  • M X ( t ) {\displaystyle M_{X}(-t)} est la transformée bilatérale de Laplace de la densité de probabilité f {\displaystyle f} .
  • Si X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\dots ,X_{n}} est une suite de variables aléatoires indépendantes (mais non nécessairement identiquement distribuées) et S n = i = 1 n a i X i , {\displaystyle S_{n}=\sum _{i=1}^{n}a_{i}X_{i},} a i R {\displaystyle a_{i}\in \mathbb {R} } , alors la densité de probabilité de Sn est la convolution pondérée par les ai des densités de probabilité de chacun des Xi et la fonction de génération des moments de Sn est donnée par
    M S n ( t ) = M X 1 ( a 1 t ) M X 2 ( a 2 t ) M X n ( a n t ) {\displaystyle M_{S_{n}}(t)=M_{X_{1}}(a_{1}t)M_{X_{2}}(a_{2}t)\cdots M_{X_{n}}(a_{n}t)} .
  • Comme son nom le suggère, la fonction génératrice des moments est liée à la série génératrice (exponentielle) des moments. Pour que ce lien ait un sens il faut bien sûr que les moments soient tous finis et que leur série associée ait un rayon de convergence non nul. Sous ces conditions la fonction génératrice des moments est développable en série entière autour de 0 et les coefficients sont reliés aux moments. Le théorème suivant précise cette discussion.

Lien entre fonction génératrice des moments et moments — Soit X {\displaystyle X} une variable aléatoire réelle et M X {\displaystyle M_{X}} sa fonction génératrice des moments. Les deux assertions suivantes sont équivalentes :

  1. Il existe δ > 0 {\displaystyle \delta >0} tel que M X ( t ) < + {\displaystyle M_{X}(t)<+\infty } pour tout t ] δ , δ [ {\displaystyle t\in \left]-\delta ,\delta \right[} .
  2. La variable X {\displaystyle X} admet des moments de tout ordre finis et la série k = 0 E [ X k ] k ! t k {\displaystyle \sum _{k=0}^{\infty }{\frac {\mathbb {E} [X^{k}]}{k!}}t^{k}} a un rayon de convergence non nul R > 0 {\displaystyle R>0} .

De plus si l'une des deux assertions ci-dessus est vérifiée alors

  • Pour tout t ] R , R [ {\displaystyle t\in \left]-R,R\right[} on a M X ( t ) = k = 0 E [ X k ] k ! t k {\displaystyle M_{X}(t)=\sum _{k=0}^{\infty }{\frac {\mathbb {E} [X^{k}]}{k!}}t^{k}} .
  • Pour tout k 0 {\displaystyle k\geq 0} , M X {\displaystyle M_{X}} est k {\displaystyle k} fois dérivable en 0 et E [ X k ] = M X ( k ) ( 0 ) {\displaystyle \mathbb {E} [X^{k}]=M_{X}^{(k)}(0)} .
Démonstration
  • 1) implique 2). Soit t [ 0 , δ [ {\displaystyle t\in [0,\delta [} , en remarquant que e t | x | e t x + e t x {\displaystyle e^{t|x|}\leq e^{tx}+e^{-tx}} pour tout réel x {\displaystyle x} on déduit que
E [ e t | X | ] M X ( t ) + M X ( t ) < + {\displaystyle \mathbb {E} [e^{t|X|}]\leq M_{X}(t)+M_{X}(-t)<+\infty } .

En utilisant alors le développement de la fonction exponentielle en série entière et le théorème de Fubini-Tonelli on obtient que

E [ e t | X | ] = E [ k = 0 | X | k k ! t k ] = k = 0 E [ | X | k ] k ! t k < + {\displaystyle \mathbb {E} [e^{t|X|}]=\mathbb {E} \left[\sum _{k=0}^{\infty }{\frac {|X|^{k}}{k!}}t^{k}\right]=\sum _{k=0}^{\infty }{\frac {\mathbb {E} [|X|^{k}]}{k!}}t^{k}<+\infty } .

On en conclut que la série entière k = 0 E [ X k ] k ! t k {\displaystyle \sum _{k=0}^{\infty }{\frac {\mathbb {E} [X^{k}]}{k!}}t^{k}} est absolument convergente sur [ 0 , δ [ {\displaystyle [0,\delta [} donc possède un rayon de convergence R δ {\displaystyle R\geq \delta } .

  • 2) implique 1). Montrons que la série entière k = 0 E [ | X | k ] k ! t k {\displaystyle \sum _{k=0}^{\infty }{\frac {\mathbb {E} [|X|^{k}]}{k!}}t^{k}} a un rayon de convergence R = R > 0 {\displaystyle R'=R>0} . Déjà il est clair que R R {\displaystyle R'\leq R} .

On remarque que pour tout k 0 {\displaystyle k\geq 0}  :

E [ | X | 2 k + 1 ] = E [ | X | 2 k + 1 1 | X | 1 ] + E [ | X | 2 k + 1 1 | X | 1 ] 1 + E [ X 2 k + 2 ] {\displaystyle \mathbb {E} [|X|^{2k+1}]=\mathbb {E} [|X|^{2k+1}\mathbf {1} _{|X|\leq 1}]+\mathbb {E} [|X|^{2k+1}\mathbf {1} _{|X|\geq 1}]\leq 1+\mathbb {E} [X^{2k+2}]} .

Ainsi on a pour tout t [ 0 , R [ {\displaystyle t\in \left[0,R\right[}  :

k = 0 E [ | X | k ] k ! t k e t + k = 0 E [ X 2 k ] ( 2 k ) ! t 2 k e t + k = 0 | E [ X k ] | k ! t k < + {\displaystyle \sum _{k=0}^{\infty }{\frac {\mathbb {E} [|X|^{k}]}{k!}}t^{k}\leq e^{t}+\sum _{k=0}^{\infty }{\frac {\mathbb {E} [X^{2k}]}{(2k)!}}t^{2k}\leq e^{t}+\sum _{k=0}^{\infty }{\frac {|\mathbb {E} [X^{k}]|}{k!}}t^{k}<+\infty } .

La dernière somme est bien convergente car on sait qu'une série entière est absolument convergente dans l'intérieur de son disque de convergence. Ainsi en utilisant une fois de plus le théorème de Fubini-Tonelli on obtient que M X ( t ) < + {\displaystyle M_{X}(t)<+\infty } . On procède de la même manière pour t ] R , 0 ] {\displaystyle t\in \left]-R,0\right]} .

Si les conditions du théorème sont satisfaites, ce dernier permet de calculer très aisément l'espérance et la variance d'une variable aléatoire dont on connaît la fonction génératrice des moments.
E ( X ) = M X ( 0 ) {\displaystyle \mathbb {E} (X)=M_{X}'(0)} et
Var ( X ) = E ( X 2 ) E ( X ) 2 = M X ( 0 ) [ M X ( 0 ) ] 2 {\displaystyle \operatorname {Var} (X)=\mathbb {E} (X^{2})-\mathbb {E} (X)^{2}=M_{X}''(0)-[M_{X}'(0)]^{2}} .
Il faut faire attention car il est possible qu'une variable aléatoire admette des moments de tout ordre finis mais ait une fonction génératrice des moments infinie partout (excepté en 0). C'est le cas par exemple d'une variable aléatoire suivant une loi log-normale.
  • Toute fonction génératrice des moments est logarithmiquement convexe.
Démonstration

L'inégalité de Hölder indique que

E [ U V ] ( E | U p | ) 1 / p ( E | V q | ) 1 / q {\displaystyle \mathbb {E} [UV]\leq (\mathbb {E} |U^{p}|)^{1/p}(\mathbb {E} |V^{q}|)^{1/q}}

pour toutes variables aléatoires U et V et nombres réels p, q tels que

1 < p , q <  et  1 p + 1 q = 1 {\displaystyle 1<p,q<\infty \quad {\text{ et }}\quad {\frac {1}{p}}+{\frac {1}{q}}=1} .

Soit X une variable aléatoire réelle et 0 < θ < 1 {\displaystyle 0<\theta <1} . En prenant le logarithme de l'inégalité appliquée à

U = exp ( ( 1 θ ) λ 0 X ) , V = exp ( θ λ 1 X ) , p = 1 1 θ , q = 1 θ {\displaystyle U=\exp((1-\theta )\lambda _{0}X),V=\exp(\theta \lambda _{1}X),\quad p={\frac {1}{1-\theta }},q={\frac {1}{\theta }}}

on obtient l'inégalité de convexité

ln E [ exp ( ( ( 1 θ ) λ 0 + θ λ 1 ) X ) ] ( 1 θ ) ln E [ exp ( λ 0 X ) ] + θ ln E [ exp ( λ 1 X ) ] . {\displaystyle \ln \mathbb {E} [\exp(((1-\theta )\lambda _{0}+\theta \lambda _{1})X)]\leq (1-\theta )\ln \mathbb {E} [\exp(\lambda _{0}X)]+\theta \ln \mathbb {E} [\exp(\lambda _{1}X)].}

Exemples

On veut calculer l'espérance de la loi exponentielle. Sa fonction génératrice des moments est donnée par :

M X ( t ) = ( 1 t λ ) 1 = 1 ( 1 t λ ) {\displaystyle M_{X}(t)=\left(1-{\frac {t}{\lambda }}\right)^{-1}\,={\frac {1}{\left(1-{\frac {t}{\lambda }}\right)}}} .

En s'appuyant sur la propriété des dérivées selon laquelle ( 1 f ) = f f 2 {\displaystyle \left({1 \over f}\right)'={-f' \over f^{2}}} , on obtient :

M X ( t ) d M X ( t ) d t = d ( 1 t λ ) 1 d t = 1 λ ( 1 t λ ) 2 {\displaystyle M_{X}'(t)\equiv {\frac {\mathrm {d} M_{X}(t)}{\mathrm {d} t}}={\frac {\mathrm {d} \left(1-{\frac {t}{\lambda }}\right)^{-1}}{\mathrm {d} t}}={\frac {\frac {1}{\lambda }}{\left(1-{\frac {t}{\lambda }}\right)^{2}}}} .

En évaluant cette dérivée en t = 0, on obtient le premier moment :

E [ X ] = M X ( t = 0 ) = 1 λ ( 1 0 λ ) 2 = 1 λ {\displaystyle \mathbb {E} [X]=M_{X}'(t=0)={\frac {\frac {1}{\lambda }}{\left(1-{\frac {0}{\lambda }}\right)^{2}}}={\frac {1}{\lambda }}} .
Loi de probabilité Fonction génératrice des moments M X ( t ) {\displaystyle M_{X}(t)} Fonction caractéristique φ ( t ) {\displaystyle \varphi (t)}
Loi de Dirac δ a {\displaystyle \delta _{a}} e t a {\displaystyle \mathrm {e} ^{ta}} e i t a {\displaystyle \mathrm {e} ^{\mathrm {i} ta}}
Bernoulli P ( X = 1 ) = p {\displaystyle P(X=1)=p} 1 p + p e t {\displaystyle 1-p+p\mathrm {e} ^{t}} 1 p + p e i t {\displaystyle 1-p+p\mathrm {e} ^{\mathrm {i} t}}
Géométrique ( 1 p ) k 1 p {\displaystyle (1-p)^{k-1}\,p} p e t 1 ( 1 p ) e t 1 1 ] , ln ( 1 p ) [ ( t ) {\displaystyle {\frac {p\mathrm {e} ^{t}}{1-(1-p)\mathrm {e} ^{t}}}1\!\!1_{]-\infty ,-\ln(1-p)[}(t)} p e i t 1 ( 1 p ) e i t {\displaystyle {\frac {p\mathrm {e} ^{\mathrm {i} t}}{1-(1-p)\,\mathrm {e} ^{\mathrm {i} t}}}}
Binomiale B ( n , p ) {\displaystyle {\mathcal {B}}(n,p)} ( 1 p + p e t ) n {\displaystyle \left(1-p+p\mathrm {e} ^{t}\right)^{n}} ( 1 p + p e i t ) n {\displaystyle \left(1-p+p\mathrm {e} ^{\mathrm {i} t}\right)^{n}}
Binomiale négative N B ( r , p ) {\displaystyle {\mathcal {NB}}(r,p)} ( p 1 e t + p e t ) r 1 1 ] , ln ( 1 p ) [ ( t ) {\displaystyle \left({\frac {p}{1-\mathrm {e} ^{t}+p\mathrm {e} ^{t}}}\right)^{r}1\!\!1_{]-\infty ,-\ln(1-p)[}(t)} ( p 1 e i t + p e i t ) r {\displaystyle \left({\frac {p}{1-\mathrm {e} ^{\mathrm {i} t}+p\mathrm {e} ^{\mathrm {i} t}}}\right)^{r}}
Poisson P ( λ ) {\displaystyle {\mathcal {P}}(\lambda )} e λ ( e t 1 ) {\displaystyle \mathrm {e} ^{\lambda (\mathrm {e} ^{t}-1)}} e λ ( e i t 1 ) {\displaystyle \mathrm {e} ^{\lambda (\mathrm {e} ^{\mathrm {i} t}-1)}}
Uniforme continue U ( a , b ) {\displaystyle {\mathcal {U}}(a,b)} e t b e t a t ( b a ) {\displaystyle {\frac {\mathrm {e} ^{tb}-\mathrm {e} ^{ta}}{t(b-a)}}} e i t b e i t a i t ( b a ) {\displaystyle {\frac {\mathrm {e} ^{itb}-\mathrm {e} ^{\mathrm {i} ta}}{\mathrm {i} t(b-a)}}}
Uniforme discrète D U ( a , b ) {\displaystyle {\mathcal {DU}}(a,b)} e a t e ( b + 1 ) t ( b a + 1 ) ( 1 e t ) {\displaystyle {\frac {\mathrm {e} ^{at}-\mathrm {e} ^{(b+1)t}}{(b-a+1)(1-\mathrm {e} ^{t})}}} e i a t e i ( b + 1 ) t ( b a + 1 ) ( 1 e i t ) {\displaystyle {\frac {\mathrm {e} ^{\mathrm {i} at}-\mathrm {e} ^{\mathrm {i} (b+1)t}}{(b-a+1)(1-\mathrm {e} ^{\mathrm {i} t})}}}
Laplace L ( μ , b ) {\displaystyle {\mathcal {L}}(\mu ,b)} e t μ 1 b 2 t 2 1 1 ] 1 b , 1 b [ ( t ) {\displaystyle {\frac {\mathrm {e} ^{t\mu }}{1-b^{2}t^{2}}}1\!\!1_{]-{\frac {1}{b}},{\frac {1}{b}}[}(t)} e i t μ 1 + b 2 t 2 {\displaystyle {\frac {\mathrm {e} ^{\mathrm {i} t\mu }}{1+b^{2}t^{2}}}}
Normale N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} e t μ + 1 2 σ 2 t 2 {\displaystyle \mathrm {e} ^{t\mu +{\frac {1}{2}}\sigma ^{2}t^{2}}} e i t μ 1 2 σ 2 t 2 {\displaystyle \mathrm {e} ^{\mathrm {i} t\mu -{\frac {1}{2}}\sigma ^{2}t^{2}}}
χ² χ k 2 {\displaystyle \chi _{k}^{2}} ( 1 2 t ) k 2 1 1 ] , 1 2 [ ( t ) {\displaystyle (1-2t)^{-{\frac {k}{2}}}1\!\!1_{]-\infty ,{\frac {1}{2}}[}(t)} ( 1 2 i t ) k 2 {\displaystyle (1-2\mathrm {i} t)^{-{\frac {k}{2}}}}
χ² non centrée χ k 2 ( λ ) {\displaystyle \chi _{k}^{2}(\lambda )} e λ t / ( 1 2 t ) ( 1 2 t ) k 2 {\displaystyle \mathrm {e} ^{\lambda t/(1-2t)}(1-2t)^{-{\frac {k}{2}}}} e i λ t / ( 1 2 i t ) ( 1 2 i t ) k 2 {\displaystyle \mathrm {e} ^{\mathrm {i} \lambda t/(1-2\mathrm {i} t)}(1-2\mathrm {i} t)^{-{\frac {k}{2}}}}
Gamma Γ ( k , θ ) {\displaystyle \Gamma (k,\theta )} ( 1 t θ ) k 1 1 ] , 1 θ [ ( t ) {\displaystyle (1-t\theta )^{-k}1\!\!1_{]-\infty ,{\tfrac {1}{\theta }}[}(t)} ( 1 i t θ ) k {\displaystyle (1-\mathrm {i} t\theta )^{-k}}
Exponentielle E ( λ ) {\displaystyle {\mathcal {E}}(\lambda )} ( 1 t λ 1 ) 1 1 1 ] , λ [ ( t ) {\displaystyle \left(1-t\lambda ^{-1}\right)^{-1}1\!\!1_{]-\infty ,\lambda [}(t)} ( 1 i t λ 1 ) 1 {\displaystyle \left(1-\mathrm {i} t\lambda ^{-1}\right)^{-1}}
Bêta 1 + k = 1 ( r = 0 k 1 α + r α + β + r ) t k k ! {\displaystyle 1+\sum _{k=1}^{\infty }\left(\prod _{r=0}^{k-1}{\frac {\alpha +r}{\alpha +\beta +r}}\right){\frac {t^{k}}{k!}}} 1 F 1 ( α ; α + β ; i t ) {\displaystyle {}_{1}F_{1}(\alpha ;\alpha +\beta ;\mathrm {i} \,t)\!} (voir Fonction hypergéométrique confluente)
Normale multidimensionnelle N ( μ , Σ ) {\displaystyle {\mathcal {N}}(\mathbf {\mu } ,\mathbf {\Sigma } )} e t T ( μ + 1 2 Σ t ) {\displaystyle \mathrm {e} ^{\mathbf {t} ^{\mathrm {T} }\left({\boldsymbol {\mu }}+{\frac {1}{2}}\mathbf {\Sigma t} \right)}} e t T ( i μ 1 2 Σ t ) {\displaystyle \mathrm {e} ^{\mathbf {t} ^{\mathrm {T} }\left(\mathrm {i} {\boldsymbol {\mu }}-{\frac {1}{2}}{\boldsymbol {\Sigma }}\mathbf {t} \right)}}
Cauchy Cauchy ( μ , θ ) {\displaystyle \operatorname {Cauchy} (\mu ,\theta )} Indéterminée e i t μ θ | t | {\displaystyle \mathrm {e} ^{\mathrm {i} t\mu -\theta |t|}}
Cauchy multidimensionnelle

MultiCauchy ( μ , Σ ) {\displaystyle \operatorname {MultiCauchy} (\mu ,\Sigma )}

Indéterminée e i t T μ t T Σ t {\displaystyle \!\,\mathrm {e} ^{\mathrm {i} \mathbf {t} ^{\mathrm {T} }{\boldsymbol {\mu }}-{\sqrt {\mathbf {t} ^{\mathrm {T} }{\boldsymbol {\Sigma }}\mathbf {t} }}}}

Relation univoque entre fonction génératrice des moments et fonction de densité

Passer de la densité à la fonction génératrice est chose aisée : il suffit d'appliquer la définition. La relation inverse semble plus ardue.

La manière la plus facile de traiter cette question est de passer par la transformation de Fourier. Il suffit pour cela de considérer la fonction des moments en t = iτ, où i est « le » nombre complexe tel que (i2=-1). On obtient ce que l'on appelle la fonction caractéristique de la variable X :

ϕ X ( τ ) = M x ( i τ ) = e i τ x f ( x ) d x {\displaystyle \phi _{X}(\tau )=M_{x}(\mathrm {i} \tau )=\int \operatorname {e} ^{\mathrm {i} \tau x}f(x)\,\mathrm {d} x} .

En tant que transformée de Fourier, l'expression précédente peut être inversée :

f ( x ) = 1 2 π e i τ x ϕ X ( τ ) d τ {\displaystyle f(x)={\frac {1}{2\pi }}\int \operatorname {e} ^{-\mathrm {i} \tau x}\phi _{X}(\tau )\,\mathrm {d} \tau } .

La fonction génératrice des moments caractérise donc parfaitement la densité.

Voir aussi

Articles connexes

Bibliographie

Sheldon Ross (trad. de l'anglais), Initiation aux probabilités [« A First Course in Probability »], Lausanne, PPUR, , 458 p. (ISBN 2-88074-327-3), p. 333-344

  • icône décorative Portail des probabilités et de la statistique