Théorème de Pitman-Koopman-Darmois

Le théorème de Pitman-Koopman-Darmois, aussi appelé théorème de Koopman-Darmois, de Darmois ou parfois de Fisher-Pitman-Koopman-Darmois (parfois le terme lemme est employé au lieu de théorème), est un résultat de statistique établi indépendamment par Bernard Koopman[1], Edwin Pitman[2] et Georges Darmois[3] dans les années 30, d'après une intuition de Ronald Fisher[4]. Ce théorème établit, sous certaines conditions, que parmi les modèles statistiques générant des variables réelles indépendantes et identiquement distribuées, les seuls admettant une statistique exhaustive non triviale sont ceux issus de la famille exponentielle. Ce théorème est considéré comme un résultat fondamental des statistiques et a donné lieu à de nombreux développements[5] et généralisations[6],[7].

Énoncé

Énoncé et démonstration

Théorème de Pitman-Koopman-Darmois — Soit X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} , n {\displaystyle n} variables aléatoires réelles indépendantes suivant une loi admettant une densité f θ {\displaystyle f_{\theta }} , indexée par un paramètre θ {\displaystyle \theta } à valeur dans un espace Θ {\displaystyle \Theta } .

Supposons que le support de f θ {\displaystyle f_{\theta }} (c'est-à-dire l'ensemble des valeurs de x {\displaystyle x} telles que f θ ( x ) > 0 {\displaystyle f_{\theta }(x)>0} ) soit un intervalle I {\displaystyle I} de R {\displaystyle \mathbb {R} } qui ne dépende pas de θ {\displaystyle \theta } , et que f θ {\displaystyle f_{\theta }} soit dérivable par rapport à x {\displaystyle x} sur I {\displaystyle I} pour tout θ {\displaystyle \theta } .

S'il existe une fonction continue T {\displaystyle T} de R n {\displaystyle \mathbb {R} ^{n}} dans R p {\displaystyle \mathbb {R} ^{p}} avec p < n {\displaystyle p<n} telle que T ( X 1 , , X n ) {\displaystyle T(X_{1},\ldots ,X_{n})} soit une statistique exhaustive pour θ {\displaystyle \theta } , alors f θ {\displaystyle f_{\theta }} est une densité de la famille exponentielle, c'est-à-dire qu'elle peut s'écrire sous la forme f θ ( x ) = g ( x ) exp ( i = 1 r a i ( x ) b i ( θ ) + c ( θ ) ) {\displaystyle f_{\theta }(x)=g(x)\,\exp {\left(\sum _{i=1}^{r}a_{i}(x)b_{i}(\theta )+c(\theta )\right)}} avec r N {\displaystyle r\in \mathbb {N} }  ; g {\displaystyle g} une fonction de I {\displaystyle I} dans R + {\displaystyle \mathbb {R} _{+}} ; a 1 , , a r {\displaystyle a_{1},\ldots ,a_{r}} , r {\displaystyle r} fonctions de I {\displaystyle I} dans R {\displaystyle \mathbb {R} }  ; b 1 , , b r {\displaystyle b_{1},\ldots ,b_{r}} et c {\displaystyle c} r + 1 {\displaystyle r+1} fonctions de Θ {\displaystyle \Theta } dans R {\displaystyle \mathbb {R} } .

Résultat préliminaire 1

Pour tout ouvert U {\displaystyle U} de R n {\displaystyle \mathbb {R} ^{n}} , la fonction T {\displaystyle T} n'est pas injective sur U {\displaystyle U} , c'est-à-dire qu'il existe nécessairement x {\displaystyle {\vec {x}}} et x {\displaystyle {\vec {x}}'} dans U {\displaystyle U} tels que x x {\displaystyle {\vec {x}}\neq {\vec {x}}'} et T ( x 1 , , x n ) = T ( x 1 , , x n ) {\displaystyle T(x_{1},\ldots ,x_{n})=T(x'_{1},\ldots ,x'_{n})} .

Preuve :

Ce résultat découle du fait que T {\displaystyle T} est une fonction continue de R n {\displaystyle \mathbb {R} ^{n}} dans R p {\displaystyle \mathbb {R} ^{p}} avec p < n {\displaystyle p<n} .

Raisonnons par l'absurde. Soit U {\displaystyle U} un ouvert de R n {\displaystyle \mathbb {R} ^{n}} , supposons que T {\displaystyle T} soit injective sur U {\displaystyle U} .

Soit T ~ {\displaystyle {\tilde {T}}} la fonction de R n {\displaystyle \mathbb {R} ^{n}} dans R n {\displaystyle \mathbb {R} ^{n}} obtenue en rajoutant n p {\displaystyle n-p} coordonnées nulles au vecteur T ( x ) {\displaystyle T({\vec {x}})} :

T ~ ( x ) = [ T ( x ) 0 0 ] {\displaystyle {\tilde {T}}({\vec {x}})=\left[{\begin{array}{c}T({\vec {x}})\\0\\\vdots \\0\end{array}}\right]} .

Alors la fonction T ~ {\displaystyle {\tilde {T}}} est aussi continue et injective sur U {\displaystyle U} . Il s'ensuit, d'après le théorème de l'invariance du domaine, que T ~ ( U ) {\displaystyle {\tilde {T}}(U)} est un ouvert de R n {\displaystyle \mathbb {R} ^{n}} , ce qui est faux puisque tout élément de T ~ ( U ) {\displaystyle {\tilde {T}}(U)} a ses n p {\displaystyle n-p} dernières coordonnées égales à 0. Il s'agit là d'une contradiction, ce qui implique que T {\displaystyle T} n'est pas injective sur U {\displaystyle U} , et ce quel que soit U {\displaystyle U} .

Résultat préliminaire 2

Soit F {\displaystyle F} une fonction continument différentiable de R n {\displaystyle \mathbb {R} ^{n}} dans R n {\displaystyle \mathbb {R} ^{n}} . Si pour tout voisinage V {\displaystyle V} d'un point x R n {\displaystyle {\vec {x}}\in \mathbb {R} ^{n}} , F {\displaystyle F} n'est pas injective sur V {\displaystyle V} , alors, F x ( x ) {\displaystyle {\frac {\partial F}{\partial {\vec {x}}}}({\vec {x}})} , la matrice jacobienne de F {\displaystyle F} en x {\displaystyle {\vec {x}}} , n'est pas inversible.

Preuve :

Raisonnons par l'absurde. Soit x 0 R n {\displaystyle {\vec {x}}_{0}\in \mathbb {R} ^{n}} tel que F {\displaystyle F} ne soit injective sur aucun voisinage V {\displaystyle V} de x 0 {\displaystyle {\vec {x}}_{0}} . Supposons que F x ( x 0 ) {\displaystyle {\frac {\partial F}{\partial {\vec {x}}}}({\vec {x}}_{0})} soit inversible.

Soit G {\displaystyle G} la fonction de R n × R n {\displaystyle \mathbb {R} ^{n}\times \mathbb {R} ^{n}} dans R n {\displaystyle \mathbb {R} ^{n}} définie par G ( x , y ) = F ( x ) y {\displaystyle G({\vec {x}},{\vec {y}})=F({\vec {x}})-{\vec {y}}} . Alors, la matrice des dérivées de G {\displaystyle G} par rapport à x {\displaystyle {\vec {x}}} en x 0 {\displaystyle {\vec {x}}_{0}} est égale à F x ( x 0 ) {\displaystyle {\frac {\partial F}{\partial {\vec {x}}}}({\vec {x}}_{0})} . Posons y 0 = F ( x 0 ) {\displaystyle {\vec {y}}_{0}=F({\vec {x}}_{0})} . Le théorème des fonctions implicites indique qu'il existe une fonction continument différentiable ψ {\displaystyle \psi } , définie sur un voisinage W {\displaystyle W} de y 0 {\displaystyle {\vec {y}}_{0}} , telle que x 0 = ψ ( y 0 ) {\displaystyle {\vec {x}}_{0}=\psi ({\vec {y}}_{0})} et G ( x , y ) = 0 x = ψ ( y ) {\displaystyle G({\vec {x}},{\vec {y}})=0\Leftrightarrow {\vec {x}}=\psi ({\vec {y}})} .

Or, comme par hypothèse F {\displaystyle F} n'est injective sur aucun voisinage de x 0 {\displaystyle {\vec {x}}_{0}} , on peut trouver x {\displaystyle {\vec {x}}} et x {\displaystyle {\vec {x}}'} dans ψ ( W ) {\displaystyle \psi (W)} (qui est un ouvert contenant x 0 {\displaystyle {\vec {x}}_{0}} car ψ {\displaystyle \psi } est continue) tels que x x {\displaystyle {\vec {x}}\neq {\vec {x}}'} et F ( x ) = F ( x ) {\displaystyle F({\vec {x}})=F({\vec {x}}')} . Si on note y = F ( x ) = F ( x ) {\displaystyle {\vec {y}}=F({\vec {x}})=F({\vec {x}}')} , on a alors que G ( x , y ) = G ( x , y ) {\displaystyle G({\vec {x}},{\vec {y}})=G({\vec {x}}',{\vec {y}})} , et donc que x = ψ ( y ) = x {\displaystyle {\vec {x}}=\psi ({\vec {y}})={\vec {x}}'} . Cela contredit le fait que x x {\displaystyle {\vec {x}}\neq {\vec {x}}'} . On en déduit par l'absurde que F x ( x 0 ) {\displaystyle {\frac {\partial F}{\partial {\vec {x}}}}({\vec {x}}_{0})} n'est pas inversible.

Démonstration

La démonstration présentée ici est adaptée de la preuve publiée par Koopman en 1936[1]. Elle utilise deux résultats préliminaires énoncés et démontrés plus haut.

Supposons les hypothèse du théorème vérifiées.

Pour ( x 1 , , x n ) I n {\displaystyle (x_{1},\ldots ,x_{n})\in I^{n}} et θ Θ {\displaystyle \theta \in \Theta } , notons θ ( x 1 , x n ) = log ( f θ ( x 1 , , x n ) ) {\displaystyle \ell _{\theta }(x_{1},\ldots x_{n})=\log(f_{\theta }(x_{1},\ldots ,x_{n}))} la log-vraisemblance du modèle. Comme X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} sont i.i.d., θ ( x 1 , , x n ) = log ( i = 1 n f θ ( x i ) ) = i = 1 n θ ( x i ) {\displaystyle \ell _{\theta }(x_{1},\ldots ,x_{n})=\log \left(\prod _{i=1}^{n}f_{\theta }(x_{i})\right)=\sum _{i=1}^{n}\ell _{\theta }(x_{i})} θ ( x i ) = log ( f θ ( x i ) ) {\displaystyle \ell _{\theta }(x_{i})=\log(f_{\theta }(x_{i}))} .

Soit ( θ 0 , θ 1 , , θ n ) Θ n + 1 {\displaystyle (\theta _{0},\theta _{1},\ldots ,\theta _{n})\in \Theta ^{n+1}} et soit Φ θ 0 , θ 1 , , θ n {\displaystyle \Phi _{\theta _{0},\theta _{1},\ldots ,\theta _{n}}} la fonction de I n {\displaystyle I^{n}} dans R n {\displaystyle \mathbb {R} ^{n}} définie par Φ θ 0 , , θ n ( x 1 , , x n ) = [ θ 1 ( x 1 , , x n ) θ 0 ( x 1 , , x n ) θ n ( x 1 , , x n ) θ 0 ( x 1 , , x n ) ] {\displaystyle \Phi _{\theta _{0},\ldots ,\theta _{n}}(x_{1},\ldots ,x_{n})=\left[{\begin{array}{c}\ell _{\theta _{1}}(x_{1},\ldots ,x_{n})-\ell _{\theta _{0}}(x_{1},\ldots ,x_{n})\\\vdots \\\ell _{\theta _{n}}(x_{1},\ldots ,x_{n})-\ell _{\theta _{0}}(x_{1},\ldots ,x_{n})\end{array}}\right]} .

Comme T ( X 1 , , X n ) {\displaystyle T(X_{1},\ldots ,X_{n})} est exhaustive pour θ {\displaystyle \theta } , le critère de factorisation de Fisher-Neyman permet d'écrire la vraisemblance du modèle sous la forme f θ ( x 1 , , x n ) = φ ( x 1 , , x n ) h ( θ , T ( x 1 , , x n ) ) {\displaystyle f_{\theta }(x_{1},\ldots ,x_{n})=\varphi (x_{1},\ldots ,x_{n})\,h(\theta ,T(x_{1},\ldots ,x_{n}))} où la fonction φ {\displaystyle \varphi } ne dépend pas de θ {\displaystyle \theta } et où la fonction h {\displaystyle h} ne dépend de x 1 , , x n {\displaystyle x_{1},\ldots ,x_{n}} qu'à travers T ( x 1 , , x n ) {\displaystyle T(x_{1},\ldots ,x_{n})} . On en déduit donc que

θ ( x 1 , , x n ) θ 0 ( x 1 , , x n ) = log ( h ( T ( x 1 , , x n ) , θ ) ) log ( h ( T ( x 1 , , x n ) , θ 0 ) ) {\displaystyle \ell _{\theta }(x_{1},\ldots ,x_{n})-\ell _{\theta _{0}}(x_{1},\ldots ,x_{n})=\log \left(h(T(x_{1},\ldots ,x_{n}),\theta )\right)-\log \left(h(T(x_{1},\ldots ,x_{n}),\theta _{0})\right)} .

Les coordonnées de Φ θ 0 , , θ n ( x 1 , , x n ) {\displaystyle \Phi _{\theta _{0},\ldots ,\theta _{n}}(x_{1},\ldots ,x_{n})} ne dépendent donc de x 1 , , x n {\displaystyle x_{1},\ldots ,x_{n}} qu'à travers T ( x 1 , , x n ) {\displaystyle T(x_{1},\ldots ,x_{n})} . D'après le résultat préliminaire 1, la fonction T {\displaystyle T} n'est injective sur aucun ouvert de R n {\displaystyle \mathbb {R} ^{n}} . Comme nous venons de montrer que la fonction Φ θ 0 , θ 1 , , θ n {\displaystyle \Phi _{\theta _{0},\theta _{1},\ldots ,\theta _{n}}} est elle-même fonction de T {\displaystyle T} , elle n'est, elle non plus, injective sur aucun ouvert de R n {\displaystyle \mathbb {R} ^{n}} . En particulier,

pour tout ( x 1 , , x n ) I n {\displaystyle (x_{1},\ldots ,x_{n})\in I^{n}} , Φ θ 0 , θ 1 , , θ n {\displaystyle \Phi _{\theta _{0},\theta _{1},\ldots ,\theta _{n}}} n'est injective sur aucun voisinage de ( x 1 , , x n ) I n {\displaystyle (x_{1},\ldots ,x_{n})\in I^{n}} .

Le résultat préliminaire 2 implique donc que Φ θ 0 , , θ n ( x 1 , , x n ) ( x 1 , , x n ) {\displaystyle {\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})} , la matrice jacobienne de Φ θ 0 , θ 1 , , θ n {\displaystyle \Phi _{\theta _{0},\theta _{1},\ldots ,\theta _{n}}} , n'est pas inversible et donc que son rang est inférieur ou égal à n 1 {\displaystyle n-1} . Notons que cela a été établi sans contrainte ni sur les x 1 , , x n {\displaystyle x_{1},\ldots ,x_{n}} ni sur les θ 0 , θ 1 , , θ n {\displaystyle \theta _{0},\theta _{1},\ldots ,\theta _{n}} .

Comme la i {\displaystyle i} -ème ligne et j {\displaystyle j} -ème colonne de la matrice Φ θ 0 , , θ n ( x 1 , , x n ) ( x 1 , , x n ) {\displaystyle {\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})} vaut [ Φ θ 0 , θ 1 , , θ n ( x 1 , , x n ) ( x 1 , , x n ) ] i , j = x j [ θ i ( x 1 , , x n ) θ 0 ( x 1 , , x n ) ] = x j [ θ i ( x j ) θ 0 ( x j ) ] {\displaystyle \left[{\frac {\partial \Phi _{\theta _{0},\theta _{1},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})\right]_{i,j}={\frac {\partial }{\partial x_{j}}}\left[\ell _{\theta _{i}}(x_{1},\ldots ,x_{n})-\ell _{\theta _{0}}(x_{1},\ldots ,x_{n})\right]={\frac {\partial }{\partial x_{j}}}\left[\ell _{\theta _{i}}(x_{j})-\ell _{\theta _{0}}(x_{j})\right]} , nous avons établi que :


( x 1 , , x n ) I n , ( θ 0 , θ 1 , , θ n ) Θ n + 1 , r g ( [ x 1 [ θ 1 ( x 1 ) θ 0 ( x 1 ) ] x n [ θ 1 ( x n ) θ 0 ( x n ) ] x 1 [ θ n ( x 1 ) θ 0 ( x 1 ) ] x 1 [ θ n ( x n ) θ 0 ( x n ) ] ] ) n 1 . {\displaystyle \forall (x_{1},\ldots ,x_{n})\in I^{n},\forall (\theta _{0},\theta _{1},\ldots ,\theta _{n})\in \Theta ^{n+1},\mathrm {rg} \left(\left[{\begin{array}{ccc}{\frac {\partial }{\partial x_{1}}}[\ell _{\theta _{1}}(x_{1})-\ell _{\theta _{0}}(x_{1})]&\cdots &{\frac {\partial }{\partial x_{n}}}[\ell _{\theta _{1}}(x_{n})-\ell _{\theta _{0}}(x_{n})]\\\vdots &\ddots &\vdots \\{\frac {\partial }{\partial x_{1}}}[\ell _{\theta _{n}}(x_{1})-\ell _{\theta _{0}}(x_{1})]&\dots &{\frac {\partial }{\partial x_{1}}}[\ell _{\theta _{n}}(x_{n})-\ell _{\theta _{0}}(x_{n})]\end{array}}\right]\right)\leq n-1\,.}

Notons r {\displaystyle r} plus grand rang possible de Φ θ 0 , , θ n ( x 1 , , x n ) ( x 1 , , x n ) {\displaystyle {\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})} lorsque ( θ 0 , θ 1 , , θ n ) {\displaystyle (\theta _{0},\theta _{1},\ldots ,\theta _{n})} et ( x 1 , , x n ) {\displaystyle (x_{1},\ldots ,x_{n})} varient, et fixons ( θ 0 , θ 1 , , θ n ) {\displaystyle (\theta _{0},\theta _{1},\ldots ,\theta _{n})} et ( x 1 , , x n ) {\displaystyle (x_{1},\ldots ,x_{n})} tels que le rang de Φ θ 0 , , θ n ( x 1 , , x n ) ( x 1 , , x n ) {\displaystyle {\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})} soit égal à ce maximum r {\displaystyle r} (on a nécessairement r n 1 {\displaystyle r\leq n-1} ). Alors il existe au moins une sous-matrice de Φ θ 0 , , θ n ( x 1 , , x n ) ( x 1 , , x n ) {\displaystyle {\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})} de taille r {\displaystyle r} inversible (sinon le rang serait strictement inférieur à r {\displaystyle r} ). Quitte à permuter les valeurs de ( θ 1 , , θ n ) {\displaystyle (\theta _{1},\ldots ,\theta _{n})} et les valeurs de ( x 1 , , x n ) {\displaystyle (x_{1},\ldots ,x_{n})} , on peut supposer que la matrice extraite de Φ θ 0 , , θ n ( x 1 , , x n ) ( x 1 , , x n ) {\displaystyle {\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})} en prenant les r {\displaystyle r} premières lignes et les r premières colonnes est inversible, puisque la i {\displaystyle i} -ème ligne et j {\displaystyle j} -ème colonne de Φ θ 0 , , θ n ( x 1 , , x n ) ( x 1 , , x n ) {\displaystyle {\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})} ne dépend que de θ 0 {\displaystyle \theta _{0}} , θ i {\displaystyle \theta _{i}} et x j {\displaystyle x_{j}} . Notons M r {\displaystyle M_{r}} cette matrice extraite :

M r = ( x 1 [ θ 1 ( x 1 ) θ 0 ( x 1 ) ] x r [ θ 1 ( x r ) θ 0 ( x r ) ] x 1 [ θ r ( x 1 ) θ 0 ( x 1 ) ] x r [ θ r ( x r ) θ 0 ( x r ) ] ) {\displaystyle M_{r}=\left({\begin{array}{ccc}{\frac {\partial }{\partial x_{1}}}[\ell _{\theta _{1}}(x_{1})-\ell _{\theta _{0}}(x_{1})]&\cdots &{\frac {\partial }{\partial x_{r}}}[\ell _{\theta _{1}}(x_{r})-\ell _{\theta _{0}}(x_{r})]\\\vdots &\ddots &\vdots \\{\frac {\partial }{\partial x_{1}}}[\ell _{\theta _{r}}(x_{1})-\ell _{\theta _{0}}(x_{1})]&\dots &{\frac {\partial }{\partial x_{r}}}[\ell _{\theta _{r}}(x_{r})-\ell _{\theta _{0}}(x_{r})]\end{array}}\right)} . Alors det ( M r ) 0 {\displaystyle \det(M_{r})\neq 0} .

Notons M r + 1 ( x , θ ) = ( x 1 [ θ 1 ( x 1 ) θ 0 ( x 1 ) ] x r [ θ 1 ( x r ) θ 0 ( x r ) ] x [ θ 1 ( x ) θ 0 ( x ) ] x 1 [ θ r ( x 1 ) θ 0 ( x 1 ) ] x r [ θ r ( x r ) θ 0 ( x r ) ] x [ θ r ( x ) θ 0 ( x ) ] x 1 [ θ ( x 1 ) θ 0 ( x 1 ) ] x r [ θ ( x r ) θ 0 ( x r ) ] x [ θ ( x ) θ 0 ( x ) ] ) {\displaystyle M_{r+1}(x,\theta )=\left({\begin{array}{cccc}{\frac {\partial }{\partial x_{1}}}[\ell _{\theta _{1}}(x_{1})-\ell _{\theta _{0}}(x_{1})]&\cdots &{\frac {\partial }{\partial x_{r}}}[\ell _{\theta _{1}}(x_{r})-\ell _{\theta _{0}}(x_{r})]&{\frac {\partial }{\partial x}}[\ell _{\theta _{1}}(x)-\ell _{\theta _{0}}(x)]\\\vdots &\ddots &\vdots &\vdots \\{\frac {\partial }{\partial x_{1}}}[\ell _{\theta _{r}}(x_{1})-\ell _{\theta _{0}}(x_{1})]&\dots &{\frac {\partial }{\partial x_{r}}}[\ell _{\theta _{r}}(x_{r})-\ell _{\theta _{0}}(x_{r})]&{\frac {\partial }{\partial x}}[\ell _{\theta _{r}}(x)-\ell _{\theta _{0}}(x)]\\{\frac {\partial }{\partial x_{1}}}[\ell _{\theta }(x_{1})-\ell _{\theta _{0}}(x_{1})]&\dots &{\frac {\partial }{\partial x_{r}}}[\ell _{\theta }(x_{r})-\ell _{\theta _{0}}(x_{r})]&{\frac {\partial }{\partial x}}[\ell _{\theta }(x)-\ell _{\theta _{0}}(x)]\end{array}}\right)} ,

la matrice obtenue en prenant les r + 1 {\displaystyle r+1} première lignes et les r + 1 {\displaystyle r+1} premières colonnes de Φ θ 0 , , θ n ( x 1 , , x n ) ( x 1 , , x n ) {\displaystyle {\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})} , et en remplaçant x r + 1 {\displaystyle x_{r+1}} par x {\displaystyle x} et θ r + 1 {\displaystyle \theta _{r+1}} par θ {\displaystyle \theta } .

M r + 1 ( x , θ ) {\displaystyle M_{r+1}(x,\theta )} ne peut pas être inversible, sinon ce serait une matrice extraite de Φ θ 0 , , θ n ( x 1 , , x n ) ( x 1 , , x n ) {\displaystyle {\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})} inversible et de taille r + 1 {\displaystyle r+1} , ce qui contredirait que le rang maximum de Φ θ 0 , , θ n ( x 1 , , x n ) ( x 1 , , x n ) {\displaystyle {\frac {\partial \Phi _{\theta _{0},\ldots ,\theta _{n}}}{\partial (x_{1},\ldots ,x_{n})}}(x_{1},\ldots ,x_{n})} est r {\displaystyle r} . Donc,

x I , θ Θ , det ( M r + 1 ( x , θ ) ) = 0 {\displaystyle \forall x\in I,\,\forall \theta \in \Theta ,\,\det \left(M_{r+1}(x,\theta )\right)=0} .

Un développement du déterminant de M r + 1 ( x , θ ) {\displaystyle M_{r+1}(x,\theta )} selon la dernière colonne donne i = 1 r β i x [ θ i ( x ) θ 0 ( x ) ] + β r + 1 x [ θ ( x ) θ 0 ( x ) ] = 0 {\displaystyle \sum _{i=1}^{r}\beta _{i}{\frac {\partial }{\partial x}}[\ell _{\theta _{i}}(x)-\ell _{\theta _{0}}(x)]+\beta _{r+1}{\frac {\partial }{\partial x}}[\ell _{\theta }(x)-\ell _{\theta _{0}}(x)]=0} a i {\displaystyle a_{i}} est le cofacteur de M r + 1 ( x , θ ) {\displaystyle M_{r+1}(x,\theta )} d'indice i , r + 1 {\displaystyle i,r+1} , c'est-à-dire le déterminant la matrice extraite de M r + 1 ( x , θ ) {\displaystyle M_{r+1}(x,\theta )} en supprimant sa i {\displaystyle i} -ème ligne et r + 1 {\displaystyle r+1} -ème colonne, le tout multiplié par ( 1 ) i + r + 1 {\displaystyle (-1)^{i+r+1}} .

Remarquons que :

  • β r + 1 = det ( M r ) 0 {\displaystyle \beta _{r+1}=\det(M_{r})\neq 0} , ne dépend ni de θ {\displaystyle \theta } ni de x {\displaystyle x} (seulement de θ 0 , θ 1 , , θ r {\displaystyle \theta _{0},\theta _{1},\ldots ,\theta _{r}} et de x 1 , , x r {\displaystyle x_{1},\ldots ,x_{r}} ).
  • Pour i r {\displaystyle i\leq r} , β i {\displaystyle \beta _{i}} ne dépend pas de x {\displaystyle x} , mais dépend de θ {\displaystyle \theta } . Rendons cette dépendance explicite en écrivant β i ( θ ) {\displaystyle \beta {_{i}}(\theta )} .

Notons b i ( θ ) = β i ( θ ) / β r {\displaystyle b_{i}(\theta )=-\beta _{i}(\theta )/\beta _{r}} . Alors l'équation précédente se réécrit comme

x θ i ( x ) = x θ 0 ( x ) + i = 1 r b i ( θ ) x [ θ i ( x ) θ 0 ( x ) ] {\displaystyle {\frac {\partial }{\partial x}}\ell _{\theta _{i}}(x)={\frac {\partial }{\partial x}}\ell _{\theta _{0}}(x)+\sum _{i=1}^{r}b_{i}(\theta ){\frac {\partial }{\partial x}}[\ell _{\theta _{i}}(x)-\ell _{\theta _{0}}(x)]} .

Intégrons cette égalité par rapport à x {\displaystyle x}  :

θ ( x ) = θ 0 ( x ) + i = 1 r b i ( θ ) [ θ i ( x ) θ 0 ( x ) ] + c ( θ ) {\displaystyle \ell _{\theta }(x)=\ell _{\theta _{0}}(x)+\sum _{i=1}^{r}b_{i}(\theta )[\ell _{\theta _{i}}(x)-\ell _{\theta _{0}}(x)]+c(\theta )} ,

c ( θ ) {\displaystyle c(\theta )} est une constante d'intégration.

En notant a i ( x ) = θ i ( x ) θ 0 ( x ) {\displaystyle a_{i}(x)=\ell _{\theta _{i}}(x)-\ell _{\theta _{0}}(x)} (qui ne dépend pas de θ {\displaystyle \theta } ) et g ( x ) = exp ( θ 0 ( x ) ) {\displaystyle g(x)=\exp \left(\ell _{\theta _{0}}(x)\right)} (qui ne dépend pas de θ {\displaystyle \theta } non plus), on arrive finalement au fait que θ ( x ) = log ( g ( x ) ) + i = 1 r a i ( x ) b i ( θ ) + c ( θ ) {\displaystyle \ell _{\theta }(x)=\log(g(x))+\sum _{i=1}^{r}a_{i}(x)b_{i}(\theta )+c(\theta )} , c'est-à-dire que

f θ ( x ) = g ( x ) exp ( i = 1 r a i ( x ) b i ( θ ) + c ( θ ) ) {\displaystyle f_{\theta }(x)=g(x)\,\exp {\left(\sum _{i=1}^{r}a_{i}(x)b_{i}(\theta )+c(\theta )\right)}} .

La densité f θ {\displaystyle f_{\theta }} , fait bien partie de la famille exponentielle.

Remarques

  • Ce théorème ne s'applique qu'aux variables aléatoires continues.
  • La statistique ( i = 1 n a 1 ( X i ) , , i = 1 n a r ( X i ) ) {\displaystyle \left(\sum _{i=1}^{n}a_{1}(X_{i}),\ldots ,\sum _{i=1}^{n}a_{r}(X_{i})\right)} est alors aussi une statistique exhaustive (d'après le critère de factorisation de Fisher-Neyman). De plus, si r {\displaystyle r} est le plus petit entier pour laquelle f θ {\displaystyle f_{\theta }} peut s'écrire sous la forme f θ ( x ) = g ( x ) exp ( i = 1 r a i ( x ) b i ( θ ) + c ( θ ) ) {\displaystyle f_{\theta }(x)=g(x)\,\exp {\left(\sum _{i=1}^{r}a_{i}(x)b_{i}(\theta )+c(\theta )\right)}} , alors cette statistique est aussi minimale, et r {\displaystyle r} est appelé le rang de la famille de distribution { f θ θ Θ } {\displaystyle \{f_{\theta }\mid \theta \in \Theta \}} [8].
  • L'hypothèse de continuité de la statistique exhaustive T {\displaystyle T} est cruciale. Il est en effet possible de créer des fonctions non continues bijectives de R n {\displaystyle \mathbb {R} ^{n}} dans R {\displaystyle \mathbb {R} } . Une telle fonction, inutile en pratique par sa complexité, conserverait toute l'information d'une réalisation de l'échantillon X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} en la compressant en un seul nombre réel, et formerait donc une statistique exhaustive (puisque l'échantillon X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} est lui-même une statistique exhaustive), que la loi des X i {\displaystyle X_{i}} appartienne à la famille exponentielle ou non.
  • Si le support de X {\displaystyle X} est une réunion finie d'intervalles disjoints I 1 , I 2 , {\displaystyle I_{1},I_{2},\ldots } , alors on peut appliquer le théorème de Pitman-Koopman-Darmois à la variable aléatoire X X I k {\displaystyle X\mid X\in I_{k}} , dont le support est l'intervalle I k {\displaystyle I_{k}} et dont la densité est f θ ( x X I k ) = f θ ( x ) / P θ ( X I k ) {\displaystyle f_{\theta }(x\mid X\in I_{k})={f_{\theta }(x)}/{P_{\theta }(X\in I_{k})}} . Il en résulte que sur chaque intervalle I k {\displaystyle I_{k}} , la densité de X {\displaystyle X} s'écrit sous la forme d'un membre de famille exponentielle.
  • On trouve des versions du théorème requérant que la fonction T {\displaystyle T} soit différentiable[9], ou que la densité f θ {\displaystyle f_{\theta }} soit strictement positive sur R {\displaystyle \mathbb {R} } tout entier[10]. Ces conditions, plus strictes que celles de l'énoncé ci-dessus, sont suffisantes puisque la différentiabilité de T {\displaystyle T} implique sa continuité, et que le stricte positivité de f θ {\displaystyle f_{\theta }} sur R {\displaystyle \mathbb {R} } implique que son support soit indépendant de θ {\displaystyle \theta } , cependant elle ne sont pas nécessaires.
  • Dans l'énoncé ci-dessus le théorème a pour hypothèse que la dimension de T ( X 1 , , X n ) {\displaystyle T(X_{1},\ldots ,X_{n})} soit strictement inférieure à la taille d'échantillon n {\displaystyle n} . Cette hypothèse est souvent remplacée par l'hypothèse, plus restrictive, que la dimension de T ( X 1 , , X n ) {\displaystyle T(X_{1},\ldots ,X_{n})} n'augmente pas avec n {\displaystyle n} . Cette hypothèse est suffisante puis qu'alors, lorsque n {\displaystyle n} augmente, il dépasse à un moment donné la dimension de T ( X 1 , , X n ) {\displaystyle T(X_{1},\ldots ,X_{n})} qui elle reste fixe. Cependant elle est plus stricte que nécessaire. Par exemple, une statistique exhaustive T ( X 1 , , X n ) {\displaystyle T(X_{1},\ldots ,X_{n})} de dimension n 1 {\displaystyle n-1} garantit l'appartenance de f θ {\displaystyle f_{\theta }} à la famille exponentielle, si les autres hypothèses du théorème sont respectées.

Réciproque

Le théorème de Pitman-Koopman-Darmois admet une réciproque : si une variable aléatoire X {\displaystyle X} est distribuée suivant une loi de la famille exponentielle, alors il existe une statistique suffisante pour le paramètre de cette loi. Ceci est une simple conséquence de la définition de la famille exponentielle et du critère de factorisation de Fisher-Neymann. Cette réciproque s'applique aussi aux variables aléatoires discrètes.

Exemples

Loi normale

  • Soit X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} des variables indépendantes et identiquement distribuées selon une loi normale N ( μ , σ 2 ) {\displaystyle {\mathcal {N}}(\mu ,\sigma ^{2})} d'espérance μ {\displaystyle \mu } et de variance σ 2 {\displaystyle \sigma ^{2}} . Soit X ¯ = 1 n i = 1 n X i {\displaystyle {\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}} la moyenne empirique et S = 1 n 1 i = 1 n ( X i X ¯ ) 2 {\displaystyle S={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}} l'estimateur non biaisé de la variance. Alors T ( X ) = ( X ¯ , S ) {\displaystyle T(X)=({\bar {X}},S)} est une statistique exhaustive pour le couple de paramètres ( μ , σ ) {\displaystyle (\mu ,\sigma )} , et la loi normale appartient bien à la famille exponentielle. De plus, la statistique T {\displaystyle T} est aussi minimale et la loi normale (d'espérance et de variances inconnues) est bien de rang 2.

Contre exemples

Loi de Cauchy

La loi de Cauchy de densité f ( x ) = 1 π 1 1 + ( x μ ) 2 {\displaystyle f(x)={\frac {1}{\pi }}{\frac {1}{1+(x-\mu )^{2}}}} sur R {\displaystyle \mathbb {R} } n'appartient pas à la famille exponentielle. Il n'existe donc pas de statistique exhaustive non triviale pour le paramètre μ {\displaystyle \mu } .

Loi uniforme

Soit X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} , n {\displaystyle n} variables aléatoires indépendantes et identiquement distribuées selon une loi uniforme sur l'intervalle [ 0 , θ ] {\displaystyle [0,\theta ]} pour θ ] 0 , + [ {\displaystyle \theta \in \,]0,+\infty [} . Cette distribution n'appartient pas à la famille exponentielle mais elle admet la statistique T ( X 1 , , X n ) = max ( X 1 , , X n ) {\displaystyle T(X_{1},\ldots ,X_{n})=\max(X_{1},\ldots ,X_{n})} comme statistique exhaustive. Cela est possible car la loi uniforme ne satisfait pas les conditions du théorème de Pitman-Koopman-Darmois puisque son support dépend du paramètre θ {\displaystyle \theta } .

Cas des variables aléatoires discrètes

Le théorème de Pitman-Koopman-Darmois énoncé plus haut n'est valide que pour les variables aléatoires continues à valeurs dans R {\displaystyle \mathbb {R} } . En effet, plusieurs hypothèses ne sont pas pertinentes pour des variables discrètes, notamment la continuité de la fonction T {\displaystyle T} . Cette continuité est cruciale pour interdire des fonctions qui seraient des bijections entre R n {\displaystyle \mathbb {R} ^{n}} et R p {\displaystyle \mathbb {R} ^{p}} , et qui pourraient donc former des statistiques exhaustives pour toute loi de probabilité, puisqu'il serait possible de retrouver les valeurs de x 1 , , x n {\displaystyle x_{1},\ldots ,x_{n}} depuis la valeur de T ( x 1 , , x n ) {\displaystyle T(x_{1},\ldots ,x_{n})} . Dans le cas de variables aléatoires discrètes, la fonction T {\displaystyle T} a pour ensemble de départ en ensemble discret. La continuité de T {\displaystyle T} n'est donc pas une notion pertinente.

Il existe bien une version du théorème de Pitman-Koopman-Darmois pour les variables aléatoires discrètes[11] pour laquelle la condition de continuité de T {\displaystyle T} est adaptée au . Cependant, cette condition devient non-triviale et peu intuitive.

Théorème de Pitman-Koopman-Darmois pour des variables discrètes — Soit X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} , n {\displaystyle n} variables aléatoires discrètes à valeur dans un sous ensemble discret X {\displaystyle {\mathcal {X}}} de R {\displaystyle \mathbb {R} } (typiquement X = N {\displaystyle {\mathcal {X}}=\mathbb {N} } ), indépendantes et identiquement distribuées suivant une loi de probabilité discrète de fonction de masse p θ {\displaystyle p_{\theta }} , dépendante d'un paramètre θ {\displaystyle \theta } à valeurs dans un ensemble Θ {\displaystyle \Theta } . Si le support de p θ {\displaystyle p_{\theta }} ne dépend pas du paramètre θ {\displaystyle \theta } et s'il existe une fonction T {\displaystyle T} de X n {\displaystyle {\mathcal {X}}^{n}} dans un ensemble T {\displaystyle {\mathcal {T}}} telle que T ( X 1 , , X n ) {\displaystyle T(X_{1},\ldots ,X_{n})} est exhaustive pour θ {\displaystyle \theta } et qui satisfait les deux conditions suivantes :

  1. l'ensemble T {\displaystyle {\mathcal {T}}} est totalement ordonné, c'est-à-dire qu'il existe une relation «  {\displaystyle \leq }  » telle que pour tout ( t 1 , t 2 ) T 2 {\displaystyle (t_{1},t_{2})\in {\mathcal {T}}^{2}} , on ait soit t 1 t 2 {\displaystyle t_{1}\leq t_{2}} soit t 2 t 1 {\displaystyle t_{2}\leq t_{1}} . De plus, on a t 1 t 2 {\displaystyle t_{1}\leq t_{2}} et t 2 t 1 {\displaystyle t_{2}\leq t_{1}} si et seulement si t 1 = t 2 {\displaystyle t_{1}=t_{2}} .
  2. pour tout j { 1 , , n } {\displaystyle j\in \{1,\ldots ,n\}} , si ( t 1 , t 2 , t ) T 3 {\displaystyle (t_{1},t_{2},t)\in {\mathcal {T}}^{3}} sont trois valeurs possibles de T {\displaystyle T} telle que t 1 = T ( x 1 , , x j 1 , x j , x j + 1 , , x n ) {\displaystyle t_{1}=T(x_{1},\ldots ,x_{j-1},x_{j},x_{j+1},\ldots ,x_{n})} et t 2 = T ( x 1 , , x j 1 , x j , x j + 1 , , x n ) {\displaystyle t_{2}=T(x_{1},\ldots ,x_{j-1},x_{j}',x_{j+1},\ldots ,x_{n})} . Si t {\displaystyle t} est entre t 1 {\displaystyle t_{1}} et t 2 {\displaystyle t_{2}} , alors il existe x {\displaystyle x} entre x j {\displaystyle x_{j}} et x j {\displaystyle x_{j}'} tel que t = T ( x 1 , , x j 1 , x , x j + 1 , , x n ) {\displaystyle t=T(x_{1},\ldots ,x_{j-1},x,x_{j+1},\ldots ,x_{n})} .

Alors la loi des X i {\displaystyle X_{i}} fait partie de la famille exponentielle avec un rang 1, c'est-à-dire que p θ {\displaystyle p_{\theta }} peut s'écrire sous la forme p θ ( x ) = g ( x ) exp ( a ( x ) b ( θ ) + c ( θ ) ) {\displaystyle p_{\theta }(x)=g(x)\exp \left(a(x)\,b(\theta )+c(\theta )\right)} g {\displaystyle g} est une fonction de X {\displaystyle {\mathcal {X}}} dans R + {\displaystyle \mathbb {R} _{+}} , a {\displaystyle a} est une fonction de X {\displaystyle {\mathcal {X}}} dans R {\displaystyle \mathbb {R} } , b {\displaystyle b} et c {\displaystyle c} sont des fonctions de Θ {\displaystyle \Theta } dans R {\displaystyle \mathbb {R} } .

Remarques

  • Cette version discrète du théorème se limite aux familles exponentielles de rang 1. La statistique T ( X 1 , , X n ) {\displaystyle T(X_{1},\ldots ,X_{n})} est donc typiquement de dimension 1.
  • La condition 2 portant sur la statistique T ( X 1 , , X n ) {\displaystyle T(X_{1},\ldots ,X_{n})} est satisfaite pour tous les moments, c'est-à-dire pour les statistiques de la forme T ( X 1 , , X n ) = i = 1 n X i k {\displaystyle T(X_{1},\ldots ,X_{n})=\sum _{i=1}^{n}X_{i}^{k}} pour k N {\displaystyle k\in \mathbb {N} } .

Exemple

Si X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} sont n {\displaystyle n} variables aléatoires discrètes indépendantes et identiquement distribuées suivant une loi géométrique ou une loi de Poisson de paramètre inconnu, alors la statistique T ( X 1 , , X n ) = i = 1 n X i {\displaystyle T(X_{1},\ldots ,X_{n})=\sum _{i=1}^{n}X_{i}} est une statistique exhaustive pour le paramètre de la loi et elle vérifie les conditions du théorème de Pitman-Koopman-Darmois pour les variables discrètes. Les lois géométrique et de Poisson appartiennent bien à la famille exponentielle et sont de rang 1. Dans ces deux cas, la statistique T {\displaystyle T} est aussi minimale.

Contre-exemples

  • Si X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} sont n {\displaystyle n} variables aléatoires discrètes indépendantes et identiquement distribuées suivant une loi uniforme sur { 1 , , θ } {\displaystyle \left\{1,\ldots ,\theta \right\}} pour θ N {\displaystyle \theta \in \mathbb {N} ^{*}} . Comme le support de cette loi dépend du paramètre θ {\displaystyle \theta } , les conditions du théorème ne sont pas satisfaits. La statistique T ( X 1 , , X n ) = max ( X 1 , , X n ) {\displaystyle T(X_{1},\ldots ,X_{n})=\max(X_{1},\ldots ,X_{n})} est exhaustive pour θ {\displaystyle \theta } et satisfait les conditions du théorème Pitman-Koopman-Darmois pour les variables discrètes. Cependant, la loi uniforme n'appartient pas à la famille exponentielle.
  • Si X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} sont n {\displaystyle n} variables aléatoires discrètes à valeurs dans N {\displaystyle \mathbb {N} } , indépendantes et identiquement distribuées suivant une loi de fonction de masse p θ {\displaystyle p_{\theta }} dépendant d'un paramètre θ {\displaystyle \theta } . Alors, la statistique T ( X 1 , , X n ) = i = 1 n 1 1 + π X i {\displaystyle T(X_{1},\ldots ,X_{n})=\sum _{i=1}^{n}{\frac {1}{1+\pi X_{i}}}} est exhaustive pour θ {\displaystyle \theta } , que p θ {\displaystyle p_{\theta }} appartienne à la famille exponentielle ou non. Cela semble contredire le théorème de Pitman-Koopman-Darmois pour les variables discrètes mais en réalité la statistique T ( X 1 , , X n ) {\displaystyle T(X_{1},\ldots ,X_{n})} ne satisfait pas la condition 2 de ce théorème. Pour une valeur de T ( X 1 , , X n ) {\displaystyle T(X_{1},\ldots ,X_{n})} donnée, il est en fait possible de retrouver les valeurs X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} correspondantes, à l'ordre près. Formellement, si T ( X 1 , , X n ) = T ( X 1 , , X n ) {\displaystyle T(X_{1},\ldots ,X_{n})=T(X'_{1},\ldots ,X'_{n})} , alors ( X 1 , , X n ) = ( X 1 , , X n ) {\displaystyle (X_{1},\ldots ,X_{n})=(X'_{1},\ldots ,X'_{n})} à une permutation près[11] (cela se montre en utilisant la transcendance du nombre π {\displaystyle \pi } ). Cela signifie que la statistique T ( X 1 , , X n ) {\displaystyle T(X_{1},\ldots ,X_{n})} contient autant d'information que les données elles-mêmes, à l'exception de leur ordre. Puisque celles-ci sont exhaustives, T ( X 1 , , X n ) {\displaystyle T(X_{1},\ldots ,X_{n})} l'est aussi.

Autres généralisations

Il existe diverses généralisations du théorème de Pitman-Koopman-Darmois. Entre autres, il existe des versions du théorème pour :

  • des variables aléatoires dont la loi a un support dépendant du paramètre[8],
  • des variables aléatoires indépendantes mais non identiquement distribuées[6],
  • des processus stochastiques[10].

Voir aussi

Références

  1. a et b B. O. Koopman, « On Distributions Admitting a Sufficient Statistic », Transactions of the American Mathematical Society, vol. 39, no 3,‎ , p. 399 (ISSN 0002-9947, DOI 10.2307/1989758, lire en ligne, consulté le )
  2. E. J. G. Pitman, « Sufficient statistics and intrinsic accuracy », Mathematical Proceedings of the Cambridge Philosophical Society, vol. 32, no 4,‎ , p. 567–579 (ISSN 0305-0041 et 1469-8064, DOI 10.1017/s0305004100019307, lire en ligne, consulté le )
  3. Georges Darmois, « Sur les lois de probabilité à estimation exhaustive », Comptes rendus hebdomadaires des séances de l'Académie des sciences, vol. 200,‎ , p. 1265-1266
  4. « Two new properties of mathematical likelihood », Proceedings of the Royal Society of London. Series A, Containing Papers of a Mathematical and Physical Character, vol. 144, no 852,‎ , p. 285–307 (ISSN 0950-1207 et 2053-9150, DOI 10.1098/rspa.1934.0050, lire en ligne, consulté le )
  5. D. A. S. Fraser, « On Sufficiency and the Exponential Family », Journal of the Royal Statistical Society Series B: Statistical Methodology, vol. 25, no 1,‎ , p. 115–123 (ISSN 1369-7412 et 1467-9868, DOI 10.1111/j.2517-6161.1963.tb00489.x, lire en ligne, consulté le )
  6. a et b (en) « Generalizing Koopman-Pitman-Darmois - LessWrong », sur www.lesswrong.com (consulté le )
  7. Edward W. Barankin et Ashok P. Maitra, « Generalization of the Fisher-Darmois-Koopman-Pitman Theorem on Sufficient Statistics », Sankhyā: The Indian Journal of Statistics, Series A (1961-2002), vol. 25, no 3,‎ , p. 217–244 (ISSN 0581-572X, lire en ligne, consulté le )
  8. a et b (en) Evgeniĭ Borisovich Dynkin et Gary M. Seitz, Selected Papers of E. B. Dynkin with Commentary, American Mathematical Soc., (ISBN 978-0-8218-1065-1, lire en ligne)
  9. (en) « Is Pitman-Koopman-Darmois Theorem valid for discrete random variables? », sur Cross Validated (consulté le )
  10. a et b Frederick Daum, « The Fisher-Darmois-Koopman-Pitman theorem for random processes », 1986 25th IEEE Conference on Decision and Control, IEEE,‎ (DOI 10.1109/cdc.1986.267536, lire en ligne, consulté le )
  11. a et b Erling Bernhard Andersen, « Sufficiency and Exponential Families for Discrete Sample Spaces », Journal of the American Statistical Association, vol. 65, no 331,‎ , p. 1248 (ISSN 0162-1459, DOI 10.2307/2284291, lire en ligne, consulté le )


  • icône décorative Portail des probabilités et de la statistique