Geordende steekproef

In de statistiek vormen de naar grootte gerangschikte elementen van een steekproef X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} van continue stochastische variabelen, die onderling onafhankelijk zijn, maar niet noodzakelijk gelijkverdeeld, de geordende steekproef, meestal genoteerd als

X ( 1 ) X ( n ) {\displaystyle X_{(1)}\leq \ldots \leq X_{(n)}} .

Met X ( k ) {\displaystyle X_{(k)}} wordt het steekproefelement aangeduid met het rangnummer k {\displaystyle k} . De notatie X k : n {\displaystyle X_{k:n}} wordt ook gebruikt, waaraan tevens de steekproefomvang is te zien. Als er geen knopen zijn, geldt dus:

X ( k ) = X i r i = k {\displaystyle X_{(k)}=X_{i}\Longleftrightarrow r_{i}=k}

Als x 1 , , x n {\displaystyle x_{1},\ldots ,x_{n}} de uitkomst van de steekproef is, worden de geordende resultaten genoteerd als:

x ( 1 ) x ( n ) {\displaystyle x_{(1)}\leq \ldots \leq x_{(n)}}

De elementen in de geordende steekproef zijn stochastisch afhankelijk en elk van de elementen is een steekproeffunctie van de oorspronkelijke steekproef. In het bijzonder is

X ( 1 ) = min ( X 1 , , X n ) {\displaystyle X_{(1)}=\min(X_{1},\ldots ,X_{n})}

en

X ( n ) = max ( X 1 , , X n ) {\displaystyle X_{(n)}=\max(X_{1},\ldots ,X_{n})}

Verdeling

In de meeste gevallen worden gelijkverdeelde variabelen beschouwd, die dus een aselecte steekproef vormen.

In het algemene geval is de verdeling gecompliceerder en wordt deze gegeven door de stelling van Bapat–Beg, die in 1989 gepubliceerd werd door Bapat en Beg. De auteurs gaven geen bewijs, maar in 1994 gaf Hande een eenvoudig bewijs van de stelling.

Aselecte steekproef

Voor een aselecte steekproef van X , {\displaystyle X,} dus voor onderling onafhankelijke en gelijkverdeelde X {\displaystyle X} -en, is de simultane verdeling voor y 1 y 2 y n {\displaystyle y_{1}\leq y_{2}\leq \ldots \leq y_{n}} gegeven door de kansdichtheid:

f X ( 1 ) , , X ( n ) ( y 1 , , y n ) = n ! k f X ( y k ) {\displaystyle f_{X_{(1)},\ldots ,X_{(n)}}(y_{1},\ldots ,y_{n})=n!\prod _{k}f_{X}(y_{k})}

De verdelingsfunctie van X ( k ) {\displaystyle X_{(k)}} wordt gegeven door:

F X ( k ) ( x ) = P ( X ( k ) x ) = {\displaystyle F_{X_{(k)}}(x)=P(X_{(k)}\leq x)=}
= m = k n P ( X ( 1 ) x , , X ( m ) x , X ( m + 1 ) > x , , X ( n ) > x ) {\displaystyle =\sum _{m=k}^{n}P(X_{(1)}\leq x,\ldots ,X_{(m)}\leq x,X_{(m+1)}>x,\ldots ,X_{(n)}>x)}
= m = k n ( n m ) P ( X 1 x , , X m x , X m + 1 > x , , X n > x ) {\displaystyle =\sum _{m=k}^{n}{\tbinom {n}{m}}P(X_{1}\leq x,\ldots ,X_{m}\leq x,X_{m+1}>x,\ldots ,X_{n}>x)}
= m = k n ( n m ) ( F X ( x ) ) m ( 1 F X ( x ) ) n m {\displaystyle =\sum _{m=k}^{n}{\tbinom {n}{m}}\left(F_{X}(x)\right)^{m}\left(1-F_{X}(x)\right)^{n-m}} ,

want elk van de ( n m ) {\displaystyle {\tbinom {n}{m}}} gebeurtenissen

{ X i 1 x , , X i m x , X i m + 1 > x , , X i n > x } {\displaystyle \{X_{i_{1}}\leq x,\ldots ,X_{i_{m}}\leq x,X_{i_{m+1}}>x,\ldots ,X_{i_{n}}>x\}}

heeft dezelfde kans als

{ X 1 x , , X m x , X m + 1 > x , , X n > x } {\displaystyle \{X_{1}\leq x,\ldots ,X_{m}\leq x,X_{m+1}>x,\ldots ,X_{n}>x\}}

De dichtheid van X ( k ) {\displaystyle X_{(k)}} is:

f X ( k ) ( x ) = n ( n 1 k 1 ) ( F X ( x ) ) k 1 f X ( x ) ( 1 ( F X ( x ) ) ) n k {\displaystyle f_{X_{(k)}}(x)=n{\tbinom {n-1}{k-1}}\left(F_{X}(x)\right)^{k-1}f_{X}(x)(1-\left(F_{X}(x)\right))^{n-k}}

Immers:

f X ( k ) ( x ) d x P ( X ( k ) [ x , x + d x ) ) = {\displaystyle f_{X_{(k)}}(x){\rm {d}}x\approx P(X_{(k)}\in [x,x+{\rm {d}}x))=}
= n ( n 1 k 1 ) P ( X 1 x , , X k 1 , X k [ x , x + d x ) ) , X k + 1 > x , , X n > x ) {\displaystyle =n{\tbinom {n-1}{k-1}}P(X_{1}\leq x,\ldots ,X_{k-1},X_{k}\in [x,x+{\rm {d}}x)),X_{k+1}>x,\ldots ,X_{n}>x)}
= n ( n 1 k 1 ) F X ( x ) F X ( x ) f X ( x ) d x ( 1 F X ( x ) ) ( 1 F X ( x ) ) {\displaystyle =n{\tbinom {n-1}{k-1}}F_{X}(x)\cdot \ldots \cdot F_{X}(x)f_{X}(x){\rm {d}}x(1-F_{X}(x))\cdot \ldots \cdot (1-F_{X}(x))}
Andere berekening 

Dit resultaat kan ook worden verkregen door het berekenen van de afgeleide van F X ( k ) ( x ) {\displaystyle F_{X_{(k)}}(x)} .

f X ( k ) ( x ) = F X ( k ) ( x ) = {\displaystyle f_{X_{(k)}}(x)=F'_{X_{(k)}}(x)=}
= f X ( x ) ( m = k n ( n m ) m ( F X ( x ) ) m 1 ( 1 F X ( x ) ) n m m = k n 1 ( n m ) ( n m ) ( F X ( x ) ) m ( 1 F X ( x ) ) n m 1 ) {\displaystyle =f_{X}(x)\left(\sum _{m=k}^{n}{\tbinom {n}{m}}m\left(F_{X}(x)\right)^{m-1}\left(1-F_{X}(x)\right)^{n-m}-\sum _{m=k}^{n-1}{\tbinom {n}{m}}(n-m)\left(F_{X}(x)\right)^{m}\left(1-F_{X}(x)\right)^{n-m-1}\right)}
= f X ( x ) ( m = k n ( n m ) m ( F X ( x ) ) m 1 ( 1 F X ( x ) ) n m m = k + 1 n ( n m 1 ) ( n m + 1 ) ( F X ( x ) ) m 1 ( 1 F X ( x ) ) n m ) {\displaystyle =f_{X}(x)\left(\sum _{m=k}^{n}{\tbinom {n}{m}}m\left(F_{X}(x)\right)^{m-1}\left(1-F_{X}(x)\right)^{n-m}-\sum _{m=k+1}^{n}{\tbinom {n}{m-1}}(n-m+1)\left(F_{X}(x)\right)^{m-1}\left(1-F_{X}(x)\right)^{n-m}\right)}
= f X ( x ) ( n m = k n ( n 1 m 1 ) ( F X ( x ) ) m 1 ( 1 F X ( x ) ) n m n m = k + 1 n ( n 1 m 1 ) ( F X ( x ) ) m 1 ( 1 F X ( x ) ) n m ) {\displaystyle =f_{X}(x)\left(n\sum _{m=k}^{n}{\tbinom {n-1}{m-1}}\left(F_{X}(x)\right)^{m-1}\left(1-F_{X}(x)\right)^{n-m}-n\sum _{m=k+1}^{n}{\tbinom {n-1}{m-1}}\left(F_{X}(x)\right)^{m-1}\left(1-F_{X}(x)\right)^{n-m}\right)}
= n f X ( x ) ( n 1 k 1 ) ( F X ( x ) ) k 1 ( 1 F X ( x ) ) n k {\displaystyle =nf_{X}(x){\tbinom {n-1}{k-1}}\left(F_{X}(x)\right)^{k-1}\left(1-F_{X}(x)\right)^{n-k}}
Minimum en maximum

Voor het minimum geldt dus:

F X ( 1 ) ( x ) = 1 ( 1 F X ( x ) ) n {\displaystyle F_{X_{(1)}}(x)=1-\left(1-F_{X}(x)\right)^{n}} en f X ( 1 ) ( x ) = n ( 1 F X ( x ) ) n 1 f X ( x ) {\displaystyle f_{X_{(1)}}(x)=n\left(1-F_{X}(x)\right)^{n-1}f_{X}(x)} ,

en voor het maximum:

F X ( n ) ( x ) = ( F X ( x ) ) n {\displaystyle F_{X_{(n)}}(x)=\left(F_{X}(x)\right)^{n}} en f X ( n ) ( x ) = n ( F X ( x ) ) n 1 f X ( x ) {\displaystyle f_{X_{(n)}}(x)=n\left(F_{X}(x)\right)^{n-1}f_{X}(x)}

Uniforme verdeling op (0,1)

Voor een aselecte steekproef U 1 , , U n {\displaystyle U_{1},\ldots ,U_{n}} uit de uniforme verdeling op het interval (0,1) is:

f U ( k ) ( u ) = n ( n 1 m 1 ) u k 1 ( 1 u ) n k , ( u ( 0 , 1 ) ) {\displaystyle f_{U_{(k)}}(u)=n{\tbinom {n-1}{m-1}}u^{k-1}(1-u)^{n-k},\quad (u\in (0,1))}

Dit betekent dat U ( k ) {\displaystyle U_{(k)}} een bètaverdeling heeft met parameters k {\displaystyle k} en n + 1 k {\displaystyle n+1-k} :

U ( k ) B ( k , n + 1 k ) {\displaystyle U_{(k)}\sim B(k,n+1-k)}

Stelling van Bapat-Beg

De stochastische variabelen X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} zijn onderling onafhankelijk en hebben verdelingsfuncties F i = F X i , i = 1 , , n {\displaystyle F_{i}=F_{X_{i}},i=1,\ldots ,n} . De simultane verdelingsfunctie van de elementen X ( r 1 ) X ( r 2 ) X ( n k ) {\displaystyle X_{(r_{1})}\leq X_{(r_{2})}\leq \ldots \leq X_{(n_{k})}} van de geordende steekproef wordt voor x 1 < x 2 < < x k {\displaystyle x_{1}<x_{2}<\ldots <x_{k}} gegeven door:

F X ( r 1 ) , X ( r 2 ) , , X ( r k ) ( x 1 , x 2 , , x k ) = P ( X ( r 1 ) x 1 , X ( r 2 ) x 2 , , X ( r k ) x k ) = {\displaystyle F_{X_{(r_{1})},X_{(r_{2})},\ldots ,X_{(r_{k})}}(x_{1},x_{2},\ldots ,x_{k})=P(X_{(r_{1})}\leq x_{1},X_{(r_{2})}\leq x_{2},\ldots ,X_{(r_{k})}\leq x_{k})=}
= n k = r k n n 2 = r 2 n 3 n 1 = r 1 n 2 P n 1 , , n k ( x 1 , , x k ) n 1 ! ( n 2 n 1 ) ! ( n n k ) ! {\displaystyle =\sum _{n_{k}=r_{k}}^{n}\ldots \sum _{n_{2}=r_{2}}^{n_{3}}\,\sum _{n_{1}=r_{1}}^{n_{2}}{\frac {P_{n_{1},\ldots ,n_{k}}(x_{1},\ldots ,x_{k})}{n_{1}!(n_{2}-n_{1})!\ldots (n-n_{k})!}}} ,

waarin

P n 1 , , n k ( x 1 , , x k ) = {\displaystyle P_{n_{1},\ldots ,n_{k}}(x_{1},\ldots ,x_{k})=}
= per ( [ F 11 F 11 F 12 F 11 F 12 F 11 F 1 k F 1 , k 1 F 1 k F 1 , k 1 1 F 1 k 1 F 1 k F 21 F 21 F 22 F 21 F 22 F 21 F 2 k F 2 , k 1 F 2 k F 2 , k 1 1 F 2 k 1 F 2 k F n 1 F n 1 n 1 F n 2 F n 1 F n 2 F n 1 n 2 n 1 F n k F n , k 1 F n k F n , k 1 n k n k 1 1 F n k 1 F n k n n k ] ) {\displaystyle =\operatorname {per} \left({\begin{bmatrix}F_{11}\ldots F_{11}&F_{12}-F_{11}\ldots F_{12}-F_{11}&\ldots &F_{1k}-F_{1,k-1}\ldots F_{1k}-F_{1,k-1}&1-F_{1k}\ldots 1-F_{1k}\\F_{21}\ldots F_{21}&F_{22}-F_{21}\ldots F_{22}-F_{21}&\ldots &F_{2k}-F_{2,k-1}\ldots F_{2k}-F_{2,k-1}&1-F_{2k}\ldots 1-F_{2k}\\\vdots &\vdots &&\vdots \\\underbrace {F_{n1}\ldots F_{n1}} _{n_{1}}&\underbrace {F_{n2}-F_{n1}\ldots F_{n2}-F_{n1}} _{n_{2}-n_{1}}&\ldots &\underbrace {F_{nk}-F_{n,k-1}\ldots F_{nk}-F_{n,k-1}} _{n_{k}-n_{k-1}}&\underbrace {1-F_{nk}\ldots 1-F_{nk}} _{n-n_{k}}\end{bmatrix}}\right)}

de permanent is van de genoemde matrix met F r m = F r ( x m ) {\displaystyle F_{rm}=F_{r}(x_{m})} en onder de accolades de getallen staan, die het aantal kolommen aangeven.

Bewijs 

Definieer

N i = | { j | X j x i } | : i = 1 , 2 , , k {\displaystyle N_{i}=|\{j|X_{j}\leq x_{i}\}|:i=1,2,\ldots ,k} ,

dan

P ( X ( r 1 ) x 1 , , X ( r k ) x k ) = P ( r 1 N 1 , r 2 N 2 , , r k N k ) = {\displaystyle P(X_{(r_{1})}\leq x_{1},\ldots ,X_{(r_{k})}\leq x_{k})=P(r_{1}\leq N_{1},r_{2}\leq N_{2},\ldots ,r_{k}\leq N_{k})=}
= n k = r k n n k 1 = r k 1 n k n 2 = r 2 n 3 n 1 = r 1 i 2 P ( N 1 = n 1 , N 2 = n 2 , , N k = n k ) {\displaystyle =\sum _{n_{k}=r_{k}}^{n}\sum _{n_{k-1}=r_{k-1}}^{n_{k}}\ldots \sum _{n_{2}=r_{2}}^{n_{3}}\sum _{n_{1}=r_{1}}^{i_{2}}P(N_{1}=n_{1},N_{2}=n_{2},\ldots ,N_{k}=n_{k})}

Daarin is, met σ {\displaystyle \sigma } lopend over alle permutaties van de getallen 1 , , n {\displaystyle 1,\ldots ,n} , en voor de eenvormigheid van de formule x 0 = , n 0 = 0 , x k + 1 = + {\displaystyle x_{0}=-\infty ,n_{0}=0,x_{k+1}=+\infty } en n k + 1 = n {\displaystyle n_{k+1}=n} :

P ( N 1 = n 1 , N 2 = n 2 , , N k = n k ) = {\displaystyle P(N_{1}=n_{1},N_{2}=n_{2},\ldots ,N_{k}=n_{k})=}
= 1 n 1 ! ( n 2 n 1 ) ! ( n n k ) ! σ P ( X σ ( 1 ) x 1 , , X σ ( n 1 ) x 1 , x 1 < X σ ( n 1 + 1 ) x 2 , , x 1 < X σ ( n 2 ) x 2 , ) = {\displaystyle ={\frac {1}{n_{1}!(n_{2}-n_{1})!\ldots (n-n_{k})!}}\sum _{\sigma }P(X_{\sigma (1)}\leq x_{1},\ldots ,X_{\sigma (n_{1})}\leq x_{1},x_{1}<X_{\sigma (n_{1}+1)}\leq x_{2},\ldots ,x_{1}<X_{\sigma (n_{2})}\leq x_{2},\ldots )=}
= 1 n 1 ! ( n 2 n 1 ) ! ( n n k ) ! σ j = 1 k + 1 i j = n j 1 + 1 n j ( F σ ( i j ) ( x j ) F σ ( i j ) ( x j 1 ) ) {\displaystyle ={\frac {1}{n_{1}!(n_{2}-n_{1})!\ldots (n-n_{k})!}}\sum _{\sigma }\prod _{j=1}^{k+1}\prod _{i_{j}=n_{j-1}+1}^{n_{j}}\left(F_{\sigma (i_{j})}(x_{j})-F_{\sigma (i_{j})}(x_{j-1})\right)}

En:

σ j = 1 k + 1 i j = n j 1 + 1 n j ( F σ ( i j ) ( x j ) F σ ( i j ) ( x j 1 ) ) = P n 1 , , n k ( x 1 , , x k ) {\displaystyle \sum _{\sigma }\prod _{j=1}^{k+1}\prod _{i_{j}=n_{j-1}+1}^{n_{j}}\left(F_{\sigma (i_{j})}(x_{j})-F_{\sigma (i_{j})}(x_{j-1})\right)=P_{n_{1},\ldots ,n_{k}}(x_{1},\ldots ,x_{k})}

Voor een aselecte steekproef geeft de stelling voor bijvoorbeeld de gehele geordende steekproef:

F X ( 1 ) , , X ( n ) ( y 1 , , y n ) = {\displaystyle F_{X_{(1)},\ldots ,X_{(n)}}(y_{1},\ldots ,y_{n})=}
= F ( y 1 ) n + + n F ( y 1 ) ( F ( y 2 ) F ( y 1 ) ) n 1 + + n ( n 1 ) F ( y 1 ) ( F ( y 2 ) F ( y 1 ) ) ( F ( y 3 ) F ( y 2 ) ) n 2 + + n ! F ( y 1 ) i = 1 n 1 ( F ( y i + 1 F ( y i ) ) {\displaystyle {\begin{aligned}&=F(y_{1})^{n}+\\&+nF(y_{1})(F(y_{2})-F(y_{1}))^{n-1}+\\&+n(n-1)F(y_{1})(F(y_{2})-F(y_{1}))(F(y_{3})-F(y_{2}))^{n-2}+\\&\ldots \\&+n!F(y_{1})\prod _{i=1}^{n-1}(F(y_{i+1}-F(y_{i}))\end{aligned}}}

Toepassing

De geordende steekproef en de rangnummers spelen een belangrijke rol in de verdelingsvrije statistiek.

Als de verdelingsfunctie van de verdeling waaruit de steekproef getrokken is, bekend is, kan de geordende steekproef herleid worden tot de geordende steekproef uit de uniforme verdeling, en de eigenschappen aan de hand hiervan bestudeerd worden.

Literatuur

  • Bapat, R. B.; Beg, M. I. (1989). "Order Statistics for Nonidentically Distributed Variables and Permanents". Sankhyā: The Indian Journal of Statistics, Series A (1961-2002) 51 (1): 79–93. JSTOR 25050725. MR 1065561.
  • David, H. A. Order Statistics, 2nd ed. New York: Wiley, 1981.
  • Gibbons, J. D. and Chakraborti, S. (Eds.). Nonparametric Statistic Inference, 3rd ed. exp. rev. New York: Dekker, 1992.
  • Hande, Sayaji (1994). "A Note on Order Statistics for Nondentically Distributed Variables". Sankhyā: The Indian Journal of Statistics, Series A (1961-2002) 56 (2): 365–368. JSTOR 25050995. MR 1664921.
  • Hogg, R. V. and Craig, A. T. Introduction to Mathematical Statistics, 3rd ed. New York: Macmillan, 1970.
  • Rose, C. and Smith, M. D. "Order Statistics." §9.4 in Mathematical Statistics with Mathematica. New York: Springer-Verlag, pp. 311-322, 2002.

Websites

  • MathWorld. Order Statistic.
  • M. Güngör: "On Joint Distributions of Order Statistics from innid Variables" Pdf-document