Ordnungsstatistik

In der Statistik bezeichnet die i {\displaystyle i} -te Ordnungsstatistik (auch Ordnungsgröße genannt[1]) den i {\displaystyle i} -kleinsten Wert einer Stichprobe.[2] Ordnungsstatistiken sind damit spezielle Zufallsvariablen. Sie werden aus einer vorgegebenen Gruppe von Zufallsvariablen gewonnen und modifizieren diese so, dass die Realisierungen der Ordnungsstatistik den Realisierungen der zugrunde liegenden Zufallsvariablen entsprechen, aber immer der Größe nach geordnet sind.

Daher treten Ordnungsstatistiken insbesondere bei der Untersuchung von zufälligen Strukturen auf, die mit einer Ordnung versehen sind. Dazu zählt beispielsweise die Analyse von Wartezeitprozessen oder die Bestimmung von Schätzfunktionen für den Median oder Quantile.

Definition

Gegeben seien reelle Zufallsvariablen X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\dots ,X_{n}} . Sind die Zufallsvariablen bindungsfrei, nehmen also fast sicher paarweise verschiedene Werte an, formell ausgedrückt

P ( X i X j ) = 1 {\displaystyle P(X_{i}\neq X_{j})=1} für alle i j {\displaystyle i\neq j} ,

so definiert man

X 1 : n := min { X 1 , , X n } {\displaystyle X_{1:n}:=\min\{X_{1},\dots ,X_{n}\}}

und

X j : n := min { X i X i > X ( j 1 ) : n } {\displaystyle X_{j:n}:=\min\{X_{i}\mid X_{i}>X_{(j-1):n}\}}

für j = 2 , , n {\displaystyle j=2,\dots ,n} . Dann heißen X 1 : n , X 2 : n , , X n : n {\displaystyle X_{1:n},X_{2:n},\dots ,X_{n:n}} die Ordnungsstatistiken von X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\dots ,X_{n}} .[2] Die Zufallsvariable X j : n {\displaystyle X_{j:n}} wird dann auch die j {\displaystyle j} -te Ordnungsstatistik genannt.

Sind die Zufallsvariablen nicht bindungsfrei, so lassen sich die Ordnungsstatistiken definieren als

X j : n := min { c R i = 1 n 1 { X i c } j } {\displaystyle X_{j:n}:=\min \left\{c\in \mathbb {R} \mid \sum _{i=1}^{n}\mathbf {1} _{\{X_{i}\leq c\}}\geq j\right\}} .[2]

Hierbei bezeichnet 1 A {\displaystyle \mathbf {1} _{A}} die Indikatorfunktion auf der Menge A {\displaystyle A} . Im bindungsfreien Fall stimmen beide Definitionen überein. Nicht alle Autoren fordern wie oben, dass die Zufallsvariablen fast sicher ungleiche Werte annehmen. Die Eigenschaften der Ordnungsstatistiken variieren dann leicht.

Für die j {\displaystyle j} -te Ordnungsstatistik der Stichprobenvariablen X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} sind alternative Notationen gebräuchlich: X j : n {\displaystyle X_{j:n}} [2], X [ j ] {\displaystyle X_{[j]}} [3], X ( j ) {\displaystyle X_{(j)}} [4][5], X ( j ) {\displaystyle X^{(j)}} [6] oder X n : j {\displaystyle X_{n:j}} [7]

Eigenschaften

Fordert man in der Definition

P ( X i X j ) = 1 {\displaystyle P(X_{i}\neq X_{j})=1} für alle i j {\displaystyle i\neq j} ,

so gilt

X 1 : n < X 2 : n < < X n : n {\displaystyle X_{1:n}<X_{2:n}<\dots <X_{n:n}} fast sicher.[2]

Äquivalent dazu gilt für die Realisierungen

X 1 : n ( ω ) < X 2 : n ( ω ) < < X n : n ( ω ) {\displaystyle X_{1:n}(\omega )<X_{2:n}(\omega )<\dots <X_{n:n}(\omega )} für fast alle Ergebnisse ω {\displaystyle \omega } .

Die Realisierungen der Ordnungsstatistiken sind also (fast sicher) strikt aufsteigend.

Verzichtet man auf die Forderung, dass die Zufallsvariablen fast sicher nicht dieselben Werte annehmen sollen, so gilt entsprechend

X 1 : n X 2 : n X n : n {\displaystyle X_{1:n}\leq X_{2:n}\leq \dots \leq X_{n:n}} fast sicher.[8]

Die Realisierungen sind dann nur noch (fast sicher) aufsteigend.

Geordnete Stichprobe

Die geordneten Stichprobenwerte entstehen, wenn die Werte ( x 1 , , x n ) {\displaystyle (x_{1},\dots ,x_{n})} einer Stichprobe einen Größenvergleich erlauben und der Größe nach angeordnet werden.[9][3] Meistens erfolgt die Anordnung nichtfallend, so dass x 1 : n x 2 : n x n : n {\displaystyle x_{1:n}\leq x_{2:n}\leq \dots \leq x_{n:n}} gilt. Man nennt den Vektor ( x 1 , , x n ) {\displaystyle (x_{1},\dots ,x_{n})} oft kurz Stichprobe und den Vektor ( x 1 : n , , x n : n ) {\displaystyle (x_{1:n},\dots ,x_{n:n})} dann geordnete Stichprobe. Beispielsweise führt die Stichprobe ( x 1 , , x 5 ) = ( 1 , 3 , 2 , 4 , 2 ) {\displaystyle (x_{1},\dots ,x_{5})=(1,3,2,4,2)} zur geordneten Stichprobe ( x 1 : 1 , , x 1 : 5 ) = ( 1 , 2 , 2 , 3 , 4 ) {\displaystyle (x_{1:1},\dots ,x_{1:5})=(1,2,2,3,4)} .

Es gibt eine Verallgemeinerung für eine Zufallsstichprobe, bei der ( X 1 , , X n ) {\displaystyle (X_{1},\dots ,X_{n})} ein Vektor stochastisch unabhängiger und identisch verteilter reeller Zufallsvariablen ist. Der Vektor ( X 1 : n , , X 1 : n ) {\displaystyle (X_{1:n},\dots ,X_{1:n})} , dessen i {\displaystyle i} -te Komponente die i {\displaystyle i} -te Ordnungsstatistik ist, heißt dann geordnete Stichprobe[9][3], geordnete Statistik[10], vollständige Ordnungsstatistik oder kurz Ordnungsstatistik[11], Positionsstichprobe[9] oder Variationsreihe[9]. Die i {\displaystyle i} -te Ordnungsstatistik heißt auch i {\displaystyle i} -te geordnete Statistik[10], i {\displaystyle i} -te Ranggröße[9] oder Positionsstichprobenfunktion i {\displaystyle i} -ten Rangs[9].

Verteilung der Ordnungsstatistiken

Die Zufallsvariablen X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} seien stochastisch unabhängig und identisch verteilt mit der Verteilungsfunktion F {\displaystyle F} , dann lassen sich die Verteilungsfunktionen der Ordnungsstatistiken explizit angegeben.

Für die Verteilungsfunktion der i {\displaystyle i} -ten Ordnungsstatistik ( i = 1 , , n {\displaystyle i=1,\dots ,n} ) gilt

F X i : n ( y ) = j = i n ( n j ) F ( y ) j [ 1 F ( y ) ] n j , y R . {\displaystyle F_{X_{i:n}}(y)=\sum _{j=i}^{n}{\binom {n}{j}}F(y)^{j}\left[1-F(y)\right]^{n-j},\quad y\in \mathbb {R} \;.} [12]

Wichtige Spezialfälle der Verteilung ergeben sich für das Minimum ( i = 1 {\displaystyle i=1} ) und Maximum ( i = n {\displaystyle i=n} ) als[12]

F X 1 : n ( y ) = 1 [ 1 F ( y ) ] n  bzw. {\displaystyle F_{X_{1:n}}(y)=1-\left[1-F(y)\right]^{n}{\text{ bzw.}}}
F X n : n ( y ) = [ F ( y ) ] n . {\displaystyle F_{X_{n:n}}(y)=\left[F(y)\right]^{n}.}

Die Zufallsvariablen X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} seien stochastisch unabhängig und identisch verteilt mit der Verteilungsfunktion F {\displaystyle F} und der Dichtefunktion f {\displaystyle f} , dann hat die i {\displaystyle i} -te Ordnungsstatistik X i : n {\displaystyle X_{i:n}} die Dichtefunktion[13]

f X i : n ( y ) = n ! ( i 1 ) ! ( n i ) ! f ( y ) [ F ( y ) ] i 1 [ 1 F ( y ) ] n i , y R {\displaystyle f_{X_{i:n}}(y)={\frac {n!}{(i-1)!(n-i)!}}f(y)\left[F(y)\right]^{i-1}\left[1-F(y)\right]^{n-i},\quad y\in \mathbb {R} \;}

und die gemeinsame Dichtefunktion der geordneten Stichprobe ( X 1 : n , , X 1 : n ) {\displaystyle (X_{1:n},\dots ,X_{1:n})} ist[14]

f X 1 : n , , X n : n ( y 1 , , y n ) = { n ! i = 1 n f ( y i ) falls  y 1 < < y n 0 sonst . {\displaystyle f_{X_{1:n},\dots ,X_{n:n}}(y_{1},\dots ,y_{n})={\begin{cases}n!\prod _{i=1}^{n}f(y_{i})&{\text{falls }}y_{1}<\dots <y_{n}\\0&{\text{sonst}}\end{cases}}\;.}

Anwendung

Empirische Verteilungsfunktion

Eine konkrete geordnete Stichprobe ( x 1 : n , , x n : n ) R n {\displaystyle (x_{1:n},\dots ,x_{n:n})\in \mathbb {R} ^{n}} kann zu einer alternativen Definition der empirischen Verteilungsfunktion F n : R [ 0 , 1 ] {\displaystyle F_{n}\colon \mathbb {R} \to [0,1]} ,

F n ( x ) = Anzahl der Stichprobenwerte, die  x  nicht übertreffen n {\displaystyle F_{n}(x)={\frac {{\text{Anzahl der Stichprobenwerte, die }}x{\text{ nicht übertreffen}}}{n}}}

verwendet werden, denn es gilt[15]

F n ( x ) = { 0 falls  x < x 1 : n k / n falls  x k : n x < x k + 1 : n , k = 1 , , n 1 1 falls  x x k + 1 : n . {\displaystyle F_{n}(x)={\begin{cases}0&{\text{falls }}x<x_{1:n}\\k/n&{\text{falls }}x_{k:n}\leq x<x_{k+1:n},\quad k=1,\dots ,n-1\\1&{\text{falls }}x\geq x_{k+1:n}\end{cases}}\;.}

Eine analoge Darstellung gilt für die empirische Verteilungsfunktion als Zufallsgröße.

Rangstatistiken

In der nichtparametrischen Statistik spielen Rangstatistiken eine herausragende Rolle. Diese lassen sich über Ordnungsstatistiken definieren. ( X 1 , , X n ) {\displaystyle (X_{1},\dots ,X_{n})} sei eine Zufallsstichprobe ohne Bindungen. Für die geordnete Stichprobe gilt dann X 1 : n < < X n : n {\displaystyle X_{1:n}<\dots <X_{n:n}} mit Wahrscheinlichkeit Eins. Wenn X i = X j : n {\displaystyle X_{i}=X_{j:n}} gilt, dann heißt R i = Rang ( X i ) = j {\displaystyle R_{i}=\operatorname {Rang} (X_{i})=j} der Rang[16], die Rangzahl[3] oder der Rangplatz[3] der i {\displaystyle i} -ten Beobachtung oder die i {\displaystyle i} -te Rangstatistik. Der Vektor ( R 1 , , R n ) {\displaystyle (R_{1},\dots ,R_{n})} heißt dann Rangvektor[17] der Stichprobenvariablen X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} . Der Rangvektor heißt auch vollständige Rangstatistik oder kurz Rangstatistik.

Ein wichtiger Zusammenhang zwischen der geordneten Stichprobe und der Rangstatistik wird durch folgende Aussage festgehalten. Die stochastisch unabhängigen Zufallsvariablen X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} seien stetig und stochastisch unabhängig verteilt. Dann sind die geordnete Stichprobe ( X 1 : n , X n : n ) {\displaystyle (X_{1:n},\dots X_{n:n})} und der Rangvektor ( R 1 , , R n ) {\displaystyle (R_{1},\dots ,R_{n})} stochastisch unabhängig.[18]

In einem allgemeineren Sinn sind Rangstatistiken solche Stichprobenfunktionen, die von den Stichprobenvariablen nur über den Vektor der Rangzahlen abhängen.[19] Rangstatistiken in diesem allgemeineren Sinn sind die Bausteine zahlreicher nichtparametrischer Testverfahren.[20]

Nichtparametrische Schätzverfahren

Die geordnete Stichprobe ( X 1 : n , , X n : n ) {\displaystyle (X_{1:n},\dots ,X_{n:n})} spielt eine zentrale Rolle in der nichtparametrischen Statistik, da sie eine suffiziente und vollständige Statistik ist.[21]

Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Angaben ohne ausreichenden Beleg könnten demnächst entfernt werden. Bitte hilf Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst.

Zudem können aus Ordnungsstatistiken schwach konsistente Schätzer für Quantile abgeleitet werden. Weiter lassen sich durch oben genannte Verteilung über Faltungen und Transformationssätze die Verteilung von wichtigen Maßzahlen wie dem Median oder der Spannweite gewinnen.

Beispiel

Abbildung 1: Wahrscheinlichkeitsdichten der Ränge 10 (Gold), 9 (Silber) und 8 (Bronze)

Es wird das Finale eines Wettbewerbs der Leichtathletik, bestehend aus den besten 10 {\displaystyle 10} Teilnehmern, ausgetragen. In diesem Beispiel wird angenommen, dass die Leistungsdichte im Finale des Wettkampfes sehr groß ist und es daher keine Favoriten für die Medaillen gibt. Für die zufällige Gesamtpunktzahl jedes Athleten wird daher dieselbe stetige Gleichverteilung im Punktebereich von 0 {\displaystyle 0} bis 100 {\displaystyle 100} angenommen. Es entscheidet demnach ausschließlich die Tagesform über die Gesamtpunktzahl, welche starken Schwankungen unterliegt, und alle Athleten besitzen das gleiche Leistungspotential. Setzt man die Dichtefunktion

f X ( x ) = { 1 100 0 x 100 0 sonst {\displaystyle f_{X}(x)={\begin{cases}{\frac {1}{100}}&0\leq x\leq 100\\0&{\text{sonst}}\end{cases}}}

und die Verteilungsfunktion

F X ( x ) = { 0 x < 0 x 100 0 x 100 1 x > 100 {\displaystyle F_{X}(x)={\begin{cases}0&x<0\\{\frac {x}{100}}&0\leq x\leq 100\\1&x>100\end{cases}}}

der stetigen Gleichverteilung in die obige Dichtefunktion der Ordnungsstatistik ein, erhält man die Verteilungen für die einzelnen Ränge. Da die Punktzahlen in der Ordnungsstatistik aufsteigend sortiert sind, erhält man für i = 10 {\displaystyle i=10} die Wahrscheinlichkeitsverteilung für die Goldmedaille, für i = 9 {\displaystyle i=9} die der Silbermedaille und für i = 8 {\displaystyle i=8} die der Bronzemedaille. Der nebenstehenden Grafik ist bereits zu entnehmen, dass für die Goldmedaille eine höhere Punktzahl zu erwarten ist als für die Silber- oder Bronzemedaille. Da die Punkte in diesem Beispiel als stetige Gleichverteilung modelliert wurden, ist die i {\displaystyle i} -te Ordnungsstatistik für i = 1 , , n {\displaystyle i=1,\dots ,n} (siehe Abbildung 1) jeweils Beta-verteilt (multipliziert mit 100 {\displaystyle 100} ) mit den Parametern i {\displaystyle i} und 11 i {\displaystyle 11-i} . Der Erwartungswert einer solchen Betaverteilung ist i 11 {\displaystyle {\frac {i}{11}}} . Für die Goldmedaille ist daher eine Punktzahl von 91 {\displaystyle 91} , für Silber 82 {\displaystyle 82} und für Bronze 73 {\displaystyle 73} zu erwarten. Falls ein Athlet bereits p {\displaystyle p} Punkte erhalten hat und auf die Punktzahlen der anderen Sportler wartet, kann er unter den gemachten Annahmen seine eigenen Chancen für Gold berechnen. Die Wahrscheinlichkeit, dass die 9 {\displaystyle 9} anderen Athleten alle schlechter abschneiden, beträgt ( p 100 ) 9 {\displaystyle \left({\frac {p}{100}}\right)^{9}} . Falls der Athlet insgesamt 91 {\displaystyle 91} Punkte erhält, wie für die Goldmedaille erwartet, wird er also trotzdem nur mit einer Wahrscheinlichkeit von 42 , 8 % {\displaystyle 42{,}8\,\%} die Goldmedaille bekommen.

Literatur

  • Herbert Büning, Götz Trenkler: Nichtparametrische Statistische Methoden. 2. völlig neu bearbeitete Auflage. Walter de Gruyter, Berlin / New York 1994, ISBN 3-11-013860-3, doi:10.1515/9783110902990. 
  • Jaroslav Hájek, Zbyněk Šidák, Pranab K. Sen: Theory of Rank Tests. 2. Auflage. Academic Press, San Diego et al. 1999, ISBN 978-0-12-642350-1, doi:10.1016/B978-0-12-642350-1.X5017-6. 

Einzelnachweise

  1. Claudia Czado, Thorsten Schmidt: Mathematische Statistik. Springer-Verlag, Berlin Heidelberg 2011, ISBN 978-3-642-17260-1, S. 23, doi:10.1007/978-3-642-17261-8. 
  2. a b c d e Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, S. 242–243, doi:10.1515/9783110215274. 
  3. a b c d e Guido Walz (Hrsg.): Lexikon der Mathematik. 2. Auflage. Band 2. Eig bis Inn. Springer Spektrum, Berlin 2017, ISBN 978-3-662-53503-5, geordnete Stichprobe, S. 277, doi:10.1007/978-3-662-53504-2. 
  4. Herbert Büning, Götz Trenkler: Nichtparametrische Statistische Methoden. 1994, S. 53. 
  5. Norbert Henze: Stochastik für Einsteiger. Eine Einführung in die faszinierende Welt des Zufalls. 10. Auflage. Springer Spektrum, Wiesbaden 2013, ISBN 978-3-658-03076-6, S. 323, doi:10.1007/978-3-658-03077-3. 
  6. Jaroslav Hájek, Zbyněk Šidák, Pranab K. Sen: Theory of Rank Tests. 1999, S. 35. 
  7. Klaus D. Schmidt: Maß und Wahrscheinlichkeit. 2., durchgesehene Auflage. Springer, Berlin / Heidelberg 2011, ISBN 978-3-642-21025-9, S. 302, doi:10.1007/978-3-642-21026-6. 
  8. David Meintrup, Stefan Schäffler: Stochastik. Theorie und Anwendungen. Springer-Verlag, Berlin Heidelberg New York 2005, ISBN 978-3-540-21676-6, S. 290, doi:10.1007/b137972. 
  9. a b c d e f P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, geordnete Stichprobe, S. 141. 
  10. a b Herbert Büning, Götz Trenkler: Nichtparametrische Statistische Methoden. 1994, S. 41. 
  11. Galen R. Shorack: Probability for Statisticians (= Springer Texts in Statistics). 2. Auflage. Springer, Cham 2017, ISBN 978-3-319-52206-7, S. 120, doi:10.1007/978-3-319-52207-4. 
  12. a b Herbert Büning, Götz Trenkler: Nichtparametrische Statistische Methoden. 1994, S. 57. 
  13. Herbert Büning, Götz Trenkler: Nichtparametrische Statistische Methoden. 1994, S. 56. 
  14. Herbert Büning, Götz Trenkler: Nichtparametrische Statistische Methoden. 1994, Satz 4, S. 55. 
  15. Herbert Büning, Götz Trenkler: Nichtparametrische Statistische Methoden. 1994, S. 47. 
  16. Herbert Büning, Götz Trenkler: Nichtparametrische Statistische Methoden. 1994, S. 42. 
  17. Herbert Büning, Götz Trenkler: Nichtparametrische Statistische Methoden. 1994, S. 55. 
  18. Herbert Büning, Götz Trenkler: Nichtparametrische Statistische Methoden. 1994, Satz 5, S. 65. 
  19. Jaroslav Hájek, Zbyněk Šidák, Pranab K. Sen: Theory of Rank Tests. 1999, S. 57. 
  20. Jaroslav Hájek, Zbyněk Šidák, Pranab K. Sen: Theory of Rank Tests. 1999. 
  21. P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, geordnete Stichprobe, S. 142.