Run-Test

Der Run-Test (auch Runs-Test, Wald-Wolfowitz-Test nach Abraham Wald und Jacob Wolfowitz, Iterationstest oder Geary-Test) ist ein nichtparametrischer Test auf Zufälligkeit einer Folge. Ausgegangen wird von einem Urnenmodell mit zwei Sorten Kugeln (dichotome Grundgesamtheit). Es werden n Kugeln entnommen und es soll die Hypothese geprüft werden, dass die Entnahme zufällig erfolgt ist.

Vorgehensweise

Es wurden einer dichotomen Grundgesamtheit n {\displaystyle n} Kugeln entnommen. Die Ergebnisse liegen in ihrer chronologischen Abfolge vor. Es werden nun alle benachbarten Ergebnisse gleicher Ausprägung zu einem Lauf oder Run zusammengefasst. Wenn die Folge tatsächlich zufällig ist, sollten nicht zu wenige Runs vorliegen, aber auch nicht zu viele.

Es wird die Nullhypothese aufgestellt: Die Entnahme erfolgte zufällig.

Für die Festlegung der Zahl der Runs, bei der die Hypothese abgelehnt wird, wird die Verteilung der Runs benötigt: Es seien n 1 {\displaystyle n_{1}} die Zahl der Kugeln erster Sorte und n 2 = n n 1 {\displaystyle n_{2}=n-n_{1}} der zweiten Sorte; es sei r {\displaystyle r} die Zahl der Runs. Nach dem Symmetrieprinzip ist die Wahrscheinlichkeit für jede beliebige Folge der Kugeln bei zufälliger Entnahme gleich groß. Es gibt insgesamt

( n 1 + n 2 ) ! n 1 ! n 2 ! {\displaystyle {\frac {(n_{1}+n_{2})!}{n_{1}!\,n_{2}!}}}

Möglichkeiten der Entnahme.

Testverteilung

Die Testverteilung ist die Verteilung der Zahl der Iterationen (Runs) bei Richtigkeit der Nullhypothese.

Bezüglich der Verteilung der Zahl der Runs unterscheidet man die Fälle:

1. Die Anzahl r {\displaystyle r} der Runs ist geradzahlig:

Es liegen q = 1 2 r {\displaystyle q={\tfrac {1}{2}}r} Runs der Kugeln der ersten Sorte und auch q = 1 2 r {\displaystyle q={\tfrac {1}{2}}r} Runs der Kugeln der zweiten Sorte vor. Die Wahrscheinlichkeit, dass genau r = 2 q {\displaystyle r=2q} Runs eingetreten sind, ist dann
P ( R = 2 q ) = 2 ( n 1 1 q 1 ) ( n 2 1 q 1 ) ( n 1 + n 2 n 1 ) . {\displaystyle P(R=2q)={\frac {2{{n_{1}-1} \choose {q-1}}{{n_{2}-1} \choose {q-1}}}{{n_{1}+n_{2}} \choose n_{1}}}\;.}

2. Die Anzahl r {\displaystyle r} der Runs ist ungeradzahlig:

Es liegen q + 1 = 1 2 ( r + 1 ) {\displaystyle q+1={\tfrac {1}{2}}(r+1)} Runs der Kugeln der ersten Sorte und q = 1 2 ( r 1 ) {\displaystyle q={\tfrac {1}{2}}(r-1)} Runs der Kugeln der zweiten Sorte vor oder der umgekehrte Fall. Die Wahrscheinlichkeit, dass genau r = 2 q + 1 {\displaystyle r=2q+1} Runs eingetreten sind, berechnet sich dann als Summe aus diesen beiden Möglichkeiten
P ( R = 2 q + 1 ) = ( n 1 1 q ) ( n 2 1 q 1 ) + ( n 1 1 q 1 ) ( n 2 1 q ) ( n 1 + n 2 n 1 ) . {\displaystyle P(R=2q+1)={\frac {{n_{1}-1 \choose q}{n_{2}-1 \choose q-1}+{n_{1}-1 \choose q-1}{n_{2}-1 \choose q}}{n_{1}+n_{2} \choose n_{1}}}\;.}

Dabei bezeichnet ( n k ) {\displaystyle {n \choose k}} den Binomialkoeffizienten. Zu berücksichtigen ist ( n k ) = 0 {\displaystyle {n \choose k}=0} , falls n < k {\displaystyle n<k} .

Testdurchführung

Als Prüfgröße wird die Zufallsvariable R {\displaystyle R} verwendet. Die Testverteilung, d. h. die Verteilung der Prüfgröße bei Richtigkeit der Nullhypothese, wurde zuvor beschrieben. Die Nullhypothese wird bei zweiseitigem Testen dann abgelehnt, wenn die beobachtete Anzahl von Iterationen r {\displaystyle r} zu klein oder zu groß ist. Bei einem vorgegebenen Signifikanzniveau α {\displaystyle \alpha } wird die Nullhypothese dann abgelehnt, wenn

r r α / 2 {\displaystyle r\leq r_{\alpha /2}} oder r r 1 α / 2 {\displaystyle r\geq r_{1-\alpha /2}}

gilt. Dabei bezeichnet r p {\displaystyle r_{p}} das p {\displaystyle p} -Quantil der Testverteilung. Da diese Verteilung diskret ist, kann das vorgegebene Signifikanzniveau α {\displaystyle \alpha } durch einen (nicht randomisierten) Test im Allgemeinen nicht exakt erreicht werden. Es werden daher die beiden kritischen Wert so gewählt, dass die Fehlerwahrscheinlichkeit 1. Art höchstens so groß wie das vorgegebene Signifikanzniveau α {\displaystyle \alpha } ist. Dieses Vorgehen wird auch als konservatives Testen bezeichnet. Da die Berechnung der kritischen Werte umständlich ist, bedient man sich häufig einer Tabelle.[1]

Einfaches Beispiel

Für eine Podiumsdiskussion mit zwei politischen Parteien wurden die Sprecher angeblich zufällig ermittelt. Es wurde ausgelost, dass von der Partei Supi 4 Vertreter und von der Partei Toll 5 Vertreter in der folgenden Reihe sprechen dürfen:

S S  T  S  T T T  S  T

Ein Vertreter von Toll beschwerte sich, dass S bevorzugt würde. Es wurde ein Run-Test vorgenommen:

Es ist n1 = 4 und n2 = 5. Man erhielt r = 6 Runs.

Deutlich ist, dass im Falle vieler Runs kein Verdacht besteht auf Bevorzugung einer der Parteien. Die Nullhypothese wird also abgelehnt, wenn es zu wenig Runs gibt. Nach der Tabelle des Run-Testes wird H0 abgelehnt, wenn r ≤ 2. Also liegt die Prüfgröße r = 6 nicht im Ablehnungsbereich; man kann nach den Kriterien des Run-Testes nicht darauf schließen, dass die Reihenfolge der Sprecher nicht zufällig ist.

Übrigens wird auch im nächsten Fall:

S S S  T  S  T T T T

mit r = 4 Runs, die Nullhypothese nicht abgelehnt, obwohl fast jeder einen Verdacht haben wird, dass Supi vorgezogen wurde. Man kann aber wegen der relativ geringen Anzahl der Beobachtungen nicht ausschließen, dass das Ergebnis auf Zufall beruht.

Ergänzungen

Parameter der Verteilung von R

Der Erwartungswert von R ist

E ( R ) = 2 n 1 n 2 n + 1 {\displaystyle \operatorname {E} (R)={\frac {2n_{1}n_{2}}{n}}+1}

und die Varianz

Var ( R ) = 2 n 1 n 2 ( 2 n 1 n 2 n ) n 2 ( n 1 ) {\displaystyle \operatorname {Var} (R)={\frac {2n_{1}n_{2}(2n_{1}n_{2}-n)}{n^{2}(n-1)}}} .

Grundgesamtheit mit mehr als zwei Ausprägungen des Merkmals

Liegt eine endliche Folge reeller Zahlen ( x i ) {\displaystyle (x_{i})} eines metrischen Merkmals vor, wird die Folge dichotomisiert: Man bestimmt zunächst den Median z der Folge. Werte x i < z {\displaystyle x_{i}<z} werden dann als Kugeln der ersten Sorte, Werte x i > z {\displaystyle x_{i}>z} als Kugeln der zweiten Sorte interpretiert. Die entstandene dichotome Folge kann dann wieder auf Zufälligkeit getestet werden (siehe Beispiel unten).

Liegt eine nichtnumerische Symbolsequenz mit mehr als zwei Ausprägungen vor, muss zunächst eine numerische Reihe erzeugt werden, wobei hier das Problem bestehen kann, dass die Symbole nicht geordnet werden können.

Normalapproximation

Für Stichprobenumfänge n1,n2 > 20 ist die Zahl der Runs R annähernd normalverteilt mit Erwartungswert und Varianz wie oben. Man erhält die standardisierte Prüfgröße

z = r ( 2 n 1 n 2 n + 1 ) 2 n 1 n 2 ( 2 n 1 n 2 n ) n 2 ( n 1 + n 2 1 ) {\displaystyle z={\frac {r-({\frac {2n_{1}n_{2}}{n}}+1)}{\sqrt {\frac {2n_{1}n_{2}(2n_{1}n_{2}-n)}{n^{2}(n_{1}+n_{2}-1)}}}}}

Die Hypothese wird abgelehnt, wenn

z < z ( 1 α 2 ) {\displaystyle z<-z(1-{\frac {\alpha }{2}})} oder z > z ( 1 α 2 ) {\displaystyle z>z(1-{\frac {\alpha }{2}})}

mit z ( 1 α 2 ) {\displaystyle z(1-{\frac {\alpha }{2}})} als Quantil der Standardnormalverteilung für die Wahrscheinlichkeit 1 α 2 {\displaystyle 1-{\frac {\alpha }{2}}} .

Anwendungen

Der Runtest kann angewendet werden, um Stationarität bzw. Nicht-Korrelation in einer Zeitreihe oder anderen Sequenz zu überprüfen, vor allem wenn die Verteilung des Merkmals unbekannt ist. Die Nullhypothese ist hier, dass aufeinanderfolgende Werte unkorreliert sind.

Der Run-Test kann mit dem Chi-Quadrat-Test kombiniert werden, da beide Prüfgrößen asymptotisch unabhängig voneinander sind.

Beispiel für ein metrisches Merkmal

Es liegt die Folge

13	 3	14	14	1	14	3	8	14	17	9	14	13	2	16	1	3	12	13	14

vor. Sie wird mit dem Median z = 13 dichotomisiert. Für die erste Ausprägung wird + gesetzt, für die zweite Ausprägung -.

0	-10	1	1	-12	1	-10	-5	1	4	-4	1	0	-11	3	-12	-10	-1	0	1
+	-	+	+	-	+	-	-	+	+	-	+	+	-	+	-	-	-	+	+

Man erhält bei n1 = 11 (+) und n2 = 9 (-) r = 13 Runs. R ist annähernd normalverteilt mit dem Erwartungswert

E ( R ) = ( 2 11 9 ) 20 + 1 = 10 , 9 {\displaystyle \operatorname {E} (R)={\frac {(2\cdot 11\cdot 9)}{20}}+1=10{,}9}

und der Varianz

Var ( R ) = 2 11 9 ( 2 11 9 20 ) 20 2 19 = 4 , 6 {\displaystyle \operatorname {Var} (R)={\frac {2\cdot 11\cdot 9\cdot (2\cdot 11\cdot 9-20)}{20^{2}\cdot 19}}=4{,}6} .

Die Prüfgröße z errechnet sich dann als

13 10 , 9 4 , 6 = 1 , 82 {\displaystyle {\frac {13-10{,}9}{\sqrt {4{,}6}}}=1{,}82}

Bei einem Signifikanzniveau von 0,05 wird H0 abgelehnt, wenn |z| > 1,96. Dies ist nicht der Fall.

Entscheidung: Die Hypothese wird nicht abgelehnt. Die Elemente der Stichprobe sind vermutlich zufällig entnommen worden.

Da der Run-Test aber kein parametrischer Test ist, ist das Resultat mit Vorsicht zu genießen. Bei einem Konfidenzniveau von 90 % könnte z. B. die Nullhypothese abgelehnt werden. Der parametrische Shapiro-Wilk-Test zeigt nämlich, dass bei der vorliegenden Zahlenreihe die Normalverteilung nicht gegeben ist!

Literatur

  • James V. Bradley: Distribution-Free Statistical Tests. 1968, Chapter 12, ISBN 0-13-216259-8
  • Herbert Büning, Götz Trenkler: Nichtparametrische Statistische Methoden. 2. völlig neu bearbeitete Auflage. Walter de Gruyter, Berlin / New York 1994, ISBN 3-11-013860-3, Kapitel 4.5, 5.2.1, doi:10.1515/9783110902990. 
  • Jean Dickinson Gibbons, Subhabrata Chakraborti: Nonparametric Statistical Inference. 6. Auflage. Chapman & Hall/CRC, Boca Raton 2021, ISBN 978-1-315-11047-9, Kap. 3.2, doi:10.1201/9781315110479. 
  • P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, S. 178, 179, 'Interaktionstest'. 
  • Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 561–566. 
  • Abraham Wald, Jacob Wolfowitz: On a Test Whether Two Samples are from the Same Population. The Annals of Mathematical Statistics, Vol. 11, No. 2 (Jun., 1940), S. 147–162, doi:10.1214/aoms/1177731909 JSTOR:2235872

Siehe auch

Autokorrelation, Zufallszahlengenerator, Pseudozufallszahlen, Trend

Einzelnachweise

  1. Eine Tabelle für n 1 , n 2 20 {\displaystyle n_{1},n_{2}\leq 20} findet sich hier: Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, S. 564.  Eine weitere Quelle ist: Herbert Büning, Götz Trenkler: Nichtparametrische Statistische Methoden. 2. völlig neu bearbeitete Auflage. Walter de Gruyter, Berlin / New York 1994, ISBN 3-11-013860-3, S. 393, doi:10.1515/9783110902990. 

Weblinks

  • Programmierung des Run-Tests in Gambas (Programmiersprache)
  • Ein verblüffendes Experiment - der RUN-Test
  • Wald Wolfowitz Runs Test