Post-hoc-Test

Post-hoc-Tests sind Signifikanztests aus der mathematischen Statistik. Mit der einfachen Varianzanalyse, dem Kruskal-Wallis-Test oder dem Median-Test wird nur festgestellt, dass es in einer Gruppe von Mittelwerten signifikante Unterschiede gibt. Die Post-hoc-Tests geben mit paarweisen Mittelwertvergleichen Auskunft, welche Mittelwerte sich signifikant voneinander unterscheiden. Oder sie ermöglichen durch gruppenweise Vergleiche eine Aussage darüber, welche Gruppen-Mittelwerte nicht signifikant verschieden sind.

Übersicht der Post-hoc-Tests

Die Post-hoc-Tests unterscheiden sich in verschiedenen Kriterien, z. B. sind die Stichprobenumfänge in allen Gruppen gleich (balancierter Fall) oder nicht (unbalancierter Fall) oder ist die Varianz in allen Gruppen gleich (Varianzhomogenität) oder nicht (Varianzheterogenität). Die Varianzhomogenität kann mit dem Levene-Test überprüft werden.

Test Vergleich von Varianzhomogenität Stichprobenumfänge
kleinster signifikanter Unterschied Mittelwertpaaren Nein Ungleich
Bonferroni-Test auf kleinsten signifikanten Unterschied Mittelwertpaaren Ja Ungleich
Šidák Mittelwertpaaren Nein
Tamhane T 2 {\displaystyle T_{2}} [1] Mittelwertpaaren Nein
Games-Howell Mittelwertpaaren Nein
Dunnett's T 3 {\displaystyle T_{3}} Mittelwertpaaren Nein Bei kleinen Stichprobenumfängen
Dunnett's C {\displaystyle C} Mittelwertpaaren Nein Bei großen Stichprobenumfängen
Ryan-Einot-Gabriel-Welch überspannten Mittelwerten Ja
Duncan überspannten Mittelwerten Ja Gleich
Tukey b überspannten Mittelwerten Ja
Student-Newman-Keuls überspannten Mittelwerten Ja Gleich
Tukey überspannten Mittelwerten Ja Gleich
Hochberg überspannten Mittelwerten Ja
Gabriel überspannten Mittelwerten Ja
Scheffé Mittelwertpaaren Ja Ungleich

Die Tests können teilweise geordnet werden, je nachdem wie konservativ sie sind:

Konservativ -- Duncan > Scheffé > Tukey > Newman-Keuls > kleinster signifikanter Unterschied -- Nicht konservativ.

Voraussetzungen und Notation

Man geht davon aus, dass bei den Mittelwertvergleichen in m {\displaystyle m} Gruppen und bei einem Signifikanzniveau α {\displaystyle \alpha } die Alternativhypothese angenommen wurde, d. h., es existieren Unterschiede zwischen mindestens zwei Gruppenmittelwerten. Die Hypothesen für alle folgenden Tests sind

* für die paarweisen Tests: H 0 : μ i = μ j {\displaystyle H_{0}:\mu _{i}=\mu _{j}\,} vs. H 1 : μ i μ j {\displaystyle H_{1}:\mu _{i}\neq \mu _{j}} und
* für die überspannten geordneten Mittelwerte: H 0 : μ ( i ) = μ ( i + p 1 ) {\displaystyle H_{0}:\mu _{(i)}=\mu _{(i+p-1)}\,} vs. H 1 : μ ( i ) μ ( i + p 1 ) {\displaystyle H_{1}:\mu _{(i)}\neq \mu _{(i+p-1)}\,} .

Des Weiteren sei n i {\displaystyle n_{i}} die Anzahl der Beobachtungen in der Gruppe i {\displaystyle i} und n = n 1 + + n m {\displaystyle n=n_{1}+\dots +n_{m}} die Anzahl aller Beobachtungen. Die Tests werden unterschieden in Tests für den balancierten Fall ( r = n 1 = = n m {\displaystyle r=n_{1}=\dots =n_{m}} ) und für den unbalancierten Fall (die Stichprobenumfänge in den Gruppen können unterschiedlich sein).

Tests für den unbalancierten Fall

Test auf kleinsten signifikanten Unterschied

Im Test auf kleinsten signifikanten Unterschied (least significant difference test, kurz: LSD test), auch Test auf kleinste gesicherte Differenz[2], oder Grenzdifferenztest ist die Teststatistik:

T = X ¯ i X ¯ j S 1 n i + 1 n j t n m {\displaystyle T={\frac {{\overline {X}}_{i}-{\overline {X}}_{j}}{S{\sqrt {{\tfrac {1}{n_{i}}}+{\tfrac {1}{n_{j}}}}}}}\sim t_{n-m}}

mit

S 2 = 1 n m j = 1 m ( n j 1 ) S j 2 {\displaystyle S^{2}={\frac {1}{n-m}}\sum _{j=1}^{m}(n_{j}-1)S_{j}^{2}}

und S j 2 {\displaystyle S_{j}^{2}} die Gruppenvarianz der Gruppe j {\displaystyle j} .

Der Test auf kleinsten signifikanten Unterschied beruht auf dem Zweistichproben-t-Test, jedoch wird die Varianz mit Hilfe aller Gruppen berechnet.

Bonferroni-Test auf kleinsten signifikanten Unterschied

Im Bonferroni-Test auf kleinsten signifikanten Unterschied ist die Teststatistik identisch zur Teststatistik des Tests auf kleinsten signifikanten Unterschied. Jedoch wird das Signifikanzniveau nach der Bonferroni-Methode korrigiert. Wird die Varianzanalyse mit dem Signifikanzniveau α {\displaystyle \alpha } durchgeführt, so wird das korrigierte Signifikanzniveau α {\displaystyle \alpha ^{*}} für die paarweisen Mittelwertvergleiche benutzt:

α = 2 m ( m 1 ) α {\displaystyle \alpha ^{*}={\frac {2}{m(m-1)}}\alpha } .

Die kritischen Werte für das korrigierte Signifikanzniveau finden sich in speziellen Tabellen oder können mit Hilfe der Approximation

t n m ; 1 α / 2 z 1 α 1 z 1 α 2 + 1 4 ( n m ) {\displaystyle t_{n-m;1-\alpha /2}\approx {\frac {z_{1-\alpha }}{1-{\tfrac {z_{1-\alpha }^{2}+1}{4(n-m)}}}}}

bestimmt werden. z 1 α {\displaystyle z_{1-\alpha }} ist das ( 1 α ) {\displaystyle (1-\alpha )} -Quantil aus der Standardnormalverteilung.

Der Test sollte nur bei nicht zu großem m {\displaystyle m} angewandt werden, da sonst das korrigierte Signifikanzniveau zu klein wird und sich Nichtablehnungsbereiche der t-Tests überschneiden. Ist z. B. m = 5 {\displaystyle m=5} und α = 5 % {\displaystyle \alpha =5\,\%} , dann ist α = 0 , 5 % {\displaystyle \alpha ^{*}=0{,}5\,\%} .

Scheffé-Test

Der Scheffé-Test verlangt eigentlich die Varianzhomogenität in den Gruppen, jedoch ist er gegen die Verletzung dieser Voraussetzung unempfindlich.

Einfacher Scheffé-Test

Der einfache Scheffé-Test prüft H 0 : μ i = μ j   {\displaystyle H_{0}:\mu _{i}=\mu _{j}\ } vs. H 1 : μ i μ j {\displaystyle H_{1}:\mu _{i}\neq \mu _{j}} mit Hilfe der Teststatistik

F = 1 m 1 ( X ¯ i X ¯ j ) 2 S 2 ( 1 n i + 1 n j ) F m 1 , n m {\displaystyle F={\frac {{\tfrac {1}{m-1}}({\overline {X}}_{i}-{\overline {X}}_{j})^{2}}{S^{2}\left({\tfrac {1}{n_{i}}}+{\tfrac {1}{n_{j}}}\right)}}\sim F_{m-1,n-m}} .

Der einfache Scheffé-Test ist ein Spezialfall des allgemeinen Scheffé-Tests für einen linearen Kontrast für zwei Mittelwerte.

Linearer Kontrast

Ein linearer Kontrast einer oder mehrerer Mittelwerte ist definiert als

Λ = c 1 μ 1 + + c m μ m {\displaystyle \Lambda =c_{1}\mu _{1}+\dots +c_{m}\mu _{m}} mit c 1 + + c m = 0 {\displaystyle c_{1}+\dots +c_{m}=0} .

Für den einfachen Scheffé-Test ist der lineare Kontrast:

c k = { 1 k = i 1 k = j 0 sonst. {\displaystyle c_{k}={\begin{cases}1&k=i\\-1&k=j\\0&{\text{sonst.}}\end{cases}}} .

Zwei Kontraste Λ ( 1 ) {\displaystyle \Lambda ^{(1)}} und Λ ( 2 ) {\displaystyle \Lambda ^{(2)}} heißen orthogonal, wenn gilt

c 1 ( 1 ) c 1 ( 2 ) + + c m ( 1 ) c m ( 2 ) = 0 {\displaystyle c_{1}^{(1)}c_{1}^{(2)}+\dots +c_{m}^{(1)}c_{m}^{(2)}=0} .

Allgemeiner Scheffé-Test

Für den allgemeinen Scheffé-Test sind die Hypothesen H 0 : Λ = 0 {\displaystyle H_{0}:\Lambda =0\,} für alle (orthogonalen) Kontraste vs. H 1 : Λ 0 {\displaystyle H_{1}:\Lambda \neq 0} für mindestens ein Kontrast. Die Teststatistik ergibt sich zu

F = 1 m 1 ( j = 1 m c j X ¯ j ) 2 S 2 ( j = 1 m c j 2 n j ) F m 1 , n m {\displaystyle F={\frac {\displaystyle {\frac {1}{m-1}}\left(\sum _{j=1}^{m}c_{j}{\overline {X}}_{j}\right)^{2}}{\displaystyle S^{2}\left(\sum _{j=1}^{m}{\frac {c_{j}^{2}}{n_{j}}}\right)}}\sim F_{m-1,n-m}} .

Die Idee beruht auf der Varianzzerlegung des geschätzten Kontrastes L = c 1 X ¯ 1 + + c m X ¯ m {\displaystyle L=c_{1}{\overline {X}}_{1}+\dots +c_{m}{\overline {X}}_{m}}

Var ( L ) Var ( L ) = E ( L 2 ) ( E ( L ) ) 2 Var ( L ) = E ( L 2 ) Var ( L ) {\displaystyle {\frac {\operatorname {Var} (L)}{\operatorname {Var} (L)}}={\frac {\operatorname {E} (L^{2})-(\operatorname {E} (L))^{2}}{\operatorname {Var} (L)}}={\frac {\operatorname {E} (L^{2})}{\operatorname {Var} (L)}}} ,

da unter Gültigkeit der Nullhypothese gilt: E ( L ) = 0 {\displaystyle \operatorname {E} (L)=0} .

Tests für den balancierten Fall

Diese Tests sind für den balancierten Fall gedacht, d. h., der Stichprobenumfang in jeder Gruppe ist gleich r {\displaystyle r} . SPSS führt den Test auch durch bei ungleichen Stichprobenumfängen in jeder Gruppe, jedoch wird r {\displaystyle r} dann als das harmonische Mittel der Stichprobenumfänge berechnet.

Die Teststatistik ist für die folgenden Tests immer die gleiche

Q = | X ¯ i X ¯ j | S / r {\displaystyle Q={\frac {|{\overline {X}}_{i}-{\overline {X}}_{j}|}{S/{\sqrt {r}}}}} .

Die kritischen Werte q ( α , p , f ) {\displaystyle q(\alpha ,p,f)} liegen nur tabelliert vor (meist für α = 5 % {\displaystyle \alpha =5\,\%} oder α = 10 % {\displaystyle \alpha =10\,\%} ). Dabei liegen zwischen den Mittelwerten i {\displaystyle i} und j {\displaystyle j} noch weitere p 2 {\displaystyle p-2} Mittelwerte.

Tukey-Test

Im Tukey-Test ergeben sich die kritischen Werte aus

q ( α , m , n m ) {\displaystyle q(\alpha ,m,n-m)\,} ,

d. h., es findet keine Bonferroni-Korrektur statt und die Zahl der überspannten Mittelwerte wird nicht berücksichtigt.

Student-Newman-Keuls-Test

Im Student-Newman-Keuls-Test ergeben sich die kritischen Werte aus

q ( α , p , n m ) {\displaystyle q(\alpha ,p,n-m)\,} ,

d. h., es findet keine Bonferroni-Korrektur statt und die Zahl der überspannten Mittelwerte wird berücksichtigt.

Duncan-Test

Im Duncan-Test ergeben sich die kritischen Werte aus

q ( 1 ( 1 α ) p 1 , p , n m ) {\displaystyle q(1-(1-\alpha )^{p-1},p,n-m)\,} ,

d. h., es findet eine Bonferroni-Korrektur statt und die Zahl der überspannten Mittelwerte wird berücksichtigt.

Bei der Anwendung des Duncan-Tests ist zu beachten, dass er lediglich gruppenweise Vergleiche durchführt, sodass eindeutige Signifikanzaussagen nicht immer möglich sind.

Beispiel

Mietbelastungsquote in %
Bundesland Anzahl Median Mittel Std.abw.
Sachsen 1356 19,0 22,3 12,5
Brandenburg 803 19,0 23,4 13,2
Mecklenburg-Vorpommern 491 20,0 22,1 10,3
Thüringen 744 21,0 24,0 13,3
Berlin 998 22,0 24,4 11,9
Baden-Württemberg 3246 22,0 24,8 14,2
Bayern 3954 22,0 25,4 14,2
Nordrhein-Westfalen 5266 23,0 25,8 13,8
Hessen 1904 23,0 26,3 14,3
Sachsen-Anhalt 801 23,0 26,6 14,3
Rheinland-Pfalz 1276 24,0 26,1 13,5
Niedersachsen 2374 24,0 27,9 15,7
Hamburg 528 24,5 29,3 18,9
Schleswig-Holstein 890 25,0 27,9 14,8
Saarland 312 26,0 26,7 11,9
Bremen 194 27,0 29,2 15,8
Deutschland 9527 22,0 25,5 14,0

Für die Mietbelastungsquote (= Anteil der Bruttokaltmiete am Haushaltsnettoeinkommen), entnommen aus den CAMPUS Files für den Mikrozensus 2002 des Statistischen Bundesamtes, ergeben sowohl der nicht-parametrische Median-Test als auch die parametrische einfache Varianzanalyse (englisch one-way ANOVA) hochsignifikante Unterschiede in den Medianen bzw. Mittelwerten der Bundesländer. D. h., es gibt also Unterschiede zwischen den Bundesländern in den mittleren Mietausgaben (im Verhältnis zum Einkommen).

Da der Levene-Test die Nullhypothese der Varianzhomogenität ablehnt und die Beobachtungszahlen sich in der Stichprobe deutlich unterscheiden, bleiben nur folgende Testverfahren zur Unterschiedsbestimmung übrig:

  • kleinster signifikanter Unterschied
  • Bonferroni-Test auf kleinsten signifikanten Unterschied
  • Scheffé

Da der Scheffé-Test in SPSS sowohl paarweise Vergleiche durchführt als auch homogene Untergruppen ausgibt, schauen wir uns dessen Ergebnisse an.

Paarweise Vergleiche

Der paarweise Vergleich dient der Aussage über signifikante Unterschiede zwischen den Mittelwerten der einzelnen Gruppen. Im vorliegenden Beispiel werden für die jeweiligen paarweisen Vergleiche für jede Kombination von zwei Bundesländern ausgegeben:

  • die Differenz x ¯ i x ¯ j {\displaystyle {\overline {x}}_{i}-{\overline {x}}_{j}} ,
  • der Standardfehler,
  • der p-Wert (Spalte: Signifikanz), der bei Unterschreitung des vorgegebenen Signifikanzniveaus eine Ablehnung der Gleichheit der Mittelwerte bedeutet, und
  • ein 95 %-Konfidenzintervall für die Differenz der Mittelwerte. Enthält das Konfidenzintervall nicht die Null wird die Nullhypothese zum Signifikanzniveau von 5 % abgelehnt.

Bei einem vorgegebenen Signifikanzniveau von 5 % unterscheidet sich nur der Mittelwert Sachsens signifikant von dem Schleswig-Holsteins (p-Wert gleich 2,1 %), bei allen anderen Vergleichen mit Schleswig-Holstein werden keine signifikanten Unterschiede festgestellt.

Gruppenweise Vergleiche

Mittels des gruppenweisen Vergleichs lassen sich detaillierte Aussagen über die Homogenität der Mittelwerte von Gruppen treffen. Aussagen über die signifikanten Unterschiede zwischen den Gruppen erlaubt dieser Vergleich jedoch nur eingeschränkt.

Im vorliegenden Beispiel wird ein iterativer Prozess durchgeführt, um homogene Untergruppen zu finden, d. h. Gruppen, in denen die Nullhypothese der Gleichheit der Mittelwerte nicht abgelehnt wird. Dazu werden die beobachteten Mittelwerte der Größe nach geordnet x ¯ ( 1 ) x ¯ ( 16 ) {\displaystyle {\overline {x}}_{(1)}\leq \dots \leq {\overline {x}}_{(16)}} und es wird eine Folge von Tests durchgeführt.

Überspannte
Mittelwerte
Geprüfte Nullhypothesen H 0 {\displaystyle H_{0}}
16 μ ( 1 ) = = μ ( 16 ) {\displaystyle \mu _{(1)}=\dots =\mu _{(16)}}
15 μ ( 1 ) = = μ ( 15 ) {\displaystyle \mu _{(1)}=\dots =\mu _{(15)}} μ ( 2 ) = = μ ( 16 ) {\displaystyle \mu _{(2)}=\dots =\mu _{(16)}}
14 μ ( 1 ) = = μ ( 14 ) {\displaystyle \mu _{(1)}=\dots =\mu _{(14)}} μ ( 2 ) = = μ ( 15 ) {\displaystyle \mu _{(2)}=\dots =\mu _{(15)}} μ ( 3 ) = = μ ( 16 ) {\displaystyle \mu _{(3)}=\dots =\mu _{(16)}}
13 μ ( 1 ) = = μ ( 13 ) {\displaystyle \mu _{(1)}=\dots =\mu _{(13)}} μ ( 2 ) = = μ ( 14 ) {\displaystyle \mu _{(2)}=\dots =\mu _{(14)}} μ ( 3 ) = = μ ( 15 ) {\displaystyle \mu _{(3)}=\dots =\mu _{(15)}} μ ( 4 ) = = μ ( 16 ) {\displaystyle \mu _{(4)}=\dots =\mu _{(16)}}
Im allgemeinen Fall werden weitere Tests mit immer weniger Gruppen durchgeführt
Im Beispiel: H 0 {\displaystyle H_{0}} nicht abgelehnt H 0 {\displaystyle H_{0}} in zuvor nicht abgelehnter H 0 {\displaystyle H_{0}} enthalten H 0 {\displaystyle H_{0}} abgelehnt

Im ersten Schritt wird die Nullhypothese H 0 : μ ( 1 ) = = μ ( 16 ) {\displaystyle H_{0}:\mu _{(1)}=\dots =\mu _{(16)}} getestet und abgelehnt; wir wissen ja schon, dass die Mittelwerte unterschiedlich sind. Dann wird zunächst

  • das Bundesland mit dem größten Mittelwert entfernt und die Nullhypothese H 0 : μ ( 1 ) = = μ ( 15 ) {\displaystyle H_{0}:\mu _{(1)}=\dots =\mu _{(15)}} getestet und
  • das Bundesland mit dem kleinsten Mittelwert entfernt und die Nullhypothese H 0 : μ ( 2 ) = = μ ( 16 ) {\displaystyle H_{0}:\mu _{(2)}=\dots =\mu _{(16)}} getestet.

In beiden Tests werden nur noch Gruppen mit 15 Bundesländern getestet. Wird die Nullhypothese bei einem der Tests abgelehnt (in der Tabelle rot), so werden aus der Gruppe das Bundesland mit dem größten Mittelwert und das Bundesland mit dem kleinsten Mittelwert entfernt und es wird erneut getestet. Damit wird eine Sequenz von zu testenden Nullhypothesen mit einer immer kleiner werdenden Anzahl von Mittelwerten aufgebaut.

Das Verfahren wird abgebrochen, wenn

  • entweder die Nullhypothese bei einem der Tests nicht abgelehnt werden kann (in der Tabelle grün) oder
  • die betrachtete Nullhypothese bereits Teil einer nicht abgelehnten Nullhypothese ist (in der Tabelle gelb) oder
  • nur noch ein Bundesland übrig ist.

Die "grünen" Untergruppen werden von SPSS ausgegeben.

Für das Beispiel ergeben sich zwei homogene Untergruppen mit jeweils 14 Bundesländern. D. h., hier konnte die Nullhypothese der Gleichheit der Mittelwerte nicht abgelehnt werden. Von der homogenen Untergruppe 1 sind Bremen und Hamburg, von der homogenen Untergruppe 2 Sachsen und Mecklenburg-Vorpommern ausgeschlossen. Aussagen darüber, welche Mittelwerte welcher Bundesländer signifikant verschiedenen sind, können in diesem Fall nicht getroffen werden.

Einzelnachweise

  1. Ajit C. Tamhane: Multiple comparisons in model I one-way ANOVA with unequal variances. In: Communications in Statistics - Theory and Methods. Band 6, Nr. 1, 1977, S. 15–32, doi:10.1080/03610927708827466. 
  2. Werner Timischl: Angewandte Statistik. Eine Einführung für Biologen und Mediziner. 2013, 3. Auflage, S. 373.

Literatur

  • Bernd Rönz: Skript: Computergestützte Statistik I. Humboldt-Universität zu Berlin, Lehrstuhl für Statistik, Berlin 2001.