Kontingenzkoeffizient

Der Kontingenzkoeffizient C {\displaystyle {\boldsymbol {C}}} (nach Karl Pearson) ist ein statistisches Zusammenhangsmaß. Der Pearsonsche Kontingenzkoeffizient drückt die Stärke des Zusammenhangs zwischen zwei Variablen eines beliebigen Skalenniveaus aus. Er basiert auf dem Vergleich von tatsächlich ermittelten Häufigkeiten zweier Merkmale mit den Häufigkeiten, die man bei Unabhängigkeit dieser Merkmale erwartet hätte.

Quadratische Kontingenz

Die quadratische Kontingenz[1] oder der Chi-Quadrat-Koeffizient χ 2 {\displaystyle {\boldsymbol {\chi }}^{2}} , auf dem auch der Kontingenzkoeffizient beruht, ist ein Maß für den Zusammenhang der betrachteten Merkmale:

χ 2 = i = 1 I j = 1 J ( n i j n i n j n ) 2 n i n j n {\displaystyle \chi ^{2}=\sum _{i=1}^{I}\sum _{j=1}^{J}{\frac {\left(\displaystyle n_{ij}-{\frac {n_{i\cdot }n_{\cdot j}}{n}}\right)^{2}}{\displaystyle {\frac {n_{i\cdot }n_{\cdot j}}{n}}}}}

Die Aussagekraft des χ 2 {\displaystyle \chi ^{2}} -Koeffizienten ist gering, da seine Obergrenze, d. h. der Wert, den er bei vollkommener Abhängigkeit der betrachteten Merkmale annimmt, abhängig von der Größe (Dimension) der Kontingenztafel (d. h. von der Anzahl der Ausprägungen der Variablen) und der Größe der untersuchten Gesamtheit n {\displaystyle n} ist. Eine Vergleichbarkeit von Werten des χ 2 {\displaystyle \chi ^{2}} -Koeffizienten über verschiedene Kontingenztabellen und Stichprobengrößen ist daher nicht gegeben.[1][2] Bei völliger Unabhängigkeit der Merkmale ist χ 2 = 0 {\displaystyle \chi ^{2}=0} .

Es gilt:[3]

0 χ 2 n ( k 1 ) {\displaystyle 0\leq \chi ^{2}\leq n\cdot (k-1)} ,

wobei k = min ( I , J ) {\displaystyle k=\min(I,J)} das Minimum der Anzahl I {\displaystyle I} der Zeilen und der Anzahl J {\displaystyle J} der Spalten der Kontingenztabelle bezeichnet.

Verwendung

Die χ 2 {\displaystyle \chi ^{2}} -Größe wird benötigt, um den Kontingenzkoeffizienten C {\displaystyle {\boldsymbol {C}}} zu ermitteln. Auch bei statistischen Tests findet die χ 2 {\displaystyle \chi ^{2}} -Größe Verwendung (siehe Chi-Quadrat-Test).

Beispiel

Es sei folgende Kontingenztafel aus einer Befragung entstanden:

Limousine {\displaystyle {\textbf {Limousine}}} Kombi {\displaystyle {\textbf {Kombi}}} Summe {\displaystyle {\textbf {Summe}}}
Arbeiter {\displaystyle {\textbf {Arbeiter}}} 19 {\displaystyle 19} 18 {\displaystyle 18} 37 {\displaystyle 37}
Angestellte {\displaystyle {\textbf {Angestellte}}} 43 {\displaystyle 43} 20 {\displaystyle 20} 63 {\displaystyle 63}
Summe {\displaystyle {\textbf {Summe}}} 62 {\displaystyle 62} 38 {\displaystyle 38} 100 {\displaystyle 100}

Berechnung des χ 2 {\displaystyle \chi ^{2}} -Koeffizienten:

( 19 37 62 100 ) 2 37 62 100 + ( 18 37 38 100 ) 2 37 38 100 + ( 43 63 62 100 ) 2 63 62 100 + ( 20 63 38 100 ) 2 63 38 100 = 2 , 83 {\displaystyle {\frac {\left(19-\displaystyle {\frac {37\cdot 62}{100}}\right)^{2}}{\displaystyle {\frac {37\cdot 62}{100}}}}+{\frac {\left(18-\displaystyle {\frac {37\cdot 38}{100}}\right)^{2}}{\displaystyle {\frac {37\cdot 38}{100}}}}+{\frac {\displaystyle \left(43-\displaystyle {\frac {63\cdot 62}{100}}\right)^{2}}{\displaystyle {\frac {63\cdot 62}{100}}}}+{\frac {\displaystyle \left(20-\displaystyle {\frac {63\cdot 38}{100}}\right)^{2}}{\displaystyle {\frac {63\cdot 38}{100}}}}=2{,}83}

Mittlere quadratische Kontingenz

Ein weiteres Maß, um die Stärke der Abhängigkeit der Merkmale in einer Kontingenztafel anzugeben, ist die mittlere quadratische Kontingenz, die im Wesentlichen eine Erweiterung des χ 2 {\displaystyle \chi ^{2}} -Koeffizienten darstellt:

χ 2 n = 1 n i = 1 I j = 1 J ( n i j n i n j n ) 2 n i n j n {\displaystyle {\frac {\chi ^{2}}{n}}={\frac {1}{n}}\sum _{i=1}^{I}\sum _{j=1}^{J}{\frac {\left(n_{ij}-\displaystyle {\frac {n_{i\cdot }n_{\cdot j}}{n}}\right)^{2}}{\displaystyle {\frac {n_{i\cdot }n_{\cdot j}}{n}}}}}

Je größer dieses Maß ist, desto stärker ist der Zusammenhang zwischen den zwei analysierten Merkmalen. Sind die beiden Merkmale unabhängig, so wird jeder Summand durch den Zähler des Bruches zu 0 {\displaystyle 0} , das Maß selbst damit auch. Im Falle einer ( 2 × 2 {\displaystyle 2\times 2} )-Kontingenztafel ist das Maß normiert und nimmt Werte im Intervall [ 0 , 1 ] {\displaystyle [0,1]} an.

Kontingenzkoeffizient nach Karl Pearson

χ 2 {\displaystyle \chi ^{2}} kann grundsätzlich sehr große Werte annehmen und ist nicht auf das Intervall [ 0 , 1 ] {\displaystyle [0,1]} beschränkt. Um die Abhängigkeit des Koeffizienten vom Stichprobenumfang auszuschalten, wird auf Basis des χ 2 {\displaystyle \chi ^{2}} der Kontingenzkoeffizient C {\displaystyle C} (auch C C {\displaystyle CC} oder K {\displaystyle K} ) nach Karl Pearson ermittelt:

C = χ 2 χ 2 + n {\displaystyle C={\sqrt {\frac {\chi ^{2}}{\chi ^{2}+n}}}} .

mit n {\displaystyle n} der Stichprobenumfang.

Dieser kann Werte im Intervall [ 0 , 1 ) {\displaystyle [0,1)} annehmen. Problematisch ist, dass die obere Grenze des Kontingenzkoeffizienten C {\displaystyle C} abhängig von der Anzahl der betrachteten Dimensionen ist:[4]

Es gilt C [ 0 , k 1 k ] {\displaystyle C\in \left[0,{\sqrt {\frac {k-1}{k}}}\right]} mit k = min ( I , J ) {\displaystyle k=\min(I,J)} das Minimum der Anzahl I {\displaystyle I} der Zeilen und der Anzahl J {\displaystyle J} der Spalten der Kontingenztabelle.

Korrigierter Kontingenzkoeffizient

Um zusätzlich zum Einfluss des Stichprobenumfangs auch den Einfluss der Dimension der betrachteten Kontingenztafel (der Anzahl der Merkmalsausprägungen) auf die Obergrenze des Koeffizienten auszuschalten und damit die Vergleichbarkeit von Ergebnissen zu gewährleisten, wird der korrigierte Kontingenzkoeffizient C korr {\displaystyle C_{\text{korr}}} (häufig auch K {\displaystyle K^{*}} ) zur Messung des Zusammenhangs genutzt:

C korr = k k 1 C = k k 1 χ 2 n + χ 2 {\displaystyle C_{\text{korr}}={\sqrt {\frac {k}{k-1}}}\cdot C={\sqrt {\frac {k}{k-1}}}\cdot {\sqrt {\frac {\chi ^{2}}{n+\chi ^{2}}}}} ,

mit k {\displaystyle k} wie oben.

Es gilt 0 C korr 1 {\displaystyle 0\leq C_{\text{korr}}\leq 1} : Ein C korr {\displaystyle C_{\text{korr}}} nahe 0 {\displaystyle 0} deutet dabei auf unabhängige Merkmale hin, ein C korr {\displaystyle C_{\text{korr}}} nahe 1 {\displaystyle 1} auf ein hohes Maß an Abhängigkeit zwischen den Merkmalen.

Für das Beispiel ergibt sich ein korrigierter Kontingenzkoeffizient C korr = 2 2 1 0,166 = 0,234 {\displaystyle C_{\text{korr}}={\sqrt {\frac {2}{2-1}}}\cdot 0{,}166=0{,}234} .

Cramérs V

Cramérs V {\displaystyle {\boldsymbol {V}}} (englisch: Cramér’s V {\displaystyle V} ) ist ein Kontingenzkoeffizient, genauer ein χ 2 {\displaystyle \chi ^{2}} -basiertes Zusammenhangsmaß. Es ist benannt nach dem schwedischen Mathematiker und Statistiker Harald Cramér.

Cramérs V {\displaystyle V} ist eine χ 2 {\displaystyle \chi ^{2}} -basierte Maßzahl. Cramérs V {\displaystyle V} ist eine symmetrische Maßzahl für die Stärke des Zusammenhangs zwischen zwei oder mehr nominalskalierten Variablen, wenn (mindestens) eine der beiden Variablen mehr als zwei Ausprägungen hat. Bei einer 2 × 2 {\displaystyle 2\times 2} -Tabelle entspricht Cramérs V {\displaystyle V} dem absoluten Betrag des Phi-Koeffizienten.

Vorgehen

V = χ 2 n ( k 1 ) {\displaystyle V={\sqrt {\frac {\chi ^{2}}{n\cdot (k-1)}}}} .
n {\displaystyle n} : Gesamtzahl der Fälle (Stichprobenumfang)
k = min ( I , J ) {\displaystyle k=\min(I,J)} das Minimum der Anzahl I {\displaystyle I} der Zeilen und der Anzahl J {\displaystyle J} der Spalten der Kontingenztabelle

Interpretation

Cramérs V {\displaystyle V} liegt bei jeder Kreuztabelle – unabhängig von der Anzahl der Zeilen und Spalten – zwischen 0 {\displaystyle 0} und 1 {\displaystyle 1} . Er kann bei beliebig großen Kreuztabellen angewandt werden. Da Cramérs V {\displaystyle V} immer positiv ist, kann keine Aussage über die Richtung des Zusammenhangs getroffen werden.

Phi-Koeffizient ϕ

Hauptartikel: Matthews Korrelationskoeffizient

Der Phi-Koeffizient (auch Vierfelder-Korrelationskoeffizient, Vierfelderkoeffizient) ϕ {\displaystyle \phi } (auch r ϕ ^ {\displaystyle {\widehat {r_{\phi }}}} ) ist ein Maß für die Stärke des Zusammenhangs zweier dichotomer Merkmale.

Berechnung

Um die Vierfelderkorrelation zwischen zwei dichotomen Merkmalen A {\displaystyle A} und B {\displaystyle B} zu schätzen, stellt man zuerst eine Kontingenztafel auf, die die gemeinsame Häufigkeitsverteilung der Merkmale enthält.

  A = 0 {\displaystyle A=0} A = 1 {\displaystyle A=1} Summe {\displaystyle {\textbf {Summe}}}
B = 0 {\displaystyle B=0} a {\displaystyle a} b {\displaystyle b} a + b {\displaystyle a+b}
B = 1 {\displaystyle B=1} c {\displaystyle c} d {\displaystyle d} c + d {\displaystyle c+d}
Summe {\displaystyle {\textbf {Summe}}} a + c {\displaystyle a+c} b + d {\displaystyle b+d} a + b + c + d {\displaystyle a+b+c+d}

Mit den Daten aus der Tabelle kann man ϕ {\displaystyle \phi } nach der Formel

ϕ = a d b c ( a + b ) ( c + d ) ( a + c ) ( b + d ) {\displaystyle \phi ={\frac {a\cdot d-b\cdot c}{\sqrt {(a+b)\cdot (c+d)\cdot (a+c)\cdot (b+d)}}}}

berechnen.[5] Die Formel ergibt sich aus der allgemeineren Definition des Korrelationskoeffizienten ρ ( A , B ) {\displaystyle \rho (A,B)} im Spezialfall zweier binärer Zufallsvariablen A {\displaystyle A} und B {\displaystyle B} .

Beispiele

Messen der Assoziation zwischen …

  • … Zustimmung zu oder Ablehnung einer Politikentscheidung und dem Geschlecht, …
  • … Vorführung bzw. Nichtvorführung eines Werbespots und Kauf oder Nichtkauf eines Produkts.
  • Anwendung von ϕ {\displaystyle \phi } auf eine Konfusionsmatrix mit zwei Klassen.

Hinweis

Zwischen ϕ {\displaystyle \phi } und χ 2 {\displaystyle \chi ^{2}} besteht der Zusammenhang χ 2 = n ϕ 2 {\displaystyle \chi ^{2}=n\cdot \phi ^{2}}   bzw.   ϕ 2 = χ 2 n {\displaystyle \phi ^{2}={\frac {\chi ^{2}}{n}}} , wobei n {\displaystyle n} die Anzahl der Beobachtungen bezeichnet. Damit ist ϕ {\displaystyle \phi } die Quadratwurzel (das Vorzeichen spielt keine Rolle) aus der mittleren quadratischen Kontingenz (siehe oben).

Als Teststatistik verwendet ist n ϕ 2 {\displaystyle n\cdot \phi ^{2}} unter der Annahme, dass ϕ {\displaystyle \phi } gleich null ist, χ 2 {\displaystyle \chi ^{2}} -verteilt mit einem Freiheitsgrad.

Phi als Maß für die Effektstärke

Wenn ein Maß zur Bestimmung der Effektstärke mit Orientierung auf Wahrscheinlichkeiten gesucht wird, kann dafür ϕ {\displaystyle \phi } verwendet werden. Da bei Kreuztabellen, die nicht absolute Häufigkeiten, sondern Wahrscheinlichkeiten enthalten, an der Stelle, an der normalerweise die Fallzahl zu finden ist, immer 1 {\displaystyle 1} steht, wird ϕ {\displaystyle \phi } identisch mit Cohens w {\displaystyle w} :

ϕ = χ 2 n = χ 2 1 = χ 2 = w {\displaystyle \phi ={\sqrt {\frac {\chi ^{2}}{n}}}={\sqrt {\frac {\chi ^{2}}{1}}}={\sqrt {\chi ^{2}}}=w}

Dabei wird χ 2 {\displaystyle \chi ^{2}} nicht in Bezug auf absolute Häufigkeiten, sondern in Bezug auf Wahrscheinlichkeiten berechnet.

Literatur

  • J. Bortz, G.A., Lienert, K. Boehnke: Verteilungsfreie Methoden in der Biostatistik. Springer, Berlin 1190 (Kap. 8.1, S. 326 und S. 355 ff).
  • J. M. Diehl, H.U. Kohr: Deskriptive Statistik. 12. Auflage. Klotz Eschborn 1999, S. 161.
  • P. Zöfel: Statistik für Psychologen. Pearson Studium, München 2003.
  • Signifikanzprüfung für die Vierfelderkorrelation (PDF; 13 kB).

Weblinks

  • Phi-Koeffizient Online-Rechner

Einzelnachweise

  1. a b Backhaus: Multivariate Analysemethoden. 11. Auflage. Springer, 2006, S. 241, 700. 
  2. W. Kohn: Statistik. Datenanalysis und Wahrscheinlichkeitsrechnung. Springer, 2005, S. 115. 
  3. W. Kohn: Statistik. Datenanalysis und Wahrscheinlichkeitsrechnung. Springer, 2005, S. 114. 
  4. H. Toutenburg, C. Heumann: Deskriptive Statistik: Eine Einführung in Methoden und Anwendungen mit R und SPSS. 6. Auflage. Springer, 2008, S. 115. 
  5. Bernd Rönz, Hans Gerhard Strohe (Hrsg.): Lexikon Statistik. Gabler, Wiesbaden 1994, S. 25.