Der Chi-Quadrat-Test in Online-Umfragen
In Online-Umfragen werden die Daten häufig dazu erhoben, um die Zusammenhänge zwischen nominalen Merkmalen zu überprüfen – z.B. Kaufhäufigkeit und Geschlecht, Bildungsniveau und Einkommensklasse, usw. Die gängige Methode solche Zusammenhänge zu prüfen ist der sogenannte Chi-Quadrat-Test (auch als Kreuztabelle oder Kontingenzanalyse genannt). Um ihnen bei der Analyse solcher Zusammenhänge zu helfen, erläutere ich in diesem Artikel die Hintergründe und die Vorgehensweise dieser Methode anhand eines Beispiels.
WIE KANN ICH ZUSAMMENHÄNGE AUSWERTEN?
Wenn Sie sich dafür interessieren, wie man bei nominalskalierten Merkmalen Zusammenhänge erkennen kann, dann bist du hier genau richtig. Mit Hilfe eines Beispiels erkläre ich den Chi-Quadrat Test. Er ist einer der einfachsten, schnell zu erstellenden Hypothesentest, um Merkmale zu vergleichen.
Bei vielen Online Umfrage Tools gehört eine Statistische Analyse zu den Standard Auswertungsmöglichkeiten dazu und ist als Analysemethode integriert.
WAS IST DER CHI-QUADRAT TEST?
Der Chi-Quadrat Test ist ein statistisches Verfahren, mit welchem man prüfen kann, ob zwei Merkmale zusammenhängen, bzw. ob sie voneinander abhängig sind. Die zu untersuchende Abhängigkeit stellt hierbei die Nullhypothese dar. Bsp.: Zwischen Familienstand und dem Schulabschluss gibt es keinen Zusammenhang.
Der Test ist entweder bei nominal oder ordinal skalierten Daten anwendbar. Als kleine Erinnerung: Nominale Merkmale sind Kategorien, wie beispielsweise: Geschlecht, Automarken, Blutgruppe oder der Studiengang. Bei ordinalen Merkmalen gibt es bestimmte Rangfolgen. Beispiele hierfür sind Einkommen, Schulnoten oder der Dienstrang beim Militär.
WAS BRAUCHT MAN UM DEN TEST DURCHZUFÜHREN?
Für die Durchführung des Tests, braucht man relativ wenig. Man muss eine Kreuztabelle erstellen können, Erwartbare Wahrscheinlichkeiten bestimmen und die Chi-Quadrat Verteilungstabelle lesen können – hierfür benötigen wir das Signifikanzniveau und den Freiheitsgrad.
Kreuztabelle? Signifikanz- WAS? Keine Panik – um den Test durchzuführen muss man nicht Mathematik studiert haben.
Ausgehend von einer Umfrage der Universität in Würzburg, gehen wir alle Punkte einmal Schritt für Schritt durch. In dem Fragebogen geht es in der ersten Frage darum, welchen Familienstand die Probanden haben. Hier wurde unterschieden zwischen ledig, geschieden oder verheiratet. Die zweite Frage fragt nach dem Schulabschluss, aufgeschlüsselt in: Gymnasium, Realschule oder Hauptschule. Anhand dieser Daten beginnen wir die Nullhypothese (H0) aufzustellen. Die Nullhypothese sagt in einer statistischen Analyse meistens aus, dass es kein Zusammenhang besteht. Diese versuchen wir dann zu nachher zu verwerfen. In unserem Beispiel lautet sie dann:
H0: Es gibt keinen Zusammenhang zwischen Familienstand und dem Schulabschluss
Oder auch anders ausgedrückt: Der Schulabschluss ist unabhängig von dem Familienstatus.
So weit, so gut. Nun beginnen wir mit der Kreuztabelle.
ERSTELLUNG EINER KREUZTABELLE
Für diejenigen, die keinen Mathe Leistungskurs hatten und die Mathe eh schon immer blöd fanden, eine kurze Erklärung:
Eine Kreuztabelle ist eine Häufigkeitstabelle, die die gemeinsame Verteilung zwei oder mehrere Merkmale in absoluter oder relativer Häufigkeit darstellt und in tabellarischer Form zusammenfasst.
Es gibt viele Wege, um eine Kreuztabelle zu erstellen. Ich persönlich habe dafür das Tabellenkalkulationsprogramm Excel benutzt. Man kann aber jedes beliebige Programm benutzen, mit dem man eine Tabelle erstellen kann. Ich habe angefangen, indem ich auf der horizontalen Linie die drei verschiedenen Auswahlmöglichkeiten des Familienstandes eingetragen habe. Auf der vertikalen Linie liegen die möglichen Schulabschlüsse.
Schulabschluss – Familienstand |
Gymnasium | Realschule | Hauptschule | Zeilensumme |
Ledig | 15 | 14 | 9 | 38 |
Geschieden | 12 | 26 | 28 | 66 |
Verheiratet | 22 | 18 | 73 | 113 |
Spaltensumme | 49 | 58 | 110 | 217 |
ERWARTETE HÄUFIGKEITEN BERECHNEN
Nachdem die Kreuztabelle erstellt ist, müssen wir zunächst die zu erwarteten Häufigkeiten (Häufigkeiten, die auftreten müssten, wenn es keinen Zusammenhang gibt) der Merkmalsausprägungen berechnen. Ich habe sie wieder in einer Kreuztabelle zusammengefügt. Das gelingt, indem wir die jeweiligen Randhäufigkeiten der horizontalen, bzw. vertikalen Linien miteinander multiplizieren und durch die Anzahl der Testpersonen teilen.
Die jeweiligen Werte der Merkmalsausprägung werden dann in das passende Feld eingetragen.
Gymnasium | Realschule | Hauptschule | Zeilensumme | |
Ledig | (49*38)/217=8,58 | 10,16 | 19,26 | 38 |
Geschieden | (49*66)/217=14,90 | 17,64 | 33,46 | 66 |
Verheiratet | (49*113)/217=25,52 | 30,20 | 57,28 | 113 |
Spaltensumme | 49 | 58 | 110 | 217 |
Als Beispiel: Merkmalsausprägung Gymnasium / ledig: (Zeilensumme 38 x Spaltensumme 49) / Anzahl der Personen 217 = 8,58. Das führen wir für jede Merkmalsausprägung durch. In dem Vergleich zum Umfragewert von 15 aus der ersten Kreuztabelle sehen wir, dass weniger ledige Personen als erwartet einen Gymnasial Schulabschluss haben.
CHI-QUADRAT BERECHNEN
Jetzt gelangen wir zum nächsten und eigentlichen Schritt. Das Chi-Quadrat ausrechnen. Das gelingt, indem wir die vorhandenen Werte miteinander vergleichen. Die Prüfgröße X2 ergibt sich aus der Formel:
Daraus ergeben sich die Abweichungen für das Chi-Quadrat X2:
Gymnasium | Realschule | Hauptschule | |
Ledig | 4,80 | 1,45 | 5,47 |
Geschieden | 0,57 | 3,96 | 0,89 |
Verheiratet | 0,48 | 4,93 | 4,31 |
Wenn man dann die Summe aller Werte nimmt, ergibt sich der endgültige Chi Quadrat Wert von 26,87.
AUSSAGE DES CHI-QUADRATES
Aus dem einfachen Chi-Quadrat können wir jedoch keine Aussage treffen, die unsere Nullhypothese widerlegt oder bestätigt. Um unser Chi-Quadrat einzuordnen, brauchen wir die Chi-Quadrat Verteilungstabelle. Die findet man leicht im Internet, beispielsweise unter folgendem Link: https://datatab.de/tutorial/tabelle-chi-quadrat
Um in der Tabelle Werte abzulesen, fehlen uns jedoch noch zwei weitere Variablen.
Deshalb werden in dem nächsten Schritt das Signifikanzniveau und der Freiheitsgrad bestimmt.
SIGNIFIKANZNIVEAU
Bei den meisten regulären statistischen Test wird das Signifikanzniveau von 5% ausgewählt. In unserem Beispiel nehmen wir das an. Auch ihr könnt in den meisten Fällen ein Signifikanzniveau von 5% annehmen.
Um das Signifikanzniveau in manch anderen Tabellen (wie in der unten) ablesen zu können, muss man vorher (1 – ß) berechnen, um den richtigen Wert zu erhalten. Das ist bei uns dann 1- 0,05 = 0,95.
FREIHEITSGRAD
Den Freiheitsgrad Df berechnen wir durch die Formel:
Df = (Anzahl der Spalten – 1) * (Anzahl der Zeilen – 1)
Bei einer Kreuztabelle mit jeweils drei Ausprägungen kommt man deshalb immer auf:
Df = (3-1) * (3-1) = 4 Freiheitsgrade.
Jetzt haben wir dann alle Variablen und Werte, um die Tabelle zu benutzen und unseren errechneten Wert zu vergleichen.
Signifikanzniveau (1- ß)
Df |
0,7 | 0,75 | 0,8 | 0,85 | 0,9 | 0,95 |
1 | 1,07 | 1,32 | 1,64 | 2,07 | 2,71 | 3,84 |
2 | 2,41 | 2,77 | 3,22 | 3,79 | 4,61 | 5,99 |
3 | 3,66 | 4,11 | 4,64 | 5,32 | 6,25 | 7,81 |
4 | 4,88 | 5,39 | 5,99 | 6,74 | 7,78 | 9,49 |
5 | 6,06 | 6,63 | 7,29 | 8,12 | 9,24 | 11,07 |
Der abzulesende kritische Wert ist 9,49.
Für die Verteilungstabelle gilt: Übersteigt der errechnete Chi-Quadrat Wert (26,87) seinen mit den jeweiligen Variablen aus der Tabelle abzulesenden Wert (hier: 9,49), so kann man davon ausgehen, dass es einen Zusammenhang zwischen den beiden Variablen gibt. Andersherum: Ist der Wert aus der Tabelle höher als der errechnete X2 Wert, dann besteht kein Zusammenhang.
Bei dem Datensatz der Uni Würzburg, der hier verwendet und angenommen wurde besteht also ein Zusammenhang zwischen dem Familienstand und dem Schulabschluss.
Zur Erinnerung: In unserer Hypothese H0 haben wir die Vermutung aufgestellt, dass es keinen Zusammenhang zwischen den Schulabschluss und dem Familienstand gibt.
Nach dem Errechnen unseres Chi-Quadrates können wir das nun widerlegen, was gleichzeitig auch unser Ziel war. Es besteht ein signifikanter, statistischer Zusammenhang zwischen unseren beiden untersuchten Merkmalen.
Würde es keinen Zusammenhang geben, dann wäre das errechnete Chi-Quadrat kleiner als der kritische Wert, den man in der Verteilungstabelle ablesen kann. In unserem Beispiel müsste Chi-Quadrat kleiner als 9,48 (X2 < 9,48) sein.
FAZIT
Die Merkmale: Erwartete Häufigkeiten, Chi-Quadrat und das Signifikanzniveau zu berechnen ist wirklich nicht schwierig. Besonders wenn man es schon einmal angewendet hat. Des Weiteren ist die Erstellung einer Kreuztabelle nicht wirklich kompliziert. Deshalb lautet mein Fazit: Der Chi-Quadrat Test, ist eine leicht anzuwendende Methode, die ohne großen Aufwand durchgeführt werden kann. Ich hoffe, dass ihr durch meine Schritt-für-Schritt Anleitung das Verfahren verstanden habt. Ich bin mir sicher, dass ihr eure Daten nun auch auswerten könnt.
Bedeutung für Online-Umfragen
Viele von euch fragen sich jetzt: Was bedeutet das denn nun für meine Online Umfrage?
Das ist sehr leicht zu erklären. Wer eine Online Umfrage auswerten möchte, mit besonderem Hintergrund auf die Frage für einen potentiellen Zusammenhang, der weiß nun was das Chi-Quadrat bedeutet. Wenn man die beiden Fragen miteinander vergleichen möchte, kann man also die Daten in einer Kreuztabelle eintragen und die Werte berechnen.
Wenn sie für Ihre Umfrage QUESTIONSTAR genutzt haben, brauchen Sie das gesamte Prozedere nicht händisch berechnen. In QUESTIONSTAR ist die Möglichkeit Kreuztabellen zu erstellen bzw. Chi-Quadrat-Tests durchzuführen integriert. Der Chi-Quadrat-Wert und die Freiheitsgrade werden dann automatisch berechnet, Sie müssen sie nur noch der Tabelle ablesen. Es ist eine super einfache Methode, um Zusammenhänge Merkmale zu überprüfen.
Autor:
Linus Michel
Quellen:
Bortz, J., & Schuster, C. (2017). Statistik für Human- und Sozialwissenschaftler. Berlin: Springer.
Möhring, W., & Schlütz, D. (2019). Die Befragung in der Medien- und Kommunikationswissenschaft. Berlin: Springer.
Hain, J. (2013). Abhängigkeit zweier Merkmale. Universität Würzburg – Lehrstuhl für Mathematik VIII – Statistik.
Eichler, A., Vogel, M., (2012). Zusammenhänge in statistischen Daten. Wiesbaden: Springer.