5.1 Deskriptive Statistik: Darstellung und Präsentation von Daten
5.1.3 Numerische Zusammenfassung von Daten
Lagemaße
Mittelwert:
Vorteile:
- – Einfach zu berechnen: nur aufsummieren und teilen.
- – Intuitiv, eine Zahl „in der Mitte“; wird von großen Zahlen nach oben und von kleinen Zahlen nach unten gezogen.
Nachteile:
- – Der Mittelwert kann durch Ausreißer verzogen werden – er funktioniert nicht gut für Stichproben mit stark variierenden Daten.
- – Der Mittelwert von 100, 200 und -300 ist 0. Das ist verwirrend.
Median:
Vorteile:
- – Kann gut mit Ausreißern umgehen – oft die genaueste Abbildung einer Gruppe.
- – Teilt die Daten in zwei Gruppen auf, jede mit der gleichen Anzahl an Elementen.
Nachteile:
- – Ist schwieriger zu berechnen: Daten müssen zuvor sortiert werden.
- – Nicht so bekannt; wenn man „Median“ sagt, denken viele, dass man „Durchschnitt“ meint.
Modalwert:
Vorteile:
- – Gut geeignet für exklusive Auswahlsituationen (diese Wahl oder andere; keine Kompromisse), d.h. funktioniert gut mit nominalen Daten.
- – Zeigt die Wahl, die die meisten wollten (während der Mittelwert oft zur Wahl führen kann, die keiner wollte).
- – Einfach zu verstehen.
Nachteile:
- – Erfordert mehr Aufwand für die Berechnung (man muss die Stimmen zählen).
- – “Der Sieger nimmt alles”, es gibt keinen Mittelweg.
Modalwert ist der häufigste Wert unter allen Beobachtungen der Variable
Lagemaße:
Mittelwert und Median bestimmen die Form der Verteilung
Streuungsmaße:
Varianz ist der Durchschnitt von quadrierten Abständen vom Mittelwert
Empirische Varianz Stichproben-Varianz
Körpergrößen der US-Amerikanischen olympischen Basketballmannschaft 2008
Warum Varianz?
Der Mittelwert funktioniert wie ein Gleichgewichtspunkt. Deshalb ist die durchschnittliche Abweichung vom Mittelwert immer gleich Null.
Bei der Berechnung von Varianz werden alle Abweichungen quadriert, damit negative Abweichungen positive Abweichungen nicht kompensieren.
Standardabweichung
Standardabweichung behält die Messeinheiten von Originaldaten.
Welcher Datensatz hat eine höhere Standardabweichung?
Beziehung zwischen Standardabweichung und Normalverteilung