Tauche ein in unsere modebewusste Statistik-Welt.
Varianz und Standardabweichung
- Herleitung der Formel
- Berechnung
- Interpretation
- Formel zur einfacheren Berechnung
Für dieses Thema ist es essentiell zu wissen, was der Mittelwert einer Verteilung ist.
Wie kommt man zur Varianz/ Standardabweichung?
Um euch die Idee von Varianz und Standardabweichung näherzubringen und zu zeigen, wie man die Formel herleitet, verwenden wir ein einfaches Beispiel.
Wir schauen uns hier die weihnachtlichen Geschenkausgaben von 2 Familien in Euro an. Nennen wir diese beiden Familien Familie Statistik und Familie Quelle.
Familie Statistik
63€, 67€, 76€, 83€, 86€
Familie Quelle
50€, 53€, 82€, 90€, 100€
Beide Familien geben im Schnitt 75€ für ihre Weihnachtsgeschenke aus. Wenn man nun die Verteilungen anhand der Mittelwerte begutachtet, würden wir denken, dass die Ausgaben in beiden Familien in etwa gleich sind.
$$\bar{x} = 75€$$

Schauen wir uns die Ausgaben jedoch etwas genauer an. Hier auf einem Zahlenstrahl dargestellt.
Wir sehen in dieser Darstellung, dass die Weihnachtsausgaben in beiden Familien doch sehr unterschiedlich ausfallen.
Man kann schön sehen, dass die Ausgaben von Familie Statistik näher beim Mittelwert liegen als die Ausgaben von Familie Quelle.
Die Daten von Familie Statistik weisen also eine geringere Streuung auf, da die Werte näher beisammen sind.
Wir wollen jetzt diese Streuung in Form von Abweichung vom Mittelwert mit einer Zahl beschreiben.
Um diese Zahl zu bekommen, könnten wir zuerst auf die Idee kommen, einfach den Abstand von jedem Punkt zum Mittelwert zu bestimmen und diese Werte aufzusummieren:
$$\text{erste Idee: } \sum_{i=1}^n x_i – \bar{x} $$
Der Mittelwert war 75, das heißt wir würden im Fall vom ersten Wert von Familie Statistik 63 – 75 rechnen, was -12 ergibt bzw. bei Familie Quelle 50 Minus 75, was -25 ergibt.
Wenn wir also den Abstand von jedem Wert zum Mittelwert berechnen, kommen wir auf folgende Werte:
Familie Statistik
Familie Quelle
| \(x_i\) | \(x_i – \bar{x}\) |
| 63 | -12 |
| 67 | -8 |
| 76 | 1 |
| 83 | 8 |
| 86 | 11 |
| \(x_i\) | \(x_i – \bar{x}\) |
| 50 | -25 |
| 53 | -22 |
| 82 | 7 |
| 90 | 15 |
| 100 | 25 |
Vielleicht habt ihr das Problem schon bemerkt?
Das Problem hierbei ist, dass die Summe der Abweichungen Null ergibt. Der Grund ist, dass sich positive und negative Abweichungen immer gegenseitig aufheben. Somit ist die Summe von Abweichungen immer Null und diese Rechnung erfüllt nicht unser Ziel.
Eine Möglichkeit, um dieses Problem zu umgehen ist, diese Abweichung zu quadrieren. Da wir durch das Quadrieren nur mehr positive Werte erhalten, können sich diese nicht mehr gegenseitig aufheben.
$$\text{nächste Idee: } \sum_{i=1}^n (x_i – \bar{x})^2 $$
Für die quadrierten Abweichungen bekommen wir nun:
| \(x_i\) | \(x_i – \bar{x}\) | \((x_i – \bar{x})^2\) |
| 63 | -12 | 144 |
| 67 | -8 | 64 |
| 76 | 1 | 1 |
| 83 | 8 | 64 |
| 86 | 11 | 121 |
| \(\sum\) | 0 | 394 |
| \(x_i\) | \(x_i – \bar{x}\) | \((x_i – \bar{x})^2\) |
| 50 | -25 | 625 |
| 53 | -22 | 484 |
| 82 | 7 | 49 |
| 90 | 15 | 225 |
| 100 | 25 | 625 |
| \(\sum\) | 0 | 2008 |
Die Summen, die wir so erhalten, bezeichnet man als Summe der quadrierten Abweichungen oder oft einfach nur Quadratsummen. Auf Englisch wird diese auch Sum of Squares genannt und mit SS abgekürzt.
Es ist jetzt so, dass diese Quadratsummen größer werden, je mehr Werte wir haben. Aber nur weil eine Stichprobe mehr Werte hat, wollen wir keine größere Zahl für unser Streuungsmaß erhalten!
Dieses Problem löst man, indem wir den Durchschnitt der quadrierten Abweichungen berechnen, um eine brauchbare Maßzahl für die Streuung zu erhalten.
D.h. wir dividieren also das Ergebnis noch durch die Anzahl der Werte (= n) und haben dadurch gerade die Formel für die Varianz hergeleitet.
$$\text{Varianz:} \frac{1}{n}\sum_{i=1}^n (x_i – \bar{x})^2$$
Die Varianz ist also der Durschnitt der quadrierten Abweichungen und wird in der Regel als \(s^2 \text{ oder } \sigma^2\)bezeichnet.
Varianz Familie Statistik
$$\sigma_S^2 = \frac{1}{5} * 394 = 78.8 €^2$$
Varianz Familie Quelle
$$ \sigma_Q^2 = \frac{1}{5} * 2008 = 401.6 €^2$$
Und ja, auch wenn es komisch klingt, die Einheit ist \(€^2\)!
Da wir die einzelnen Werte quadrieren, wird auch die Einheit quadriert und somit wird die Varianz immer in der entsprechenden Einheit zum Quadrat angegeben.
Da natürlich kein Mensch weiß, was \(€^2\) sein soll, wird das Ergebnis der Varianz im Allgemeinen nicht direkt interpretiert.
Hierfür benötigen wir eine weitere Maßzahl für die Streuung, womit wir bei der Standardabweichung angelangt sind. Die Standardabweichung beschreibt die durchschnittliche Abweichung vom Mittelwert. Man erhält sie, indem man die Wurzel aus der Varianz zieht und sie hat dieselbe Einheit wie unsere Rohdaten.
Standardabweichung:
Standardabweichung Familie Statistik
Standardabweichung Familie Quelle
$$\sigma_S = \sqrt{\sigma_S^2} = \sqrt{78.8} = 8.88€$$
$$\sigma_Q = \sqrt{\sigma_Q^2} = \sqrt{401.6} = 20.04€$$
Das heißt, die durchschnittliche Streuung um den Mittelwert beträgt bei Familie Statistik ca. 9 und bei Familie Quelle ca. 20 Euro.
Achtung
Wir haben hier einen Spezialfall, da wir in beiden Gruppen denselben Mittelwert haben. Ihr müsst jedoch aufpassen, in der Regel dürft ihr 2 Standardabweichungen nicht einfach direkt miteinander vergleichen. Wenn ihr mehr dazu wissen wollt, seht euch dazu bitte den Beitrag zum Variationskoeffizienten an.
Zusätzlich muss man hier anmerken, dass die Varianz und Standardabweichung nicht robust gegenüber Ausreißern sind, da sie vom Mittelwert abhängen, welcher selbst nicht robust gegenüber Ausreißern ist.
Einfachere Formel
In unserem vorherigen Beispiel ging die Berechnung ja ziemlich einfach. Das ging aber nur, weil wir schöne Zahlen gewählt hatten. Geben wir beiden Familien jeweils noch ein Familienmitglied hinzu, welches 68 Euro ausgegeben hat, ändert sich das ganze.
Als Mittelwert erhalten wir nun \(73.8\dot{3}\). Ihr solltet bei Kommazahlen mit dem Taschenrechner natürlich immer die Werten abspeichern und mit diesen rechnen. Das macht das Ganze nun etwas komplizierter, da wir natürlich, wenn wir jetzt jeden x-Wert – dem Mittelwert rechnen, auch Kommazahlen herausbekommen. Diese Werte müssen natürlich auch alle abgespeichert werden, um keine Rundungsfehler zu machen.
Die praktischere Formel erhält man, indem man die gerade kennengelernte Formel für die Varianz etwas umformt.
$$\sigma^2 = \frac{\sum_{i=1}^n x_i^2 – n *\bar{x}^2}{n}$$
Der Unterschied zur vorherigen Version ist, dass wir nun nicht mehr die Abweichungen quadrieren, sondern direkt die zu Beginn gegebenen x-Werte. Das erspart uns einerseits einige Rechenschritte und wir haben nicht das Problem von Rundungsfehlern. Das heißt, ihr seid um einiges schneller und erhaltet einfacher das richtige Ergebnis.
Das heißt, wir quadrieren jeden x-Wert.
Familie Statistik
Familie Quelle
| \(x_i\) | \(x_i^2\) |
| 63 | 3969 |
| 67 | 4489 |
| 76 | 5776 |
| 83 | 6889 |
| 86 | 7396 |
| 68 | 4624 |
| \(\sum\) | 33143 |
| \(x_i\) | \(x_i^2\) |
| 50 | 2500 |
| 53 | 2809 |
| 82 | 6724 |
| 90 | 8100 |
| 100 | 10000 |
| 68 | 4624 |
| \(\sum\) | 34757 |
Jetzt setzten wird den Wert der erhaltenen Summe und den Mittelwert in die vereinfachte Formel ein:
$$\begin{aligned}\sigma_S^2 &= \frac{33143 – 6 *73.8\dot{3}^2}{6}\\ \sigma_S^2 &= \frac{434.8\dot{3}}{6}\\ \sigma_S^2 &\approx 72.47 \end{aligned}$$
$$\begin{aligned}\sigma_Q^2 &= \frac{34757 – 6 *73.8\dot{3}^2}{6}\\ \sigma_Q^2 &= \frac{2048.8\dot{3}}{6}\\ \sigma_Q^2 &\approx 342.47 \end{aligned}$$
Formelzusammenfassung
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^n (x_i – \bar{x})^2$$
Theoretische Formel:
Sie ist intuitiv. Man erkennt das Prinzip der quadrierten Abweichungen viel einfacher und man kann sich so, wie am Anfang des Beitrags gesehen, die Formel für die Varianz auch ganz einfach selbst herleiten.
$$\sigma^2 = \frac{\sum_{i=1}^n x_i^2 – n *\bar{x}^2}{n}$$
Formel fürs Rechnen:
Selbst bei schönen Zahlen seid ihr mit der rechentechnisch günstigen Formel schneller.
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^n x_i^2 -\bar{x}^2$$
Steinerscher Verschiebungssatz:
Diese Umformung ist eine weiter verbreitete Version, der einfacheren Formel. (Ihr seht, dass nur ein ganz kleiner Rechenschritt die beiden unterscheidet)
Varianz und Standardabweichung
- Herleitung der Formel
- Berechnung
- Interpretation
- Formel zur einfacheren Berechnung
Für dieses Thema ist es essentiell zu wissen, was der Mittelwert einer Verteilung ist.
Wie kommt man zur Varianz/ Standardabweichung?
Um euch die Idee von Varianz und Standardabweichung näherzubringen und zu zeigen, wie man die Formel herleitet, verwenden wir ein einfaches Beispiel.
Wir schauen uns hier die weihnachtlichen Geschenkausgaben von 2 Familien in Euro an. Nennen wir diese beiden Familien Familie Statistik und Familie Quelle.
Familie Statistik
63€, 67€, 76€, 83€, 86€
Familie Quelle
50€, 53€, 82€, 90€, 100€
Beide Familien geben im Schnitt 75€ für ihre Weihnachtsgeschenke aus. Wenn man nun die Verteilungen anhand der Mittelwerte begutachtet, würden wir denken, dass die Ausgaben in beiden Familien in etwa gleich sind.
$$\bar{x} = 75€$$

Schauen wir uns die Ausgaben jedoch etwas genauer an. Hier auf einem Zahlenstrahl dargestellt.
Wir sehen in dieser Darstellung, dass die Weihnachtsausgaben in beiden Familien doch sehr unterschiedlich ausfallen.
Man kann schön sehen, dass die Ausgaben von Familie Statistik näher beim Mittelwert liegen als die Ausgaben von Familie Quelle.
Die Daten von Familie Statistik weisen also eine geringere Streuung auf, da die Werte näher beisammen sind.
Wir wollen jetzt diese Streuung in Form von Abweichung vom Mittelwert mit einer Zahl beschreiben.
Um diese Zahl zu bekommen, könnten wir zuerst auf die Idee kommen, einfach den Abstand von jedem Punkt zum Mittelwert zu bestimmen und diese Werte aufzusummieren:
$$\text{erste Idee: } \sum_{i=1}^n x_i – \bar{x} $$
Der Mittelwert war 75, das heißt wir würden im Fall vom ersten Wert von Familie Statistik 63 – 75 rechnen, was -12 ergibt bzw. bei Familie Quelle 50 Minus 75, was -25 ergibt.
Wenn wir also den Abstand von jedem Wert zum Mittelwert berechnen, kommen wir auf folgende Werte:
Familie Statistik
Familie Quelle
| \(x_i\) | \(x_i – \bar{x}\) |
| 63 | -12 |
| 67 | -8 |
| 76 | 1 |
| 83 | 8 |
| 86 | 11 |
| \(x_i\) | \(x_i – \bar{x}\) |
| 50 | -25 |
| 53 | -22 |
| 82 | 7 |
| 90 | 15 |
| 100 | 25 |
Vielleicht habt ihr das Problem schon bemerkt?
Das Problem hierbei ist, dass die Summe der Abweichungen Null ergibt. Der Grund ist, dass sich positive und negative Abweichungen immer gegenseitig aufheben. Somit ist die Summe von Abweichungen immer Null und diese Rechnung erfüllt nicht unser Ziel.
Eine Möglichkeit, um dieses Problem zu umgehen ist, diese Abweichung zu quadrieren. Da wir durch das Quadrieren nur mehr positive Werte erhalten, können sich diese nicht mehr gegenseitig aufheben.
$$\text{nächste Idee: } \sum_{i=1}^n (x_i – \bar{x})^2 $$
Für die quadrierten Abweichungen bekommen wir nun:
| \(x_i\) | \(x_i – \bar{x}\) | \((x_i – \bar{x})^2\) |
| 63 | -12 | 144 |
| 67 | -8 | 64 |
| 76 | 1 | 1 |
| 83 | 8 | 64 |
| 86 | 11 | 121 |
| \(\sum\) | 0 | 394 |
| \(x_i\) | \(x_i – \bar{x}\) | \((x_i – \bar{x})^2\) |
| 50 | -25 | 625 |
| 53 | -22 | 484 |
| 82 | 7 | 49 |
| 90 | 15 | 225 |
| 100 | 25 | 625 |
| \(\sum\) | 0 | 2008 |
Die Summen, die wir so erhalten, bezeichnet man als Summe der quadrierten Abweichungen oder oft einfach nur Quadratsummen. Auf Englisch wird diese auch Sum of Squares genannt und mit SS abgekürzt.
Es ist jetzt so, dass diese Quadratsummen größer werden, je mehr Werte wir haben. Aber nur weil eine Stichprobe mehr Werte hat, wollen wir keine größere Zahl für unser Streuungsmaß erhalten!
Dieses Problem löst man, indem wir den Durchschnitt der quadrierten Abweichungen berechnen, um eine brauchbare Maßzahl für die Streuung zu erhalten.
D.h. wir dividieren also das Ergebnis noch durch die Anzahl der Werte (= n) und haben dadurch gerade die Formel für die Varianz hergeleitet.
$$\text{Varianz:} \frac{1}{n}\sum_{i=1}^n (x_i – \bar{x})^2$$
Die Varianz ist also der Durschnitt der quadrierten Abweichungen und wird in der Regel als \(s^2 \text{ oder } \sigma^2\)bezeichnet.
Varianz Familie Statistik
$$\sigma_S^2 = \frac{1}{5} * 394 = 78.8 €^2$$
Varianz Familie Quelle
$$ \sigma_Q^2 = \frac{1}{5} * 2008 = 401.6 €^2$$
Und ja, auch wenn es komisch klingt, die Einheit ist \(€^2\)!
Da wir die einzelnen Werte quadrieren, wird auch die Einheit quadriert und somit wird die Varianz immer in der entsprechenden Einheit zum Quadrat angegeben.
Da natürlich kein Mensch weiß, was \(€^2\) sein soll, wird das Ergebnis der Varianz im Allgemeinen nicht direkt interpretiert.
Hierfür benötigen wir eine weitere Maßzahl für die Streuung, womit wir bei der Standardabweichung angelangt sind. Die Standardabweichung beschreibt die durchschnittliche Abweichung vom Mittelwert. Man erhält sie, indem man die Wurzel aus der Varianz zieht und sie hat dieselbe Einheit wie unsere Rohdaten.
Standardabweichung:
Standardabweichung Familie Statistik
Standardabweichung Familie Quelle
$$\sigma_S = \sqrt{\sigma_S^2} = \sqrt{78.8} = 8.88€$$
$$\sigma_Q = \sqrt{\sigma_Q^2} = \sqrt{401.6} = 20.04€$$
Das heißt, die durchschnittliche Streuung um den Mittelwert beträgt bei Familie Statistik ca. 9 und bei Familie Quelle ca. 20 Euro.
Achtung
Wir haben hier einen Spezialfall, da wir in beiden Gruppen denselben Mittelwert haben. Ihr müsst jedoch aufpassen, in der Regel dürft ihr 2 Standardabweichungen nicht einfach direkt miteinander vergleichen. Wenn ihr mehr dazu wissen wollt, seht euch dazu bitte den Beitrag zum Variationskoeffizienten an.
Zusätzlich muss man hier anmerken, dass die Varianz und Standardabweichung nicht robust gegenüber Ausreißern sind, da sie vom Mittelwert abhängen, welcher selbst nicht robust gegenüber Ausreißern ist.
Einfachere Formel
In unserem vorherigen Beispiel ging die Berechnung ja ziemlich einfach. Das ging aber nur, weil wir schöne Zahlen gewählt hatten. Geben wir beiden Familien jeweils noch ein Familienmitglied hinzu, welches 68 Euro ausgegeben hat, ändert sich das ganze.
Als Mittelwert erhalten wir nun \(73.8\dot{3}\). Ihr solltet bei Kommazahlen mit dem Taschenrechner natürlich immer die Werten abspeichern und mit diesen rechnen. Das macht das Ganze nun etwas komplizierter, da wir natürlich, wenn wir jetzt jeden x-Wert – dem Mittelwert rechnen, auch Kommazahlen herausbekommen. Diese Werte müssen natürlich auch alle abgespeichert werden, um keine Rundungsfehler zu machen.
Die praktischere Formel erhält man, indem man die gerade kennengelernte Formel für die Varianz etwas umformt.
$$\sigma^2 = \frac{\sum_{i=1}^n x_i^2 – n *\bar{x}^2}{n}$$
Der Unterschied zur vorherigen Version ist, dass wir nun nicht mehr die Abweichungen quadrieren, sondern direkt die zu Beginn gegebenen x-Werte. Das erspart uns einerseits einige Rechenschritte und wir haben nicht das Problem von Rundungsfehlern. Das heißt, ihr seid um einiges schneller und erhaltet einfacher das richtige Ergebnis.
Das heißt, wir quadrieren jeden x-Wert.
Familie Statistik
Familie Quelle
| \(x_i\) | \(x_i^2\) |
| 63 | 3969 |
| 67 | 4489 |
| 76 | 5776 |
| 83 | 6889 |
| 86 | 7396 |
| 68 | 4624 |
| \(\sum\) | 33143 |
| \(x_i\) | \(x_i^2\) |
| 50 | 2500 |
| 53 | 2809 |
| 82 | 6724 |
| 90 | 8100 |
| 100 | 10000 |
| 68 | 4624 |
| \(\sum\) | 34757 |
Jetzt setzten wird den Wert der erhaltenen Summe und den Mittelwert in die vereinfachte Formel ein:
$$\begin{aligned}\sigma_S^2 &= \frac{33143 – 6 *73.8\dot{3}^2}{6}\\ \sigma_S^2 &= \frac{434.8\dot{3}}{6}\\ \sigma_S^2 &\approx 72.47 \end{aligned}$$
$$\begin{aligned}\sigma_Q^2 &= \frac{34757 – 6 *73.8\dot{3}^2}{6}\\ \sigma_Q^2 &= \frac{2048.8\dot{3}}{6}\\ \sigma_Q^2 &\approx 342.47 \end{aligned}$$
Formelzusammenfassung
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^n (x_i – \bar{x})^2$$
Theoretische Formel:
Sie ist intuitiv. Man erkennt das Prinzip der quadrierten Abweichungen viel einfacher und man kann sich so, wie am Anfang des Beitrags gesehen, die Formel für die Varianz auch ganz einfach selbst herleiten.
$$\sigma^2 = \frac{\sum_{i=1}^n x_i^2 – n *\bar{x}^2}{n}$$
Formel fürs Rechnen:
Selbst bei schönen Zahlen seid ihr mit der rechentechnisch günstigen Formel schneller.
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^n x_i^2 -\bar{x}^2$$
Steinerscher Verschiebungssatz:
Diese Umformung ist eine weiter verbreitete Version, der einfacheren Formel. (Ihr seht, dass nur ein ganz kleiner Rechenschritt die beiden unterscheidet)
Comment (1)
[…] dieses Thema ist es hilfreich, wenn ihr bereits über die Standardabweichung und Kovarianz Bescheid […]