Tauche ein in unsere modebewusste Statistik-Welt.
Häufigkeitstabellen
- absolute, relative und kumulierte relative Häufigkeiten bestimmen
- Notation Erklärung
- Bestimmung von Lagemaßen je Skalenniveau
Es ist hilfreich, wenn ihr bereits den Unterschied zwischen diskret und stetig kennt und auch über Skalenniveaus und Lagemaße solltet ihr Bescheid wissen.
Allgemeine Erklärung
Eine Häufigkeitstabelle, wie der Name schon sagt, stellt Häufigkeiten in tabellarischer Form dar. Genauer gesagt werden in der Regel absolute und relative Häufigkeiten aufgelistet. Die Häufigkeitstabelle hat das Ziel, Daten übersichtlicher darzustellen und ist eine geeignete Darstellungsform für kategoriale bzw. metrische Variablen.
Vorweg schon einmal ein wichtiger Punkt dazu: Durch die übersichtlichere Darstellung und bessere Lesbarkeit der Daten nehmen wir einen Informationsverlust in Kauf. Später dazu mehr.
Häufigkeiten bestimmen – Beispiel
Vor allem kategoriale Variablen lassen sich äußerst gut in Form einer Häufigkeitstabelle darstellen.
| Studium | absolute Häufigkeit |
| BWL | 260 |
| Medizin | 180 |
| Psychologie | 220 |
| Informatik | 140 |
| Summe | 800 |
Hier haben wir ein Beispiel für eine nominalskalierte Variable. Wir haben hier die absoluten Häufigkeiten gegeben. D.h. wir haben hier aufgeschrieben, wie viele Studenten es in der jeweiligen Studienrichtung gibt. Es gibt zum Beispiel 220 Personen, die Psychologie studieren.
Meistens zeigen Häufigkeitstabellen die absolute, die relative und die kumulierte relative Häufigkeit.
Also müssen wir die relative Häufigkeit noch bestimmen und diese dann noch kumulieren.
Die relative Häufigkeit erhält man, in dem man die absolute Häufigkeit durch den Umfang der Stichprobe dividiert. Der Umfang der Stichprobe ist, wie viele Leute insgesamt in der Stichprobe vorkommen. Diesen Wert (den wir mit n bezeichnen) bekommt man durch das Aufsummieren der absoluten Häufigkeiten. (\(n=800\))
$$rel.H. = \frac{abs.H.}{n} $$
Die relative Häufigkeit von BWL berechnen wir so:
$$rel.H._{BWL} = \frac{abs.H._{BWL}}{n} = \frac{260}{800} = 0.325$$
Das machen wir jetzt für alle Kategorien und tragen die relativen Häufigkeiten in die Tabelle ein.
| Studium | absolute Häufigkeit | relative Häufigkeit |
| BWL | 260 | 0.325 |
| Medizin | 180 | 0.225 |
| Psychologie | 220 | 0.275 |
| Informatik | 140 | 0.175 |
| Summe | 800 | 1 |
Als Test, ob ihr richtig gerechnet habt, könnt ihr die Summe der relativen Häufigkeiten berechnen. Diese muss immer 1 ergeben.
Das ist so, weil alle Kategorien zusammen ja 100% der Leute in der Stichprobe beinhalten.
Die relative Häufigkeit beschreibt den Anteil der Person, die ein bestimmtes Fach studieren. Z.B. studieren 27,5% der Personen Psychologie.
Die kumulierte relative Häufigkeit bekommt man, indem man die relativen Häufigkeiten nach und nach summiert. Die kumulierte relative Häufigkeit von Medizin und BWL ist z.B. 0.325+0.225 = 0.55. Das bedeutet 55% der Personen studieren entweder BWL oder Medizin.
Die restlichen kumulierten relativen Häufigkeiten berechnen wir genauso und vervollständigen damit die Tabelle.
| Studium | absolute Häufigkeit | relative Häufigkeit | kumulierte relative Häufigkeit |
| BWL | 260 | 0.325 | 0.325 |
| Medizin | 180 | 0.225 | 0.55 |
| Psychologie | 220 | 0.275 | 0.825 |
| Informatik | 140 | 0.175 | 1.000 |
| Summe | 800 | 1 |
Ein wichtiger Punkt ist, bei nominalskalierten Variablen ist die kumulierte relative Häufigkeit nicht immer sinnvoll, da sie eigentlich eine Reihung voraussetzt und die Ausprägungen bei einer Nominalskala beliebig gereiht werden können. Trotzdem wird sie oftmals bei einer Häufigkeitstabelle zusätzlich angegeben.
Hier als Beispiel noch eine Häufigkeitstabelle einer ordinalskalierten Variable:
| Zufriedenheit | absolute Häufigkeit | relative Häufigkeit | kumulierte relative Häufigkeit |
| sehr zufrieden | 200 | 0.40 | 0.40 |
| eher zufrieden | 140 | 0.28 | 0.68 |
| eher nicht zufrieden | 100 | 0.20 | 0.88 |
| nicht zufrieden | 60 | 0.17 | 1.00 |
| Summe | 500 | 1 |
Notation
Die absolute Häufigkeit gibt die Anzahl oder Häufigkeit einer Ausprägung an, also wie oft etwas vorgekommen ist. Wir bezeichnen sie mit \(f_i\).
Die relative Häufigkeit stellt den Anteil gemessen an der Gesamtzahl dar, also wie viel Prozent eine Kategorie ausmacht und wird bei uns mit \(h_i\) gekennzeichnet.
Und die kumulierte relative Häufigkeit zeigt den Anteil dieser Ausprägung plus aller niedrigeren an. Also den Anteil aller bis inklusive der entsprechenden Ausprägung. Kumulierte Werte werden bei uns immer mit Großbuchstaben gekennzeichnet, also verwenden wir \(H_i\).
Ein wichtiger Punkt zu Notation allgemein ist, dass diese vollkommen willkürlich ist. Wie Werte oder Zahlen bezeichnet werden, kann beliebig gewählt werden. Für die meisten Kennzahlen gibt es zwar starke Konventionen, aber das ist nicht immer der Fall. Das hat zur Folge, dass es in verschiedenen Bereichen in der Statistik deutlich unterschiedliche Notationen geben kann. Auch bei absoluten und relativen Häufigkeiten ist dies der Fall.
Es wird nämlich auch oft \(h_i\) für die absolute und \(f_i\) für die relative Häufigkeit verwendet. Also genau umgekehrt. Das kann leider zu Verwirrung führen, aber daher ist es wichtig, aufmerksam zu lesen/zuzuhören, was genau jemand mit einem Buchstaben meint.
Die Formel für die relativen Häufigkeiten können wir mit unserer Notation jetzt folgendermaßen aufschreiben:
$$h_i = \frac{f_i}{n} $$
Lagemaße
nominalskalierten Variable
Bei einer nominalskalierten Variable könnt ihr als Lagemaß nur den Modus bestimmen. Der Modalwert ist ja bekanntlich der häufigste Wert der vorkommt und daher muss man nur schauen, bei welcher Ausprägung ihr die höchste absolute bzw. relative Häufigkeit habt. Das ist in unserem Beispiel von oben BWL mit 260 Personen oder einem Anteil von 0.325 die häufigste Ausprägung. Wichtig ist, der Modus ist jetzt nicht 260 oder 0.325, sondern der Modus ist BWL. Ihr müsst bitte immer die entsprechende Ausprägung angeben und nicht wie oft diese aufgetreten ist.
$$Modus = BWL $$
ordinalskalierten Variable
Bei einer ordinalskalierten Variable lässt sich der Modus auf dieselbe Art ermitteln. Dieser ist „sehr zufrieden“ im ordinalskalierten Beispiel.
Ihr könnt zudem aber auch den Median sehr einfach ablesen. Wie ihr wisst, ist der Median das 50%-Quantil. Somit müsst ihr bei den kumulierten relativen Häufigkeiten nur schauen, wo 50% zum ersten Mal überschritten wird. Bei der ersten Kategorie ist das mit 0,4 noch nicht der Fall. Aber mit der zweiten Kategorie wird mit 0,68 die 50%-Marke überschritten. Somit befindet sich der Median in dieser Kategorie und ist in unserem Fall „eher zufrieden“. Die 0.68 bedeuten, dass 68% mindestens eher zufrieden sind, also eher oder sehr zufrieden. Hier sind die kumulierten relativen Häufigkeiten nun sinnvoller, da unsere Kategorien einer Ordnung folgen. Ihr könnt übrigens jedes andere Quantil auf dieselbe Art und Weise bestimmen. Wenn ihr das 3. Quartil, also \(Q_3\) oder das 75%-Quantil bestimmen wollt, müsst ihr nur bei den kumulierten relativen Häufigkeiten schauen, wo wir 0,75 das erste Mal überschreiten. Das ist bei 0,88 der Fall und somit ist „eher nicht zufrieden“ das dritte Quartil.
$$Modus = \text{sehr zufrieden} \quad Median = \text{eher zufrieden} \quad Q_3 = \text{eher nicht zufrieden}$$
Metrische Variablen
Bei metrischen Variablen gibt es Unterschiede in der Darstellung von diskreten und stetigen Merkmalen.
| Anzahl Kinder | absolute Häufigkeit | relative Häufigkeit | kumulierte relative Häufigkeit |
| 0 | 120 | 0.30 | 0.30 |
| 1 | 160 | 0.40 | 0.70 |
| 2 | 80 | 0.20 | 0.90 |
| 3 | 30 | 0.0725 | 0.975 |
| 4 | 10 | 0.025 | 1.00 |
| Summe | 400 | 1 |
Diskrete Variablen sind bekanntlich abzählbar und somit können wir jeder Ausprägung eine Häufigkeit zuordnen. Eine Häufigkeitstabelle ist bei diskreten Variablen aber nur dann sinnvoll, wenn ihr nicht zu viele Ausprägungen habt. Ansonsten wird die Tabelle zu unübersichtlich.
Stetige Variablen werden in Intervallen angegeben und wir bestimmen die Häufigkeit für das entsprechende Intervall. Da wir hier die Variable in Klassen einteilen, werden diese auch häufig klassierte Daten genannt und diese Klassen müssen nicht zwingend gleich groß sein. Es ist natürlich auch möglich, eine ursprünglich diskrete Variable in Klassen einzuteilen.
| Gewicht | absolute Häufigkeit | relative Häufigkeit | kumulierte relative Häufigkeit |
| [50,65) | 30 | 0.15 | 0.15 |
| [65,75) | 50 | 0.25 | 0.40 |
| [75,85) | 70 | 0.35 | 0.75 |
| [85,100) | 10 | 0.20 | 0.95 |
| [100,150) | 10 | 0.05 | 1.00 |
| Summe | 200 | 1 |
Bei metrischen Variablen können jetzt nicht nur Modus und Median, sondern auch der Mittelwert bestimmt werden.
Am Beispiel der Häufigkeitstabelle mit der diskreten Variable werden wir diese jetzt bestimmen:
$$Modus = 1 \quad \quad Median = 1$$
Nach derselben Vorgehensweise wie vorher schon gezeigt.
Der Mittelwert kann aus einer Häufigkeitstabelle auf 2 Arten bestimmt werden.
$$\begin{align}\bar{x} &= \frac{\sum_{i=1}^n x_i \cdot f_i}{n}\\ \bar{x} &= \frac{0\cdot 120+1\cdot 160+2\cdot 80+3\cdot 30+4\cdot 10}{400}\\ \bar{x} &= \frac{450}{400} = 1.125\end{align}$$
$$\begin{align}\bar{x} &= \sum_{i=1}^n x_i \cdot h_i\\ \bar{x} &= 0\cdot 0.3+1\cdot 0.4+2\cdot 0.2+3\cdot 0.0725+4\cdot 0.025\\ \bar{x} &= 1.125\end{align}$$
Die beiden Methoden sind natürlich äquivalent und ergeben, dass der Median 1.125 ist.
Häufigkeitstabellen
- absolute, relative und kumulierte relative Häufigkeiten bestimmen
- Notation Erklärung
- Bestimmung von Lagemaßen je Skalenniveau
Es ist hilfreich, wenn ihr bereits den Unterschied zwischen diskret und stetig kennt und auch über Skalenniveaus und Lagemaße solltet ihr Bescheid wissen.
Allgemeine Erklärung
Eine Häufigkeitstabelle, wie der Name schon sagt, stellt Häufigkeiten in tabellarischer Form dar. Genauer gesagt werden in der Regel absolute und relative Häufigkeiten aufgelistet. Die Häufigkeitstabelle hat das Ziel, Daten übersichtlicher darzustellen und ist eine geeignete Darstellungsform für kategoriale bzw. metrische Variablen.
Vorweg schon einmal ein wichtiger Punkt dazu: Durch die übersichtlichere Darstellung und bessere Lesbarkeit der Daten nehmen wir einen Informationsverlust in Kauf. Später dazu mehr.
Häufigkeiten bestimmen – Beispiel
Vor allem kategoriale Variablen lassen sich äußerst gut in Form einer Häufigkeitstabelle darstellen.
| Studium | absolute Häufigkeit |
| BWL | 260 |
| Medizin | 180 |
| Psychologie | 220 |
| Informatik | 140 |
| Summe | 800 |
Hier haben wir ein Beispiel für eine nominalskalierte Variable. Wir haben hier die absoluten Häufigkeiten gegeben. D.h. wir haben hier aufgeschrieben, wie viele Studenten es in der jeweiligen Studienrichtung gibt. Es gibt zum Beispiel 220 Personen, die Psychologie studieren.
Meistens zeigen Häufigkeitstabellen die absolute, die relative und die kumulierte relative Häufigkeit.
Also müssen wir die relative Häufigkeit noch bestimmen und diese dann noch kumulieren.
Die relative Häufigkeit erhält man, in dem man die absolute Häufigkeit durch den Umfang der Stichprobe dividiert. Der Umfang der Stichprobe ist, wie viele Leute insgesamt in der Stichprobe vorkommen. Diesen Wert (den wir mit n bezeichnen) bekommt man durch das Aufsummieren der absoluten Häufigkeiten. (\(n=800\))
$$rel.H. = \frac{abs.H.}{n} $$
Die relative Häufigkeit von BWL berechnen wir so:
$$rel.H._{BWL} = \frac{abs.H._{BWL}}{n} = \frac{260}{800} = 0.325$$
Das machen wir jetzt für alle Kategorien und tragen die relativen Häufigkeiten in die Tabelle ein.
| Studium | absolute Häufigkeit | relative Häufigkeit |
| BWL | 260 | 0.325 |
| Medizin | 180 | 0.225 |
| Psychologie | 220 | 0.275 |
| Informatik | 140 | 0.175 |
| Summe | 800 | 1 |
Als Test, ob ihr richtig gerechnet habt, könnt ihr die Summe der relativen Häufigkeiten berechnen. Diese muss immer 1 ergeben.
Das ist so, weil alle Kategorien zusammen ja 100% der Leute in der Stichprobe beinhalten.
Die relative Häufigkeit beschreibt den Anteil der Person, die ein bestimmtes Fach studieren. Z.B. studieren 27,5% der Personen Psychologie.
Die kumulierte relative Häufigkeit bekommt man, indem man die relativen Häufigkeiten nach und nach summiert. Die kumulierte relative Häufigkeit von Medizin und BWL ist z.B. 0.325+0.225 = 0.55. Das bedeutet 55% der Personen studieren entweder BWL oder Medizin.
Die restlichen kumulierten relativen Häufigkeiten berechnen wir genauso und vervollständigen damit die Tabelle.
| Studium | absolute Häufigkeit | relative Häufigkeit | kumulierte relative Häufigkeit |
| BWL | 260 | 0.325 | 0.325 |
| Medizin | 180 | 0.225 | 0.55 |
| Psychologie | 220 | 0.275 | 0.825 |
| Informatik | 140 | 0.175 | 1.000 |
| Summe | 800 | 1 |
Ein wichtiger Punkt ist, bei nominalskalierten Variablen ist die kumulierte relative Häufigkeit nicht immer sinnvoll, da sie eigentlich eine Reihung voraussetzt und die Ausprägungen bei einer Nominalskala beliebig gereiht werden können. Trotzdem wird sie oftmals bei einer Häufigkeitstabelle zusätzlich angegeben.
Hier als Beispiel noch eine Häufigkeitstabelle einer ordinalskalierten Variable:
| Zufriedenheit | absolute Häufigkeit | relative Häufigkeit | kumulierte relative Häufigkeit |
| sehr zufrieden | 200 | 0.40 | 0.40 |
| eher zufrieden | 140 | 0.28 | 0.68 |
| eher nicht zufrieden | 100 | 0.20 | 0.88 |
| nicht zufrieden | 60 | 0.17 | 1.00 |
| Summe | 500 | 1 |
Notation
Die absolute Häufigkeit gibt die Anzahl oder Häufigkeit einer Ausprägung an, also wie oft etwas vorgekommen ist. Wir bezeichnen sie mit \(f_i\).
Die relative Häufigkeit stellt den Anteil gemessen an der Gesamtzahl dar, also wie viel Prozent eine Kategorie ausmacht und wird bei uns mit \(h_i\) gekennzeichnet.
Und die kumulierte relative Häufigkeit zeigt den Anteil dieser Ausprägung plus aller niedrigeren an. Also den Anteil aller bis inklusive der entsprechenden Ausprägung. Kumulierte Werte werden bei uns immer mit Großbuchstaben gekennzeichnet, also verwenden wir \(H_i\).
Ein wichtiger Punkt zu Notation allgemein ist, dass diese vollkommen willkürlich ist. Wie Werte oder Zahlen bezeichnet werden, kann beliebig gewählt werden. Für die meisten Kennzahlen gibt es zwar starke Konventionen, aber das ist nicht immer der Fall. Das hat zur Folge, dass es in verschiedenen Bereichen in der Statistik deutlich unterschiedliche Notationen geben kann. Auch bei absoluten und relativen Häufigkeiten ist dies der Fall.
Es wird nämlich auch oft \(h_i\) für die absolute und \(f_i\) für die relative Häufigkeit verwendet. Also genau umgekehrt. Das kann leider zu Verwirrung führen, aber daher ist es wichtig, aufmerksam zu lesen/zuzuhören, was genau jemand mit einem Buchstaben meint.
Die Formel für die relativen Häufigkeiten können wir mit unserer Notation jetzt folgendermaßen aufschreiben:
$$h_i = \frac{f_i}{n} $$
Lagemaße
nominalskalierten Variable
Bei einer nominalskalierten Variable könnt ihr als Lagemaß nur den Modus bestimmen. Der Modalwert ist ja bekanntlich der häufigste Wert der vorkommt und daher muss man nur schauen, bei welcher Ausprägung ihr die höchste absolute bzw. relative Häufigkeit habt. Das ist in unserem Beispiel von oben BWL mit 260 Personen oder einem Anteil von 0.325 die häufigste Ausprägung. Wichtig ist, der Modus ist jetzt nicht 260 oder 0.325, sondern der Modus ist BWL. Ihr müsst bitte immer die entsprechende Ausprägung angeben und nicht wie oft diese aufgetreten ist.
$$Modus = BWL $$
ordinalskalierten Variable
Bei einer ordinalskalierten Variable lässt sich der Modus auf dieselbe Art ermitteln. Dieser ist „sehr zufrieden“ im ordinalskalierten Beispiel.
Ihr könnt zudem aber auch den Median sehr einfach ablesen. Wie ihr wisst, ist der Median das 50%-Quantil. Somit müsst ihr bei den kumulierten relativen Häufigkeiten nur schauen, wo 50% zum ersten Mal überschritten wird. Bei der ersten Kategorie ist das mit 0,4 noch nicht der Fall. Aber mit der zweiten Kategorie wird mit 0,68 die 50%-Marke überschritten. Somit befindet sich der Median in dieser Kategorie und ist in unserem Fall „eher zufrieden“. Die 0.68 bedeuten, dass 68% mindestens eher zufrieden sind, also eher oder sehr zufrieden. Hier sind die kumulierten relativen Häufigkeiten nun sinnvoller, da unsere Kategorien einer Ordnung folgen. Ihr könnt übrigens jedes andere Quantil auf dieselbe Art und Weise bestimmen. Wenn ihr das 3. Quartil, also \(Q_3\) oder das 75%-Quantil bestimmen wollt, müsst ihr nur bei den kumulierten relativen Häufigkeiten schauen, wo wir 0,75 das erste Mal überschreiten. Das ist bei 0,88 der Fall und somit ist „eher nicht zufrieden“ das dritte Quartil.
$$Modus = \text{sehr zufrieden} \quad Median = \text{eher zufrieden} \quad Q_3 = \text{eher nicht zufrieden}$$
Metrische Variablen
Bei metrischen Variablen gibt es Unterschiede in der Darstellung von diskreten und stetigen Merkmalen.
| Anzahl Kinder | absolute Häufigkeit | relative Häufigkeit | kumulierte relative Häufigkeit |
| 0 | 120 | 0.30 | 0.30 |
| 1 | 160 | 0.40 | 0.70 |
| 2 | 80 | 0.20 | 0.90 |
| 3 | 30 | 0.0725 | 0.975 |
| 4 | 10 | 0.025 | 1.00 |
| Summe | 400 | 1 |
Diskrete Variablen sind bekanntlich abzählbar und somit können wir jeder Ausprägung eine Häufigkeit zuordnen. Eine Häufigkeitstabelle ist bei diskreten Variablen aber nur dann sinnvoll, wenn ihr nicht zu viele Ausprägungen habt. Ansonsten wird die Tabelle zu unübersichtlich.
Stetige Variablen werden in Intervallen angegeben und wir bestimmen die Häufigkeit für das entsprechende Intervall. Da wir hier die Variable in Klassen einteilen, werden diese auch häufig klassierte Daten genannt und diese Klassen müssen nicht zwingend gleich groß sein. Es ist natürlich auch möglich, eine ursprünglich diskrete Variable in Klassen einzuteilen.
| Gewicht | absolute Häufigkeit | relative Häufigkeit | kumulierte relative Häufigkeit |
| [50,65) | 30 | 0.15 | 0.15 |
| [65,75) | 50 | 0.25 | 0.40 |
| [75,85) | 70 | 0.35 | 0.75 |
| [85,100) | 10 | 0.20 | 0.95 |
| [100,150) | 10 | 0.05 | 1.00 |
| Summe | 200 | 1 |
Bei metrischen Variablen können jetzt nicht nur Modus und Median, sondern auch der Mittelwert bestimmt werden.
Am Beispiel der Häufigkeitstabelle mit der diskreten Variable werden wir diese jetzt bestimmen:
$$Modus = 1 \quad \quad Median = 1$$
Nach derselben Vorgehensweise wie vorher schon gezeigt.
Der Mittelwert kann aus einer Häufigkeitstabelle auf 2 Arten bestimmt werden.
$$\begin{align}\bar{x} &= \frac{\sum_{i=1}^n x_i \cdot f_i}{n}\\ \bar{x} &= \frac{0\cdot 120+1\cdot 160+2\cdot 80+3\cdot 30+4\cdot 10}{400}\\ \bar{x} &= \frac{450}{400} = 1.125\end{align}$$
$$\begin{align}\bar{x} &= \sum_{i=1}^n x_i \cdot h_i\\ \bar{x} &= 0\cdot 0.3+1\cdot 0.4+2\cdot 0.2+3\cdot 0.0725+4\cdot 0.025\\ \bar{x} &= 1.125\end{align}$$
Die beiden Methoden sind natürlich äquivalent und ergeben, dass der Median 1.125 ist.
Comment (1)
[…] Häufigkeitstabellen […]