Kategorien

Tauche ein in unsere modebewusste Statistik-Welt.

Häufigkeitstabellen

  • absolute, relative und kumulierte relative Häufigkeiten bestimmen
  • Notation Erklärung
  • Bestimmung von Lagemaßen je Skalenniveau

Es ist hilfreich, wenn ihr bereits den Unterschied zwischen diskret und stetig kennt und auch über Skalenniveaus und Lagemaße solltet ihr Bescheid wissen.

Allgemeine Erklärung

Eine Häufigkeitstabelle, wie der Name schon sagt, stellt Häufigkeiten in tabellarischer Form dar. Genauer gesagt werden in der Regel absolute und relative Häufigkeiten aufgelistet. Die Häufigkeitstabelle hat das Ziel, Daten übersichtlicher darzustellen und ist eine geeignete Darstellungsform für kategoriale bzw. metrische Variablen.

Vorweg schon einmal ein wichtiger Punkt dazu: Durch die übersichtlichere Darstellung und bessere Lesbarkeit der Daten nehmen wir einen Informationsverlust in Kauf. Später dazu mehr.

Häufigkeiten bestimmen – Beispiel

Vor allem kategoriale Variablen lassen sich äußerst gut in Form einer Häufigkeitstabelle darstellen.

Studiumabsolute Häufigkeit
BWL260
Medizin180
Psychologie220
Informatik140
Summe800
Anfang einer Häufigkeitstabelle mit nominalskalierter Variable

Hier haben wir ein Beispiel für eine nominalskalierte Variable. Wir haben hier die absoluten Häufigkeiten gegeben. D.h. wir haben hier aufgeschrieben, wie viele Studenten es in der jeweiligen Studienrichtung gibt.  Es gibt zum Beispiel 220 Personen, die Psychologie studieren.

Meistens zeigen Häufigkeitstabellen die absolute, die relative und die kumulierte relative Häufigkeit.

Also müssen wir die relative Häufigkeit noch bestimmen und diese dann noch kumulieren.

Die relative Häufigkeit erhält man, in dem man die absolute Häufigkeit durch den Umfang der Stichprobe dividiert. Der Umfang der Stichprobe ist, wie viele Leute insgesamt in der Stichprobe vorkommen. Diesen Wert (den wir mit n bezeichnen) bekommt man durch das Aufsummieren der absoluten Häufigkeiten. (\(n=800\))

$$rel.H. = \frac{abs.H.}{n} $$

Die relative Häufigkeit von BWL berechnen wir so:

$$rel.H._{BWL} = \frac{abs.H._{BWL}}{n} = \frac{260}{800} = 0.325$$

Das machen wir jetzt für alle Kategorien und tragen die relativen Häufigkeiten in die Tabelle ein.

Studiumabsolute Häufigkeitrelative Häufigkeit
BWL2600.325
Medizin1800.225
Psychologie2200.275
Informatik1400.175
Summe8001
Hälfte einer Häufigkeitstabelle mit nominalskalierter Variable

Als Test, ob ihr richtig gerechnet habt, könnt ihr die Summe der relativen Häufigkeiten berechnen. Diese muss immer 1 ergeben.
Das ist so, weil alle Kategorien zusammen ja 100% der Leute in der Stichprobe beinhalten.

Die relative Häufigkeit beschreibt den Anteil der Person, die ein bestimmtes Fach studieren. Z.B. studieren 27,5% der Personen Psychologie.

Die kumulierte relative Häufigkeit bekommt man, indem man die relativen Häufigkeiten nach und nach summiert. Die kumulierte relative Häufigkeit von Medizin und BWL ist z.B. 0.325+0.225 = 0.55. Das bedeutet 55% der Personen studieren entweder BWL oder Medizin.
Die restlichen kumulierten relativen Häufigkeiten berechnen wir genauso und vervollständigen damit die Tabelle.

Studiumabsolute Häufigkeitrelative Häufigkeitkumulierte relative Häufigkeit
BWL2600.3250.325
Medizin1800.2250.55
Psychologie2200.2750.825
Informatik1400.1751.000
Summe8001
fertige Häufigkeitstabelle mit nominalskalierter Variable

Ein wichtiger Punkt ist, bei nominalskalierten Variablen ist die kumulierte relative Häufigkeit nicht immer sinnvoll, da sie eigentlich eine Reihung voraussetzt und die Ausprägungen bei einer Nominalskala beliebig gereiht werden können. Trotzdem wird sie oftmals bei einer Häufigkeitstabelle zusätzlich angegeben.

Hier als Beispiel noch eine Häufigkeitstabelle einer ordinalskalierten Variable:

Zufriedenheitabsolute Häufigkeitrelative Häufigkeitkumulierte relative Häufigkeit
sehr zufrieden2000.400.40
eher zufrieden1400.280.68
eher nicht zufrieden1000.200.88
nicht zufrieden600.171.00
Summe5001
Häufigkeitstabelle mit ordinalskalierter Variable

Notation

Die absolute Häufigkeit gibt die Anzahl oder Häufigkeit einer Ausprägung an, also wie oft etwas vorgekommen ist. Wir bezeichnen sie mit \(f_i\).

Die relative Häufigkeit stellt den Anteil gemessen an der Gesamtzahl dar, also wie viel Prozent eine Kategorie ausmacht und wird bei uns mit \(h_i\) gekennzeichnet.

Und die kumulierte relative Häufigkeit zeigt den Anteil dieser Ausprägung plus aller niedrigeren an. Also den Anteil aller bis inklusive der entsprechenden Ausprägung. Kumulierte Werte werden bei uns immer mit Großbuchstaben gekennzeichnet, also verwenden wir \(H_i\).

Ein wichtiger Punkt zu Notation allgemein ist, dass diese vollkommen willkürlich ist. Wie Werte oder Zahlen bezeichnet werden, kann beliebig gewählt werden. Für die meisten Kennzahlen gibt es zwar starke Konventionen, aber das ist nicht immer der Fall. Das hat zur Folge, dass es in verschiedenen Bereichen in der Statistik deutlich unterschiedliche Notationen geben kann. Auch bei absoluten und relativen Häufigkeiten ist dies der Fall.
Es wird nämlich auch oft \(h_i\) für die absolute und \(f_i\) für die relative Häufigkeit verwendet. Also genau umgekehrt. Das kann leider zu Verwirrung führen, aber daher ist es wichtig, aufmerksam zu lesen/zuzuhören, was genau jemand mit einem Buchstaben meint.

Die Formel für die relativen Häufigkeiten können wir mit unserer Notation jetzt folgendermaßen aufschreiben:

$$h_i = \frac{f_i}{n} $$

Lagemaße

nominalskalierten Variable

Bei einer nominalskalierten Variable könnt ihr als Lagemaß nur den Modus bestimmen. Der Modalwert ist ja bekanntlich der häufigste Wert der vorkommt und daher muss man nur schauen, bei welcher Ausprägung ihr die höchste absolute bzw. relative Häufigkeit habt. Das ist in unserem Beispiel von oben BWL mit 260 Personen oder einem Anteil von 0.325 die häufigste Ausprägung. Wichtig ist, der Modus ist jetzt nicht 260 oder 0.325, sondern der Modus ist BWL. Ihr müsst bitte immer die entsprechende Ausprägung angeben und nicht wie oft diese aufgetreten ist.

$$Modus = BWL $$

ordinalskalierten Variable

Bei einer ordinalskalierten Variable lässt sich der Modus auf dieselbe Art ermitteln. Dieser ist „sehr zufrieden“ im ordinalskalierten Beispiel.
Ihr könnt zudem aber auch den Median sehr einfach ablesen. Wie ihr wisst, ist der Median das 50%-Quantil. Somit müsst ihr bei den kumulierten relativen Häufigkeiten nur schauen, wo 50% zum ersten Mal überschritten wird. Bei der ersten Kategorie ist das mit 0,4 noch nicht der Fall. Aber mit der zweiten Kategorie wird mit 0,68 die 50%-Marke überschritten. Somit befindet sich der Median in dieser Kategorie und ist in unserem Fall „eher zufrieden“. Die 0.68 bedeuten, dass 68% mindestens eher zufrieden sind, also eher oder sehr zufrieden. Hier sind die kumulierten relativen Häufigkeiten nun sinnvoller, da unsere Kategorien einer Ordnung folgen. Ihr könnt übrigens jedes andere Quantil auf dieselbe Art und Weise bestimmen. Wenn ihr das 3. Quartil, also \(Q_3\) oder das 75%-Quantil bestimmen wollt, müsst ihr nur bei den kumulierten relativen Häufigkeiten schauen, wo wir 0,75 das erste Mal überschreiten. Das ist bei 0,88 der Fall und somit ist „eher nicht zufrieden“ das dritte Quartil.

$$Modus = \text{sehr zufrieden} \quad Median = \text{eher zufrieden} \quad Q_3 = \text{eher nicht zufrieden}$$

Metrische Variablen

Bei metrischen Variablen gibt es Unterschiede in der Darstellung von diskreten und stetigen Merkmalen.

Anzahl Kinderabsolute Häufigkeitrelative Häufigkeitkumulierte relative Häufigkeit
01200.300.30
11600.400.70
2800.200.90
3300.07250.975
4100.0251.00
Summe4001
Häufigkeitstabelle mit metrisch diskreter Variable

Diskrete Variablen sind bekanntlich abzählbar und somit können wir jeder Ausprägung eine Häufigkeit zuordnen. Eine Häufigkeitstabelle ist bei diskreten Variablen aber nur dann sinnvoll, wenn ihr nicht zu viele Ausprägungen habt. Ansonsten wird die Tabelle zu unübersichtlich.

Stetige Variablen werden in Intervallen angegeben und wir bestimmen die Häufigkeit für das entsprechende Intervall. Da wir hier die Variable in Klassen einteilen, werden diese auch häufig klassierte Daten genannt und diese Klassen müssen nicht zwingend gleich groß sein. Es ist natürlich auch möglich, eine ursprünglich diskrete Variable in Klassen einzuteilen.

Gewichtabsolute Häufigkeitrelative Häufigkeitkumulierte relative Häufigkeit
[50,65)300.150.15
[65,75)500.250.40
[75,85)700.350.75
[85,100)100.200.95
[100,150)100.051.00
Summe2001
Häufigkeitstabelle mit metrisch stetiger Variable

Bei metrischen Variablen können jetzt nicht nur Modus und Median, sondern auch der Mittelwert bestimmt werden.

Am Beispiel der Häufigkeitstabelle mit der diskreten Variable werden wir diese jetzt bestimmen:

$$Modus = 1 \quad \quad Median = 1$$

Nach derselben Vorgehensweise wie vorher schon gezeigt.

Der Mittelwert kann aus einer Häufigkeitstabelle auf 2 Arten bestimmt werden.

$$\begin{align}\bar{x} &= \frac{\sum_{i=1}^n x_i \cdot f_i}{n}\\ \bar{x} &= \frac{0\cdot 120+1\cdot 160+2\cdot 80+3\cdot 30+4\cdot 10}{400}\\ \bar{x} &= \frac{450}{400} = 1.125\end{align}$$

$$\begin{align}\bar{x} &= \sum_{i=1}^n x_i \cdot h_i\\ \bar{x} &= 0\cdot 0.3+1\cdot 0.4+2\cdot 0.2+3\cdot 0.0725+4\cdot 0.025\\ \bar{x} &= 1.125\end{align}$$

Die beiden Methoden sind natürlich äquivalent und ergeben, dass der Median 1.125 ist.

Häufigkeitstabellen

  • absolute, relative und kumulierte relative Häufigkeiten bestimmen
  • Notation Erklärung
  • Bestimmung von Lagemaßen je Skalenniveau

Es ist hilfreich, wenn ihr bereits den Unterschied zwischen diskret und stetig kennt und auch über Skalenniveaus und Lagemaße solltet ihr Bescheid wissen.

Allgemeine Erklärung

Eine Häufigkeitstabelle, wie der Name schon sagt, stellt Häufigkeiten in tabellarischer Form dar. Genauer gesagt werden in der Regel absolute und relative Häufigkeiten aufgelistet. Die Häufigkeitstabelle hat das Ziel, Daten übersichtlicher darzustellen und ist eine geeignete Darstellungsform für kategoriale bzw. metrische Variablen.

Vorweg schon einmal ein wichtiger Punkt dazu: Durch die übersichtlichere Darstellung und bessere Lesbarkeit der Daten nehmen wir einen Informationsverlust in Kauf. Später dazu mehr.

Häufigkeiten bestimmen – Beispiel

Vor allem kategoriale Variablen lassen sich äußerst gut in Form einer Häufigkeitstabelle darstellen.

Studiumabsolute Häufigkeit
BWL260
Medizin180
Psychologie220
Informatik140
Summe800
Anfang einer Häufigkeitstabelle mit nominalskalierter Variable

Hier haben wir ein Beispiel für eine nominalskalierte Variable. Wir haben hier die absoluten Häufigkeiten gegeben. D.h. wir haben hier aufgeschrieben, wie viele Studenten es in der jeweiligen Studienrichtung gibt.  Es gibt zum Beispiel 220 Personen, die Psychologie studieren.

Meistens zeigen Häufigkeitstabellen die absolute, die relative und die kumulierte relative Häufigkeit.

Also müssen wir die relative Häufigkeit noch bestimmen und diese dann noch kumulieren.

Die relative Häufigkeit erhält man, in dem man die absolute Häufigkeit durch den Umfang der Stichprobe dividiert. Der Umfang der Stichprobe ist, wie viele Leute insgesamt in der Stichprobe vorkommen. Diesen Wert (den wir mit n bezeichnen) bekommt man durch das Aufsummieren der absoluten Häufigkeiten. (\(n=800\))

$$rel.H. = \frac{abs.H.}{n} $$

Die relative Häufigkeit von BWL berechnen wir so:

$$rel.H._{BWL} = \frac{abs.H._{BWL}}{n} = \frac{260}{800} = 0.325$$

Das machen wir jetzt für alle Kategorien und tragen die relativen Häufigkeiten in die Tabelle ein.

Studiumabsolute Häufigkeitrelative Häufigkeit
BWL2600.325
Medizin1800.225
Psychologie2200.275
Informatik1400.175
Summe8001
Hälfte einer Häufigkeitstabelle mit nominalskalierter Variable

Als Test, ob ihr richtig gerechnet habt, könnt ihr die Summe der relativen Häufigkeiten berechnen. Diese muss immer 1 ergeben.
Das ist so, weil alle Kategorien zusammen ja 100% der Leute in der Stichprobe beinhalten.

Die relative Häufigkeit beschreibt den Anteil der Person, die ein bestimmtes Fach studieren. Z.B. studieren 27,5% der Personen Psychologie.

Die kumulierte relative Häufigkeit bekommt man, indem man die relativen Häufigkeiten nach und nach summiert. Die kumulierte relative Häufigkeit von Medizin und BWL ist z.B. 0.325+0.225 = 0.55. Das bedeutet 55% der Personen studieren entweder BWL oder Medizin.
Die restlichen kumulierten relativen Häufigkeiten berechnen wir genauso und vervollständigen damit die Tabelle.

Studiumabsolute Häufigkeitrelative Häufigkeitkumulierte relative Häufigkeit
BWL2600.3250.325
Medizin1800.2250.55
Psychologie2200.2750.825
Informatik1400.1751.000
Summe8001
fertige Häufigkeitstabelle mit nominalskalierter Variable

Ein wichtiger Punkt ist, bei nominalskalierten Variablen ist die kumulierte relative Häufigkeit nicht immer sinnvoll, da sie eigentlich eine Reihung voraussetzt und die Ausprägungen bei einer Nominalskala beliebig gereiht werden können. Trotzdem wird sie oftmals bei einer Häufigkeitstabelle zusätzlich angegeben.

Hier als Beispiel noch eine Häufigkeitstabelle einer ordinalskalierten Variable:

Zufriedenheitabsolute Häufigkeitrelative Häufigkeitkumulierte relative Häufigkeit
sehr zufrieden2000.400.40
eher zufrieden1400.280.68
eher nicht zufrieden1000.200.88
nicht zufrieden600.171.00
Summe5001
Häufigkeitstabelle mit ordinalskalierter Variable

Notation

Die absolute Häufigkeit gibt die Anzahl oder Häufigkeit einer Ausprägung an, also wie oft etwas vorgekommen ist. Wir bezeichnen sie mit \(f_i\).

Die relative Häufigkeit stellt den Anteil gemessen an der Gesamtzahl dar, also wie viel Prozent eine Kategorie ausmacht und wird bei uns mit \(h_i\) gekennzeichnet.

Und die kumulierte relative Häufigkeit zeigt den Anteil dieser Ausprägung plus aller niedrigeren an. Also den Anteil aller bis inklusive der entsprechenden Ausprägung. Kumulierte Werte werden bei uns immer mit Großbuchstaben gekennzeichnet, also verwenden wir \(H_i\).

Ein wichtiger Punkt zu Notation allgemein ist, dass diese vollkommen willkürlich ist. Wie Werte oder Zahlen bezeichnet werden, kann beliebig gewählt werden. Für die meisten Kennzahlen gibt es zwar starke Konventionen, aber das ist nicht immer der Fall. Das hat zur Folge, dass es in verschiedenen Bereichen in der Statistik deutlich unterschiedliche Notationen geben kann. Auch bei absoluten und relativen Häufigkeiten ist dies der Fall.
Es wird nämlich auch oft \(h_i\) für die absolute und \(f_i\) für die relative Häufigkeit verwendet. Also genau umgekehrt. Das kann leider zu Verwirrung führen, aber daher ist es wichtig, aufmerksam zu lesen/zuzuhören, was genau jemand mit einem Buchstaben meint.

Die Formel für die relativen Häufigkeiten können wir mit unserer Notation jetzt folgendermaßen aufschreiben:

$$h_i = \frac{f_i}{n} $$

Lagemaße

nominalskalierten Variable

Bei einer nominalskalierten Variable könnt ihr als Lagemaß nur den Modus bestimmen. Der Modalwert ist ja bekanntlich der häufigste Wert der vorkommt und daher muss man nur schauen, bei welcher Ausprägung ihr die höchste absolute bzw. relative Häufigkeit habt. Das ist in unserem Beispiel von oben BWL mit 260 Personen oder einem Anteil von 0.325 die häufigste Ausprägung. Wichtig ist, der Modus ist jetzt nicht 260 oder 0.325, sondern der Modus ist BWL. Ihr müsst bitte immer die entsprechende Ausprägung angeben und nicht wie oft diese aufgetreten ist.

$$Modus = BWL $$

ordinalskalierten Variable

Bei einer ordinalskalierten Variable lässt sich der Modus auf dieselbe Art ermitteln. Dieser ist „sehr zufrieden“ im ordinalskalierten Beispiel.
Ihr könnt zudem aber auch den Median sehr einfach ablesen. Wie ihr wisst, ist der Median das 50%-Quantil. Somit müsst ihr bei den kumulierten relativen Häufigkeiten nur schauen, wo 50% zum ersten Mal überschritten wird. Bei der ersten Kategorie ist das mit 0,4 noch nicht der Fall. Aber mit der zweiten Kategorie wird mit 0,68 die 50%-Marke überschritten. Somit befindet sich der Median in dieser Kategorie und ist in unserem Fall „eher zufrieden“. Die 0.68 bedeuten, dass 68% mindestens eher zufrieden sind, also eher oder sehr zufrieden. Hier sind die kumulierten relativen Häufigkeiten nun sinnvoller, da unsere Kategorien einer Ordnung folgen. Ihr könnt übrigens jedes andere Quantil auf dieselbe Art und Weise bestimmen. Wenn ihr das 3. Quartil, also \(Q_3\) oder das 75%-Quantil bestimmen wollt, müsst ihr nur bei den kumulierten relativen Häufigkeiten schauen, wo wir 0,75 das erste Mal überschreiten. Das ist bei 0,88 der Fall und somit ist „eher nicht zufrieden“ das dritte Quartil.

$$Modus = \text{sehr zufrieden} \quad Median = \text{eher zufrieden} \quad Q_3 = \text{eher nicht zufrieden}$$

Metrische Variablen

Bei metrischen Variablen gibt es Unterschiede in der Darstellung von diskreten und stetigen Merkmalen.

Anzahl Kinderabsolute Häufigkeitrelative Häufigkeitkumulierte relative Häufigkeit
01200.300.30
11600.400.70
2800.200.90
3300.07250.975
4100.0251.00
Summe4001
Häufigkeitstabelle mit metrisch diskreter Variable

Diskrete Variablen sind bekanntlich abzählbar und somit können wir jeder Ausprägung eine Häufigkeit zuordnen. Eine Häufigkeitstabelle ist bei diskreten Variablen aber nur dann sinnvoll, wenn ihr nicht zu viele Ausprägungen habt. Ansonsten wird die Tabelle zu unübersichtlich.

Stetige Variablen werden in Intervallen angegeben und wir bestimmen die Häufigkeit für das entsprechende Intervall. Da wir hier die Variable in Klassen einteilen, werden diese auch häufig klassierte Daten genannt und diese Klassen müssen nicht zwingend gleich groß sein. Es ist natürlich auch möglich, eine ursprünglich diskrete Variable in Klassen einzuteilen.

Gewichtabsolute Häufigkeitrelative Häufigkeitkumulierte relative Häufigkeit
[50,65)300.150.15
[65,75)500.250.40
[75,85)700.350.75
[85,100)100.200.95
[100,150)100.051.00
Summe2001
Häufigkeitstabelle mit metrisch stetiger Variable

Bei metrischen Variablen können jetzt nicht nur Modus und Median, sondern auch der Mittelwert bestimmt werden.

Am Beispiel der Häufigkeitstabelle mit der diskreten Variable werden wir diese jetzt bestimmen:

$$Modus = 1 \quad \quad Median = 1$$

Nach derselben Vorgehensweise wie vorher schon gezeigt.

Der Mittelwert kann aus einer Häufigkeitstabelle auf 2 Arten bestimmt werden.

$$\begin{align}\bar{x} &= \frac{\sum_{i=1}^n x_i \cdot f_i}{n}\\ \bar{x} &= \frac{0\cdot 120+1\cdot 160+2\cdot 80+3\cdot 30+4\cdot 10}{400}\\ \bar{x} &= \frac{450}{400} = 1.125\end{align}$$

$$\begin{align}\bar{x} &= \sum_{i=1}^n x_i \cdot h_i\\ \bar{x} &= 0\cdot 0.3+1\cdot 0.4+2\cdot 0.2+3\cdot 0.0725+4\cdot 0.025\\ \bar{x} &= 1.125\end{align}$$

Die beiden Methoden sind natürlich äquivalent und ergeben, dass der Median 1.125 ist.

Diesen Beitrag teilen

Comment (1)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert