Häufigkeitsklasse

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Eine Häufigkeitsklasse ist in der Linguistik ein statistisches Maß für die Gebrauchshäufigkeit eines Wortes in einer natürlichen Sprache oder in einem Sprachausschnitt. Zur Berechnung der Häufigkeitsklasse wird das Zipfsche Gesetz verwendet, das als Sprachgesetz eine besondere Bedeutung in der Quantitativen Linguistik hat. Auch in der Korpuslinguistik haben sich Häufigkeitsklassen als empirisches Häufigkeitsmaß etabliert.

Berechnung[Bearbeiten]

Als Grundlage für die Berechnung wird eine repräsentative und hinreichend große Menge an verfügbaren schriftlichen Quellen aus einer Sprache verwendet, die Korpus genannt wird. Das am häufigsten auftretende Wort in diesem Korpus wird als Vergleichsgrundlage verwendet. In der deutschen Schriftsprache ist dies das Wort der, in der englischen the („der/die/das“), in der schwedischen och („und“).

Das Zipfsche Gesetz dient dabei als Berechnungsgrundlage. Der Wert der Häufigkeitsklasse N berechnet sich dabei mit dem Logarithmus zur Basis 2 des Quotienten aus dem zu untersuchenden Wort und dem am häufigsten auftretenden Wort.

N=\left\lfloor0{,}5-\log_2\left(\frac{\text{Häufigkeit des untersuchten Wortes}}{\text{Häufigkeit des häufigsten Wortes}}\right)\right\rfloor

Die Gaußklammer \lfloor\dotso\rfloor rundet das Zwischenergebnis auf eine ganze Zahl ab. Zusammen mit dem addierten Wert 0,5 führt die Gaußklammer hier dazu, dass der Wert des Logarithmus auf die nächste ganze Zahl auf- oder abgerundet wird (dabei wird 0,5 aufgerundet zu 1).

Die so berechnete Häufigkeitsklasse N ist eine ganze Zahl, die ausdrückt, um wie viel Mal häufiger das häufigste Wort als das untersuchte Wort im ausgewerteten Datenbestand auftritt. Das am häufigsten vorkommende Wort selbst gehört der Häufigkeitsklasse 0 an, und i. A. ist es der einzige Vertreter dieser Klasse. Wörter, die etwa \tfrac{1}{2^N} Mal so häufig wie dieses auftreten, werden in die Häufigkeitsklasse N eingeordnet. Daraus ergibt sich, dass ein Wort umso häufiger vorkommt, je kleiner seine Häufigkeitsklasse ist.

Größe der Häufigkeitsklassen, Rang[Bearbeiten]

Nach dem Zipfschen Gesetz erwartet man, dass die Klasse N etwa 2^N Wörter (Types) enthält und dass die Summe ihrer Vorkommen (Tokens) in jeder Klasse ungefähr gleich ist, wobei diese Näherung für die obersten und untersten Klassen am wenigsten genau ist. Insbesondere erwartet man nach dem Zipfschen Gesetz für jedes Korpus, dass ungefähr die Hälfte aller auftretenden Wörter (Types) jeweils nur einmal vorkommt.

Aus dem Zipfschen Gesetz ergibt sich als erste Abschätzung, dass die Klasse 0 etwa 2^0 = 1 Wort enthält, die Klasse 1 etwa 2^1 = 2 Wörter, die Klasse 9 etwa 2^9 = 512 Wörter usw. [1] In allen Klassen bis einschließlich zur Klasse 9 sind etwa 1000 Wörter enthalten. Die folgende Häufigkeitsklasse 10 umfasst damit diejenigen etwa 1000 Wörter, die in der Häufigkeit etwa auf Rang 1000 bis 2000 liegen; dies sind allerdings nur recht grobe Anhaltswerte[2].

Wortformen und Lexeme[Bearbeiten]

Häufigkeitsklassen können auf zwei linguistischen Ebenen betrachtet werden: Für eine einzelne Wortform (wie oben dargestellt) oder für ein gesamtes Lexem mit seinen verschiedenen Wortformen. Das am häufigsten vorkommende Wort, dessen Häufigkeit bei der Berechnung der Häufigkeitsklasse als Vergleichsgröße verwendet wird, sollte auf derselben linguistischen Ebene bestimmt sein: In der deutschen Schriftsprache ist die häufigste Wortform das Wort der und das häufigste Lexem der bestimmte Artikel (mit den flektierten Formen der, die, das, des, dem, den).

Siehe auch[Bearbeiten]

Literatur[Bearbeiten]

Weblinks[Bearbeiten]

Einzelnachweise[Bearbeiten]

  1. Dies stimmt einigermaßen mit der Praxis überein: Laut den Untersuchungen der Uni Leipzig ist der Klasse 9 ein log(Anzahl der Wörter in HKL 9) von etwa 6,5 zugeordnet, es dürften sich somit etwa 700 Wörter in dieser Klasse befinden, siehe Grafik 'Anzahl der Wörter in den Häufigkeitsklassen' auf FAQ zum Wortschatz, Uni Leipzig.
  2. Verwendbar z. B. um die Angaben aus den Häufigkeitsabfragen besser deuten zu können.