Buchstabenhäufigkeit

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Die Buchstabenhäufigkeit ist eine statistische Größe, die angibt, wie oft ein bestimmter Buchstabe in einem Text oder einer Sammlung von Texten (Korpus) vorkommt. Sie kann als absolute Anzahl oder in Relation zur Gesamtzahl der Buchstaben des Textes angegeben werden. Die Häufigkeitsverteilung der Buchstaben hängt von der jeweiligen Sprache ab. Während frühere Annahmen pauschal die statistische Verteilung der Buchstabenhäufigkeit durch das Zipfsche Gesetz vorherzusagen glaubten, hat die quantitative Linguistik gezeigt, dass eine Reihe anderer Wahrscheinlichkeitsverteilungen[1] in Betracht zu ziehen sind [Best 2005]. Zählungen zur Häufigkeit von Buchstaben oder Lauten in Texten oder Textkorpora sind spätestens seit dem frühen 19. Jahrhundert nachweisbar.[2] Für manche Zwecke ist es auch interessant, wie häufig ein Buchstabe am Wortanfang oder am Wortende vorkommt.

Anwendung[Bearbeiten | Quelltext bearbeiten]

Die Buchstabenhäufigkeit wird in der Entschlüsselung von Substitutionsverfahren in der Kryptoanalyse sowie in der Datenkompression und -kodierung benutzt. Bei einfachen Verschlüsselungsverfahren wie bei der Cäsarchiffre kann ein Geheimtext alleine durch Häufigkeitsanalyse entschlüsselt werden. Dabei werden die Häufigkeiten der einzelnen Zeichen im Geheimtext festgestellt und dann mit der Häufigkeit der Zeichen in einem Klartext der vermuteten Sprache verglichen. Nun werden die Buchstaben des Geheimtextes durch die normalen Buchstaben gleicher Häufigkeit ersetzt. Der häufigste Buchstabe des Geheimtextes entspricht dann zum Beispiel dem Klartextbuchstaben e. Diese Methode ist offensichtlich für längere zu entschlüsselnde Texte besonders gut geeignet, weil die statistische Abweichung der gefundenen Buchstabenhäufigkeit von der zu erwartenden Häufigkeit geringer wird.

Für den Maschinenschreibunterricht ist es wichtig, dass die Lehrkraft über die Buchstabenhäufigkeit in einer Sprache gut informiert ist und die Unterrichtsinhalte entsprechend darauf abgestimmt werden. Häufige Buchstaben wie das E oder das I müssen hinreichend trainiert werden, um eine möglichst hohe Anschlagszahl und eine gute Schreibsicherheit zu erzielen. Bei der Erstellung ergonomischer Tastaturbelegungen spielt die Buchstabenhäufigkeit ebenfalls eine große Rolle. Hersteller von Buchstabenspielen wie Boggle oder Scrabble berücksichtigen bei den nationalen Varianten ebenfalls die Häufigkeit und, falls vorhanden, auch die Wertigkeit der Buchstaben.

Eine der ersten Anwendungen war das Morse-Alphabet, das für häufige Zeichen kurze Codes verwendet (zum Beispiel E = ·); für selten gebrauchte Zeichen dagegen längere Codes (zum Beispiel Q = – – · –).

Weiterführung[Bearbeiten | Quelltext bearbeiten]

Die Weiterführung der Buchstabenhäufigkeit ist die Häufigkeit von Buchstabenpaaren und -tripeln und die Worthäufigkeit. Befasst man sich statt mit der geschriebenen einmal mit der gesprochenen Sprache, so kann man ganz entsprechend auch Erhebungen zur Laut- oder Phonemhäufigkeit durchführen.

Buchstabenhäufigkeit in deutschsprachigen Texten[Bearbeiten | Quelltext bearbeiten]

Aus der folgenden Tabelle lässt sich rechnerisch ableiten, dass mit den fünf häufigsten Buchstaben rund die Hälfte, und mit den zehn häufigsten Buchstaben dreiviertel der Buchstabenhäufigkeit in deutschsprachigen Texten abgedeckt ist. Die Umlaute ä, ö und ü wurden wie ae, oe und ue gezählt, ß als eigenständiges Zeichen.[3]

Platz Buchstabe Relative Häufigkeit
1. E 17,40 %
2. N 09,78 %
3. I 07,55 %
4. S 07,27 %
5. R 07,00 %
6. A 06,51 %
7. T 06,15 %
8. D 05,08 %
9. H 04,76 %
10. U 04,35 %
11. L 03,44 %
12. C 03,06 %
13. G 03,01 %
14. M 02,53 %
15. O 02,51 %
16. B 01,89 %
17. W 01,89 %
18. F 01,66 %
19. K 01,21 %
20. Z 01,13 %
21. P 00,79 %
22. V 00,67 %
23. 00,31 %
24. J 00,27 %
25. Y 00,04 %
26. X 00,03 %
27. Q 00,02 %

Zum Vergleich: Bei einer Gleichverteilung der 27 Buchstaben betrüge die relative Häufigkeit jeweils 3,704 %.

Zum Vergleich eine Datei, die auf 99586 Buchstaben eines gemischten Briefkorpus einer Person (Korrespondenz mit Ämtern, Freunden, Kollegen, Rundfunkanstalten, Verlagen...; immer nur der laufende Text, also ohne Briefkopf, Anrede und Grußformel; Briefe aus den Jahren 1996 - 2004) beruht. Im Unterschied zur vorigen Übersicht sind die Umlautbuchstaben <ä>, <ö> und <ü> je für sich erhoben.[4]

Platz Buchstabe Absolute Häufigkeit Relative Häufigkeit
1. E 16040 16,11 %
2. N 10288 010,33 %
3. I 9011 09,05 %
4. R 6693 06,72 %
5. T 6312 06,34 %
6. S 6203 06,23 %
7. A 5577 05,60 %
8. H 5177 05,20 %
9. D 4156 04,17 %
10. U 3680 03,70 %
11. C 3384 03,40 %
12. L 3226 03,24 %
13. G 2924 02,94 %
14. M 2784 02,80 %
15. O 2312 02,32 %
16. B 2176 02,19 %
17. F 1701 01,71 %
18. W 1383 01,39 %
19. Z 1351 01,36 %
20. K 1329 01,33 %
21. V 912 00,92 %
22. P 841 00,84 %
23. Ü 636 00,64 %
24. Ä 511 00,51 %
25. Ö 363 00,36 %
26. ß 189 00,19 %
27. J 186 00,19 %
28. X 112 00,11 %
29. Q 73 00,07 %
30. Y 56 00,06 %

Eine Übersicht über die Buchstabenhäufigkeit in Form eines Balkendiagramms bietet Duden auf der Grundlage des Duden-Korpus, einer Volltextsammlung mit über 2 Milliarden Wortformen; auch in dieser Übersicht werden die Umlautbuchstaben je für sich aufgelistet.[5] Die Graphik wurde in der 27. Auflage des Rechtschreib-Duden überarbeitet, jetzt auf der Grundlage des Duden-Korpus mit inzwischen 4 Milliarden Wortformen (Stand Frühjahr 2017).[6]

Anfangsbuchstaben[Bearbeiten | Quelltext bearbeiten]

Die Häufigkeit von Anfangsbuchstaben gibt an, wie oft ein Buchstabe als erster Buchstabe eines Wortes vorkommt. Sie hängt relativ stark von der Textart ab. Für Fließtext sind die fünf häufigsten Anfangsbuchstaben:[7]

Platz Buchstabe Relative Häufigkeit
1. D 14,2 %
2. S 10,8 %
3. E 07,8 %
4. I 07,1 %
5. W 06,8 %

Für Lexika ergibt sich eine andere Verteilung. Die Buchstaben D, E, I und W kommen im Vergleich zum Fließtext wesentlich seltener am Wortanfang vor, S kommt mit deutlichem Abstand am häufigsten vor:[7]

Platz Buchstabe Relative Häufigkeit
1. S 11,8 %
2. K 07,3 %
3. A 07,1 %
4. P 07,0 %
5. B 05,7 %
6. M 05,7 %

Endbuchstaben[Bearbeiten | Quelltext bearbeiten]

Die Häufigkeit von Endbuchstaben gibt an, wie häufig ein Buchstabe als letzter Buchstabe eines Wortes vorkommt. (Als Beispiel-Textbasis wurde der Roman Effi Briest von Theodor Fontane ausgewertet, wobei ß stets als ss gezählt wurde. Die Textbasis umfasst alle 36 Kapitel dieses Werks mit insgesamt 572.849 Zeichen.)

Platz Buchstabe Relative Häufigkeit
1. N 21,0 %
2. E 15,1 %
3. R 13,0 %
4. T 10,3 %
5. S 09,6 %

Häufigkeitsdiagramme[Bearbeiten | Quelltext bearbeiten]

Buchstabenhäufigkeit in ausgewählten Sprachen[Bearbeiten | Quelltext bearbeiten]

Buchstabe Deutsch Englisch [8] Französisch [9] Spanisch [10] Esperanto [11] Italienisch[12] Schwedisch[13] Polnisch[14]
a 06,51 % 08,167 % 07,636 % 12,53 % 12,12 % 11,74 % 000000000000009.30000000009,3 % 000000000000008.00000000008,0 %
b 01,89 % 01,492 % 00,901 % 01,42 % 00,98 % 00,92 % 000000000000001.30000000001,3 % 000000000000001.30000000001,3 %
c 03,06 % 02,782 % 03,260 % 04,68 % 00,78 % 04,5 % 000000000000001.30000000001,3 % 000000000000003.80000000003,8 %
d 05,08 % 04,253 % 03,669 % 05,86 % 03,04 % 03,73 % 000000000000004.50000000004,5 % 000000000000003.00000000003,0 %
e 17,40 % 12,702 % 14,715 % 13,68 % 08,99 % 11,79 % 000000000000009.90000000009,9 % 000000000000006.90000000006,9 %
f 01,66 % 02,228 % 01,066 % 00,69 % 01,03 % 00,95 % 000000000000002.00000000002,0 % 000000000000000.10000000000,1 %
g 03,01 % 02,015 % 00,866 % 01,01 % 01,17 % 01,64 % 000000000000003.30000000003,3 % 000000000000001.00000000001,0 %
h 04,76 % 06,094 % 00,737 % 00,70 % 00,38 % 01,54 % 000000000000002.10000000002,1 % 000000000000001.00000000001,0 %
i 07,55 % 06,966 % 07,529 % 06,25 % 10,01 % 11,28 % 000000000000005.10000000005,1 % 000000000000007.00000000007,0 %
j 00,27 % 00,153 % 00,545 % 00,44 % 03,50 % 00,00 % 000000000000000.70000000000,7% 000000000000001.90000000001,9 %
k 01,21 % 00,772 % 00,049 % 00,00 % 04,16 % 00,00 % 000000000000003.20000000003,2 % 000000000000002.70000000002,7 %
l 03,44 % 04,025 % 05,456 % 04,97 % 06,14 % 06,51 % 000000000000005.20000000005,2 % 000000000000003.10000000003,1 %
m 02,53 % 02,406 % 02,968 % 03,15 % 02,99 % 02,51 % 000000000000003.50000000003,5 % 000000000000002.40000000002,4 %
n 09,78 % 06,749 % 07,095 % 06,71 % 07,96 % 06,88 % 000000000000008.80000000008,8 % 000000000000004.70000000004,7 %
o 02,51 % 07,507 % 05,378 % 08,68 % 08,78 % 09,83 % 000000000000004.10000000004,1 % 000000000000007.10000000007,1 %
p 00,79 % 01,929 % 03,021 % 02,51 % 02,74 % 03,05 % 000000000000001.70000000001,7 % 000000000000002.40000000002,4 %
q 00,02 % 00,095 % 01,362 % 00,88 % 00,00 % 00,51 % 000000000000000.00700000000,007 % 000000000000000.00000000000,00 %
r 07,00 % 05,987 % 06,553 % 06,87 % 05,91 % 06,37 % 000000000000008.30000000008,3 % 000000000000003.50000000003,5 %
s 07,27 % 06,327 % 07,948 % 07,98 % 06,09 % 04,98 % 000000000000006.30000000006,3 % 000000000000003.80000000003,8 %
t 06,15 % 09,056 % 07,244 % 04,63 % 05,27 % 05,62 % 000000000000008.70000000008,7 % 000000000000002.40000000002,4 %
u 04,35 % 02,758 % 06,311 % 03,93 % 03,18 % 03,01 % 000000000000001.80000000001,8 % 000000000000001.80000000001,8 %
v 00,67 % 00,978 % 01,628 % 00,90 % 01,90 % 02,10 % 000000000000002.40000000002,4 % 000000000000000.00000000000,00 %
w 01,89 % 02,360 % 00,114 % 00,02 % 00,00 % 00,00 % 000000000000000.03000000000,03 % 000000000000003.60000000003,6 %
x 00,03 % 00,150 % 00,387 % 00,22 % 00,00 % 00,00 % 000000000000000.10000000000,1 % 000000000000000.00000000000,00 %
y 00,04 % 01,974 % 00,308 % 00,90 % 00,00 % 00,00 % 000000000000000.60000000000,6 % 000000000000003.20000000003,2 %
z 01,13 % 00,074 % 00,136 % 00,52 % 00,50 % 00,49 % 000000000000000.02000000000,02 % 000000000000005.10000000005,1 %
œ 00,00 % 00,00 % 00,018 % 00,00 % 00,00 % 00,00 % 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
ß 00,31 % 00,00 % 00,000 % 00,00 % 00,00 % 00,00 % 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
à 00,00 % 00,00 % 00,486 % 00,00 % 00,00 % siehe a 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
ą 00,00 % 00,00 % 00,00 % 00,00 % 00,00 % 00,00 % 000000000000000.00000000000,00 % siehe a
ç 00,00 % 00,00 % 00,085 % 00,00 % 00,00 % 00,00 % 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
ĉ 00,00 % 00,00 % 00,000 % 00,00 % 00,66 % 00,00 % 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
ć 00,00 % 00,00 % 00,000 % 00,00 % 00,00 % 00,00 % 000000000000000.00000000000,00 % siehe c
è 00,00 % 00,00 % 00,271 % 00,00 % 00,00 % siehe e 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
é 00,01 % 00,00 % 01,904 % 00,00 % 00,00 % siehe e 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
ê 00,00 % 00,00 % 00,225 % 00,00 % 00,00 % 00,00 % 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
ë 00,00 % 00,00 % 00,000 % 00,00 % 00,00 % 00,00 % 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
ę 00,00 % 00,00 % 00,000 % 00,00 % 00,00 % 00,00 % 000000000000000.00000000000,00 % siehe e
ĝ 00,00 % 00,00 % 00,000 % 00,00 % 00,69 % 00,00 % 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
ĥ 00,00 % 00,00 % 00,000 % 00,00 % 00,02 % 00,00 % 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
î 00,00 % 00,00 % 00,045 % 00,00 % 00,00 % 00,00 % 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
ì 00,00 % 00,00 % 00,000 % 00,00 % 00,00 % siehe i 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
ï 00,00 % 00,01 % 00,005 % 00,00 % 00,00 % 00,00 % 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
ĵ 00,00 % 00,00 % 00,000 % 00,00 % 00,12 % 00,00 % 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
ł 00,00 % 00,00 % 00,000 % 00,00 % 00,00 % 00,00 % 000000000000000.00000000000,00 % siehe l
ń 00,00 % 00,00 % 00,000 % 00,00 % 00,00 % 00,00 % 000000000000000.00000000000,00 % siehe n
ó 00,00 % 00,00 % 00,000 % 00,00 % 00,00 % 00,00 % 000000000000000.00000000000,00 % siehe o
ò 00,00 % 00,00 % 00,000 % 00,00 % 00,00 % siehe o 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
ŝ 00,00 % 00,00 % 00,000 % 00,00 % 00,38 % 00,00 % 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
ś 00,00 % 00,00 % 00,000 % 00,00 % 00,00 % 00,00 % 000000000000000.00000000000,00 % siehe s
ù 00,00 % 00,00 % 00,058 % 00,00 % 00,00 % siehe u 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
ŭ 00,00 % 00,00 % 00,000 % 00,00 % 00,52 % 00,00 % 000000000000000.00000000000,00 % 000000000000000.00000000000,00 %
ź 00,00 % 00,00 % 00,000 % 00,00 % 00,00 % 00,00 % 000000000000000.00000000000,00 % siehe z
ż 00,00 % 00,00 % 00,000 % 00,00 % 00,00 % 00,00 % 000000000000000.00000000000,00 % 000000000000000.70000000000,7 %

Besonders bemerkenswert in der Tabelle ist, dass im Deutschen der Buchstabe E deutlich häufiger und der Buchstabe O deutlich seltener angewendet werden als in romanischen und slawischen Sprachen.

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Literatur[Bearbeiten | Quelltext bearbeiten]

  • Friedrich L. Bauer: Entzifferte Geheimnisse. Methoden und Maximen der Kryptologie. Springer, Berlin u. a. 1995, ISBN 3-540-58118-9. Enthält Buchstabenhäufigkeiten im Deutschen und Englischen mit Prozentangaben Seite 223.
  • Karl-Heinz Best: Zur Häufigkeit von Buchstaben, Leerzeichen und anderen Schriftzeichen in deutschen Texten. In: Glottometrics. 11, 2005, ISSN 1617-8351, Seite 9–31. Gibt neben den Buchstabenhäufigkeiten auch die Anteile anderer Zeichen in deutschen Texten an.
  • Erich Mater: Deutsche Verben. 1. Alphabetisches Verzeichnis. Bibliographisches Institut, Leipzig 1966. Enthält im Anfangskapitel eine Übersicht über die Häufigkeit von Anfangsbuchstaben in 6 verschiedenen Wörterbüchern sowie eine Gesamtübersicht. (Leider keine Seitenzählung).
  • Helmut Meier: Deutsche Sprachstatistik. 2. erweiterte und verbesserte Auflage. Olms, Hildesheim 1967 (Olms Paperbacks 31). Buchstabenstatistik des Deutschen, Englischen und Spanischen Seite 334.
  • Gustav Muthmann: Rückläufiges deutsches Wörterbuch. Handbuch der Wortausgänge im Deutschen, mit Beachtung der Wort- und Lautstruktur. Niemeyer, Tübingen 1988, ISBN 3-484-31078-2 (Reihe germanistische Linguistik 78). Enthält Seite 36 eine Zusammenstellung der Häufigkeiten von Anfangsbuchstaben sowie Seite 65 der Endbuchstaben.
  • Gustav Muthmann: Phonologisches Wörterbuch der deutschen Sprache. Niemeyer, Tübingen 1996, ISBN 3-484-31163-0, Seite 35–37 (Reihe Germanistische Linguistik 163). Häufigkeit von Graphemen und Phonemen.
  • Wolfgang Schönpflug: n-Gramm-Häufigkeit in der deutschen Sprache. I. Monogramme und Digramme. In: Zeitschrift für experimentelle und angewandte Psychologie. 16, 1969, ISSN 0044-2712, Seite 157–183. Enthält Seite 162f. eine Übersicht über die Häufigkeit von Buchstaben in einem Textkorpus von über 100000 Wörtern Länge, getrennt nach der Position im Wort.
  • Katja Siekmann; Günther Thomé: Der orthographische Fehler. Oldenburg 2012, ISBN 978-3-94212207-8, enthält auf den Seite 239–247 ausführliche Übersichten über die Häufigkeit von Buchstaben und Buchstabenverbindungen aus einer neueren 100.000-er Auszählung von Phonem-Graphem-Korrespondenzen im Deutschen, www.isb-oldenburg.de/materialien.html.
  • Dorothea Thomé, Günther Thomé: Phoneme und Grapheme im Deutschen: drei Schaubilder. 1. Die Laute des Deutschen (nach der Standardlautung), 2. Basisgrapheme (grundlegende Schriftzeichen für Phoneme), 3. Alle Basis- und Orthographeme (Was ist wie häufig?). 2014, 3 x DIN A2. Oldenburg: isb-Fachverlag 2014. € 14,80 [D], ISBN 978-3-94212-215-3 (mehr unter www.isb-oldenburg.de/materialien.html);
  • Günther Thomé, Dorothea Thomé: "Deutsche Wörter nach Laut- und Schrifteinheiten gegliedert." Mit zahlr. Tabellen über die Häufigkeit der Laut- und Schrifteinheiten im Deutschen. Oldenburg: isb-Verlag 2016. ISBN 978-3-94212221-4, 14,80 €, 128 S. (Leseproben unter www.isb-oldenburg.de/materialien.html).

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. S. dazu: http://lql.uni-trier.de/index.php/Phoneme_frequency; Buchstaben, Laute und Phoneme folgen im Prinzip den gleichen Verteilungen.
  2. Karl-Heinz Best: Laut- und Buchstabenzählungen im frühen 19. Jahrhundert. In: Glottometrics 20, 2010, S. 110–114.
  3. Albrecht Beutelspacher, Kryptologie, 7. Aufl., Wiesbaden: Vieweg Verlagsgesellschaft, 2005, ISBN 3-8348-0014-7, Seite 10
  4. Karl-Heinz Best: Buchstabenhäufigkeiten im Deutschen und Englischen. In: Naukovyj Visnyk Černivec'koho Universitetu. Vypusk 231, 2005, ZDB-ID 2390772-1, Seite 119–127.
  5. Duden - Deutsches Universalwörterbuch. 7., überarbeitete und erweiterte Auflage. Dudenverlag, Mannheim/Zürich 2011, ISBN 978-3-411-05507-4, Seite 2110.
  6. Duden. Die deutsche Rechtschreibung. 27., völlig neu bearbeitete und erweiterte Auflage. Dudenverlag, Berlin 2017, ISBN 978-3-411-04017-9, Seite 148, 158.
  7. a b Peter Vogelgesang: Häufigkeit von Buchstaben (Memento vom 9. Februar 2006 im Internet Archive), 2003
  8. English letter frequencies
  9. CorpusDeThomasTempé. Abgerufen am 15. Juni 2007.
  10. Fletcher Pratt: Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books. 1939, S. 254–255.
  11. La Oftecoj de la Esperantaj Literoj. Abgerufen am 14. September 2007.
  12. Simon Singh: Codici e Segreti, 1999, RCS, ISBN 88-17-12539-3
  13. Simon Singh: Brogren Margareta: Kodboken: konsten att skapa sekretess – från det gamla Egypten till kvantkryptering. Norstedt, Stockholm 1999, ISBN 91-1-300708-4.
  14. Wstęp do kryptologii (MS Word; 300 kB) Abgerufen am 30. April 2012.