Diskussion:Zipfsches Gesetz

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 2 Jahren von 2A02:8108:9640:AC3:4DF8:A0AF:4F2D:BE71 in Abschnitt Ein typischer, verquaster Wiki-Mathe-Artikel
Zur Navigation springen Zur Suche springen
Diese Diskussionsseite dient dazu, Verbesserungen am Artikel „Zipfsches Gesetz“ zu besprechen. Persönliche Betrachtungen zum Thema gehören nicht hierher. Für allgemeine Wissensfragen gibt es die Auskunft.

Füge neue Diskussionsthemen unten an:

Klicke auf Abschnitt hinzufügen, um ein neues Diskussionsthema zu beginnen.

Variable in Tabelle[Quelltext bearbeiten]

Was ist die Variable "Menschen" in der Tabelle zu den 7 deutschen Städten? Wenn ich die Summe der Einwohner der Städte nehme komme ich auf andere berechnete Einwohnerzahlen. (nicht signierter Beitrag von 2A02:AB88:40:EF00:10A:84C:A3B6:6C19 (Diskussion | Beiträge) 10:07, 5. Nov. 2016 (CET))Beantworten

Schreibweise?[Quelltext bearbeiten]

Müsste es nach Apostrophitis#Auspr.C3.A4gungen an den meisten Stellen des Artikels nicht "zipfsches Gesetz" bzw. "Zipf'sches Gesetz" statt "Zipfsches Gesetz" heißen?

"Zipfsches Gesetz" ist alte Rechtschreibung und finde ich in Ordnung, "zipfsches Gesetz" ist richtig, "Zipf'sches Gesetz" ist hässlich -- Nichtich 00:02, 11. Okt. 2006 (CEST)Beantworten
Hat sich das nicht wieder geändert und die Schreibweise Zipfsches Gesetz ist richtig. Anton 00:42, 11. Okt. 2006 (CEST)Beantworten
Wir sind doch hier nicht beim Lotto; nach Duden K16 geht beides, "zipfsches" und Zipf'sches", wobei ich als altmodischer Mensch die Großschreibung des Namens vorziehe. HJJHolm 11:24, 8. Feb. 2011 (CET)Beantworten

So weit, so klar. Trotzdem wurde meine Korrektur rückgängig gemacht. Ich versuche es nochmals. --Des Wahnsinns knusprige Beute (Diskussion) 11:23, 9. Sep. 2014 (CEST)Beantworten

Dein „So weit, so klar.“ ist keine Rechtfertigung für Dein abermaliges Ändern der Schreibweise. Auf meine dazu bereits mehrfach (in dieser Zusammenfassungszeile, im Zuge dieser Meldung auf der Seite Wikipedia:Vandalismusmeldung und auf Deiner Benutzerdiskussionsseite) vorgebrachten Argumente gehst Du damit nämlich mit keinem Wort ein. Ich setze daher Deine Änderung noch einmal zurück und werde im Falle Deiner Uneinsichtigkeit dieser Bitte des die erste Meldung abarbeitenden Administrators nachkommen, um die ganze Angelegenheit einer administrativen Behandlung zuzuführen. --Franz 11:54, 9. Sep. 2014 (CEST)Beantworten
Wenn du es lustig findest, dich hier gegen alle anderen Benutzer und die hier erklärte Rechtschreibung zu stellen, mir soll es recht sein. Jeder tut so schlau, wie er kann. --Des Wahnsinns knusprige Beute (Diskussion) 12:01, 9. Sep. 2014 (CEST)Beantworten
Zipfsches_Gesetz auf Tochterseite der Wikipedia, wäre nach Ansicht von Benutzer:Des Wahnsinns knusprige Beute dann auch nicht richtig. Das Ohmsche Gesetz (von Ohm selbst gefunden) wird genauso wie das Zipfsches Gesetz (von Zipf selbst gefunden) auch in neuer Rechtschreibung  großgeschrieben. --Cronista (Diskussion) 12:03, 9. Sep. 2014 (CEST)Beantworten
OMG, stimmt auch beim ohmschen Gesetz nicht. Gehst du mich deswegen bei Benutzer Otberg jetzt auch denunzieren mit falschen Behauptungen? --Des Wahnsinns knusprige Beute (Diskussion) 12:23, 9. Sep. 2014 (CEST)Beantworten

zipfsches Gesetz hätte etwas mit dem benfordschen Gesetz zu tun[Quelltext bearbeiten]

1. Das zipfsche Gesetz beruht auf einer hyperbolischen Funktion zweiten Grades, deren Stammfunktion eine Hyperbel der Form F = C/R oder einfach F(x) = c/x ist. Die Stammfunktion der Benford-Funktion f(x) = 1/xlnB (B für Zahlenbasis) ist eine logarithmische Funktion.

2. Die Benford-Verteilung ist logisch ableitbar, das sogenannte zipfsche Gesetz wurde empirisch gefunden; erst danach ist eine mathematische Entsprechung gesucht worden, die, anders als beim benfordschen Gesetz, der willkürlichen Wahl einer optisch naheliegenden mathematischen Funktion entsprang. Das ist aber höchst unwissenschaftlich, würde Sir K.Popper gesagt haben, weil er vor seinem Tod stets den umgekehrten Weg forderte. Was er jetzt fordert, weiß keiner.

3. Das zipfsche Gesetz wird in der Linguistik mit höchst mäßigem Erfolg probiert, es stimmt einfach nicht hinreichend genau. Das benfordsche Gesetz stimmt in seinen Einsatzgebieten hinreichend genau, und zwar mit wachsender Stichprobe immer genauer.

4. Ich halte das zipfsche Gesetz, auch wenn es einen netten Namen hat, für eines der zahlreichen Artefakte der Wissenschaft. Den Häufigkeiten sind Nominaldaten, wie Buchstaben (die in jeder Sprache anders geordnet sind) oder Wörter, unterlegt. Man weiß nicht, wie man diese Daten auf der Abszisse objektiv ordnen soll. Dann rangreiht man die Häufigkeiten nach fallenden Werten und erhält damit zwingend eine monoton fallende Funktion. Da die Werte nicht um einen konstanten Wert fallen, ergibt sich fast zwangsläufig eine sortierte Aneinanderreihung, die wie eine Hyperbel aussieht. Ich meine, als Zipf das sah, sagte er, ah, eine Hyperbel, und ihm fiel ein: y = 1/x, multipliziert mit einem Faktor c. Genauso wie die linguistischen Sortierungen kann man die Intelligenzquotienten der Passagiere der S-Bahn sortieren, und man wird wiederum eine "hyperbolische Gesetzmäßigkeit" finden. B. Mandelbrot dürfte das erkannt haben, weil er offenbar das zipfsche Gesetz zu reparieren versuchte. Ich sehe das zipfsche Gesetz als Tautologie (wie mein nichtlinguistischer, nichtmathematischer Mitstreiter Mw|Mw weiter oben) an. Er hat ja recht: Diese sortierten Daten sagen nur aus: "Größere Häufigkeiten sind größer als solche, die kleiner sind als die größeren." Quae sapientia ! Wer jetzt meint, das "Gesetz von Lotka" wäre besser, der irrt. Wie sieht denn eine Verteilung der Publikationen üblicherweise aus ?: So gut wie keiner publiziert rein gar nichts, die meisten ein paar Schwarten, der eine mehr, der andere weniger, und einer oder zwei produzieren die Lawine an Arbeiten. Das ist die vage Umschreibung einer eingipfeligen, nach links und nach rechts vom Maximum der Dichtefunktion mehr oder weniger steil abfallenden Verteilung, deren es zuhauf gibt. Wenn wir diese Balken aus dem Verteilungshistogramm sträflicherweise sortieren, haben wir wieder den gleichen hyperbolischen Salat, der zwangsläufig auftauchen muss. Das einzige Gesetz, das hinter all diesen Sortierverfahren steht, lautet: Wer nach fallenden Häufigkeiten sortiert, der erhält monoton fallende Häufigkeiten, die signifikant häufig wie die einfachste Hyperbel aus dem Mathematikunterricht, an welchen wir uns gerade noch vage erinnern, aussehen.

5. Die Summe aller Häufigkeiten beim zipfschen Gesetz ergibt nicht nur nicht 100%, sie wächst bei wachsender Zahl an Elementen über 100%. So ein uninterpretierbarer GAU passiert bei Benford nie. Das liegt einfach daran, dass die Summe aller Kehrwerte der natürlichen Zahlen über alle Grenzen wächst, also keinen endlichen Grenzwert hat: lnx von 1 bis unendlich ergibt unendlich. Alle Verteilungen, mit denen man etwas anfangen kann, haben einen endlichen Grenzwert. Dividiert man dann die Funktionswerte der Dichtefunktion durch diesen Grenzwert, erhält man eine Dichtefunktion, deren Gesamtfläche unter der Kurve den Wert 1 annimmt. Bei Zipf müssten wir durch unendlich dividieren. Schon deshalb ist das Zipfsche Verteilungsgesetz aus mathematischer Sicht schlicht inakzeptabel.

6. Das zipfsche "Gesetz" entspricht bei 64 Symbolen haargenau der Benford-FUNKTION 1/xln65 (nicht der VERTEILUNG!)eines Zahlensystems mit 64 wohlunterscheidbaren Symbolen (also zur Basis 65). Das zipfsche Gesetz ist daher wahrscheinlich nicht unentbehrlich. Man könnte jetzt wieder mutmaßen, vielleicht liegt die zipfsche Sortierroutine dem genetischen Code, der ja auch 64 Zeichen hat (A,C,G,T im Dreierpack ergibt 4³ = 64 Zeichen), oder der Schrift der Japaner zugrunde, vielleicht auch dem durchschnittlichen Verrentungsalter in Nordossetien. Liebe Grüße Pard 15:56, 9. Aug 2005 (CEST)

Leider nicht ganz, siehe Grafik. Siehe Diskussion unter Benford. Anton 18:41, 9. Aug 2005 (CEST)

Der Sinn hinter dem zG ist, dass man einbe Möglichkeit der Abschätzung der Werte in einer Rangfolge bekommt. Das Besondere daran ist eben nur, dass Zipf bemerkte, dass solche Rangfolgen sehr oft hyperbolisch verlaufen und das in eine Formel packte. Er hätte ebensogut sagen können: "Die Auftragung der Häufigkeiten einzelner Wörter gegen Ihre Rangfolge aufgetragen ergibt eine Hyperbolische Punktmenge." Aber interessanter und brauchbarer ist dann doch eben eine Formel, mit der man solche Werte abschätzen kann. Es ist damit kein großartiges Naturgesetz, hat aber eine Daseinsberechtigung. Also: Bitte nicht töten :-)

das zipfsche Gesetz und die Häufigkeit der 32 deutschen Schriftsymbole[Quelltext bearbeiten]

Wenn wir annehmen wollen, dass die Häufigkeitsverteilung der 32 Schriftzeichen im Deutschen durch das zipfsche Gesetz beschrieben wird und wir weiters ein Signifikanzniveau von 5% festlegen, dann dürfen wir nicht mehr als 829 Zeichen zählen, sonst sagt uns der Chi²-Test leider, dass wir nicht mehr darauf vertrauen dürfen, dass Zipf die Buchstabenhäufigkeit im Deutschen beschreiben kann. Zipf wird also mit wachsender Stichprobe schlechter übereinstimmbar: Diese Einschränkung ist m.E. ein Killer-Kriterium für das zipfsche Gesetz. Liebe Grüße Pard 17:39, 10. Aug 2005 (CEST)

Die Kritik ist viel zu langatmig und persönlich geschrieben (bitte Quellenangaben!). Ich habe deshalb einige Teile hierher ausgelagert:

Für die Sortierroutine bedarf es keiner Quellenangaben, denn der Zipf-Approach ist eine solche. Dass es sich bei der Reihung nach Buchstaben oder Worten um Nominaldaten handelt, kann man in jedem guten Statistik-Handbuch für Zweitsemestrige nachschlagen. Dass der Mathematiker Mandelbrot seine Probleme mit der Herleitung des zipfschen Gesetzes hatte, ist von ihm zitiert und als Zitat ausgewiesen. Liebe Grüße Pard 12:23, 16. Aug 2005 (CEST)
Eine Rangordnung ist kein Nominales Merkmal sondern ein Ordinales Merkmal. Mandelbrots Zitat ist gut.

Das zipfsche Gesetz basiert auf einer Sortierroutine[Quelltext bearbeiten]

Das zipfsche Gesetz postuliert einen Zusammenhang zwischen dem Platz oder Rang, den ein Wort einer Sprache in einer Häufigkeitstabelle einnimmt und der relativen Häufigkeit dieses Wortes. Dieser Zusammenhang ergibt sich schon allein aus der Sortierung der Worthäufigkeiten nach fallender Häufigkeit. Naturgemäß erhält man so – außer bei der praktisch kaum ideal vorliegenden Gleichverteilung - stets monoton fallende Verteilungen. Die Relevanz monoton fallender und zumindest wie Hyperbeln aussehender Verteilungen genießt in der Wissenschaft indessen weitgehend Anerkennung. Die breite Anwendbarkeit, die allerdings für das zipfsche Gesetz postuliert wird, erklärt sich freilich nicht aus funktionalen Zusammenhängen, sondern aus dem Faktum, daß bei Sortierung von relativen Häufigkeiten nach fallenden relativen Häufigkeiten stets monoton fallende, zuweilen nahezu „ideal“ hyperbolisch anmutende Verläufe schlicht erwartbar sind. Ein in dieser Richtung aufgestelltes zipfsches Gesetz hat also keinen Erklärungswert, der über die Anwendungsvorschrift jeder Sortierroutine hinausgeht.

Die Aufstellung einer Rank-Size - Tabelle ist ein geläufiges Verfahren. Der Erkenntniswert liegt darin in welcher Weise die relative Häufigkeit monoton abfällt (Potenzgesetz und nicht etwa z.B. linear) und nicht dass sie abfällt. -- Nichtich 01:55, 16. Aug 2005 (CEST)
Aber kann das Zipfsche Gesetz den Verlauf des Abfalls der Häufigkeiten hinreichend gut beschreiben ? Sind DIR Beipiele bekannt? Das Gesetz setzt den realen Daten ja eine sehr hohe Latte. :-)Erst wenn die Daten wissen, in welche Häufigkeit sie von einem Wissenschafter gereiht werden, können sie untereinander ausmachen, wie oft sie vorkommen :-). Warum beschreibt das Gesetz nur den mittleren Verlauf akzeptabel ? Dort liegen verschiedene quasi-hyperbolische Verläufe, die ganz verschiedene Gesetze beschreiben, eng beisammen. Dort gilt statistisch gesehen geradezu "fast alles". Gilt ein Gesetz allein dort, hat es keinen Erklärungswert. Wichtiger wäre doch, würde das Gesetz die Extremsituationen bei niedrigen oder bei sehr hohen Rankings i.e. richtig darstellen. Aber gerade dort: Fehlanzeige.Pard 11:45, 16. Aug 2005 (CEST)
Ja, dass Zipfsche gesetz ist nur eine Annäherung - das steht auch im Artikel. Hier mein eigenes Beispiel: [1]. Wenn du eine Formel kennst, die die Verteilung (Abflachung an den Ende) besser beschreibt, dann nenne Sie im Artikel, aber bislang sieht die Kritik etwas einseitig und unverständlich aus. Das passt aber zum gesamten Artikel, der noch sehr Baustelle ist (es gibt ja noch nicht mal vernüftige Literaturangaben). -- Nichtich
Was die Literaturangaben betrifft, so steht in keinem als vernünftig anerkannten (un mir bekannten, wichtige Einschränkung...) Statistik-Lehrbuch die Zipf-Verteilung drin. Nicht einmal in einer Fußnote. Das muss nichts bedeuten, kann aber.

Buchstaben und Wörter sind Nominaldaten. Daß man sie nach Häufigkeit sortiert, ist das einzige ordinale Charakteristikum dieser Nominaldaten. Liebe Grüße Pard 10:13, 19. Aug 2005 (CEST)

Das Skalenniveau der Daten ist in der Linguistik zumeist unzureichend[Quelltext bearbeiten]

Anders gelagert wäre der Fall eventuell, würden den Daten auf der Abszisse, die im geschilderten Fall aus der Linguistik über das Niveau von Nominaldaten nicht hinausgehen, besser objektivierbare Daten mit höherem Skalenniveau zugrunde liegen. Wäre es z.B. möglich nachzuweisen, daß Wörter mit niedrigerem Informationsgehalt mit höheren relativen Häufigkeiten in Texten vorkommen und daß Wörter mit höherem Informationsgehalt seltener in Texten anzutreffen sind, ergäbe sich für das zipfsche Gesetz eine Nische in der Wissenschaft, in der ihm ein Überleben gesichert zu sein schiene.

Was soll der Konjunktiv? Bitte nochmal verständlich schreiben. -- Nichtich 01:55, 16. Aug 2005 (CEST)

Das zipfsche Gesetz – ohnehin bloß eine Tautologie ?[Quelltext bearbeiten]

Das zipfsche Gesetz bleibt somit bis auf weiteres wohl kaum mehr als eine Tautologie, weil es nur ohnehin Bekanntes behaupten kann, nämlich, dass es signifikant oft zu einem quasi-hyperbolischen Verlauf der Häufigkeiten kommt, wenn man dieselben nach fallenden Häufigkeiten sortiert.

Diese Kritik ist anscheinend selbst eine Tautologie -- Nichtich 01:55, 16. Aug 2005 (CEST)
Ja. Da sieht man, wie leicht einem so etwas passieren kann im Eifer. Das sollte Zipf entschuldigen. Pard 11:43, 16. Aug 2005 (CEST)
Es geht mir nicht darum, Zipfs zweifellos etwas naiven Ansatz zu verteidigen, sondern darum einenm guten, verständlichen Artikel näherzukommen. Leider ist von vielen Seiten anscheinend viel ungenaues über das Zipfsche gesetz geschrieben worden -- Nichtich 13:02, 16. Aug 2005 (CEST)
Lieber Nichtich, mir geht es nicht darum, Deinen informativen und gut gestalteten Artikel kaputt zu machen. Ich finde ja selber die zipfsche Idee faszinierend. Wenn sie stimmte, haetten wir einen der ersten Lettern fuer die Weltformel. Ich glaube einfach - und die Realitaet stimmt mir leider zu - dass die Aufteilunb c-c/2-c/3... es sich etwas einfach macht. Ich weiss nicht, ob es ueberhaupt moeglich sein wird, eine allgemeine Aussage ueber die Abnahme sortierter Haeufigkeiten zu machen. Was wir dazu braeuchten, waere eine Liste der Haeufigkeiten von Buchstaben aus vielen Sprachen. Mich irritiert z.B., dass die Haeufigkeiten in der deutschen Sprache bei den Buchstaben im 1. und 2. Rang fast gleich maechtig sind, obwohl Zipf fuer die 2.Haeufigkeit nur 50% der ersten postuliert. Der Verlauf sieht also mehr wie eine halbierte Gaussverteilung aus, obwohl sie sicher keine ist. Aber hyperbolisch ist der Verlauf sicher nicht. Wie gesagt, wir brauchen mehr Stichproben, mindestens 20 -30.

Liebe Gruesse Pard 16:17, 17. Aug 2005 (CEST)

Hallo Nichtich, ich habe einen Teil meiner kritischen Anmerkungen gelöscht, wo sie einfach zu verärgert d.h. unmöglich formuliert waren. Einen anderen Teil habe ich präzisiert. An einen anderen Teil der zipfschen Hypothesen glaube ich selber. Ich bin nun zur Auffassung gelangt, dass manche der zipfschen Hypothesen gut sind. Die strenge Formel zur Darstellung der Frequenzen bei Wörtern und Lauten halte ich weiterhin für nicht richtig, weil die Praxis diese Hypothese falsifiziert. Ich halte diese Hypothese aber nicht mehr für falsch, sondern für verbesserbar, ohne mit einem verbesserten Ansatz aufwarten zu können. Literatur zum "falschen" zipfschen Gesetz habe ich auch gefunden. Der Verfasser ist ein namhafter Linguist der Uni Wien.

Liebe Grüße Pard 18:18, 19. Aug 2005 (CEST)

Bearbeitung Dez. 2005[Quelltext bearbeiten]

Elemente herausgenommen:

Mandelbrot[Quelltext bearbeiten]

(1)

Die Beziehung (1) hat Benoit Mandelbrot um zwei Parameter a und b zum Zipf-Mandelbrot-Gesetz erweitert:

(5)

(5) ist mit (1) identisch für und .


Kommentar: Zipf ist keine richtige Verteilung, die Diskussion der Parameter sollte unter Pareto-Verteilung erfolgen


Zusammenhang Benford[Quelltext bearbeiten]

Vergleich von zipfscher mit benfordscher Verteilung

Auch wenn es analytisch nicht unmittelbar ersichtlich ist, kann die benfordsche Verteilung, die Aussagen über die Häufigkeit von Anfangsziffern macht, als ein Spezialfall der zipfschen Verteilung p(i) angesehen werden. Das Diagramm vergleicht beide Funktionen für n=51. Für große n nimmt die Übereinstimmung noch zu. Bemerkenswert ist die Linearität zwischen beiden Verteilungen, d.h. das Verhältnis der Funktionswerte ist für n>10 weitgehend konstant.


Kommentar: sollte unter Benford mit Verweis auf Pareto aufgenommen werden.

Kritik an Zipf[Quelltext bearbeiten]

Kritik des zipfschen Gesetzes zur Frequenz von Wörtern und Lauten[Quelltext bearbeiten]

Das Phänomen, das das zipfsche Gesetz zu beschreiben sucht, ist zutreffend und anerkannt: Häufigkeiten, nach fallenden Werten sortiert, erinnern oft an einen hyperbolischen Verlauf. Die zipfsche Herleitung wirft jedoch noch viele Fragen auf, die möglicherweise darauf zurück zu führen sind, dass - trotz der schwierigen interdisziplinären Problemstellung - die mathematisch-statistische Formulierung der postulierten Gesetzmäßigkeit zumindest nicht ausreichend von einem Statistiker begleitet wurde. Die Häufigkeiten als Resultate der Auszählung der Buchstaben samt Leerzeichen, Beistrich und Punkt erinnern nämlich weder für das Englische noch für das Deutsche in erster Linie an eine Hyperbel, sondern viel mehr an eine sich der Abszisse asymptotisch nähernde Funktion zur Basis e im ersten Quadranten mit Maximum bei x=0. Betrachten wir die Flächenaufteilung der standardisierten Gaußschen Normalverteilung im ersten Quadranten, so verteilt sich die Fläche von 0,5 über 3 Standardabweichungen ("Drittel"-Abschnitte) gegenüber den zipfschen Häufigkeiten wie folgt:

          1.Drittel 2.Drittel 3.Drittel
GaußNV        68%        27%       5%
ZipfG         75,6%      19,7%     3,7%  (aus der Auszählung der Buchstaben deutscher Texte)

Dass die reale Häufigkeitsaufteilung im Groben von herkömmlichen Verteilungen nicht sonderlich abweicht, spricht ebenfalls dafür, dass es besser fundierte statistische Methoden als den zipfschen Ansatz längst gibt. Es bleibt offen, ob ein Ranking von Häufigkeiten von Wörtern oder verwendeten Buchstaben in Sprachen tatsächlich durch eine so strenge Gesetzmäßigkeit wie das zipfsche Gesetz hinreichend beschrieben werden kann. Das Sortieren von Häufigkeiten bekannter Verteilungen kann zu ähnlichen Rankings führen wie sie das zipfsche Gesetz beschreibt. Hierbei ist wiederum nicht klar, wofür die Werte auf der Abszisse solcher Verteilungen stehen sollen, wenn nicht für den Informationsgehalt.

Die sortierten Klassenhäufigkeiten von logarithmischen Normalverteilungen können nahe bei einer Zipf-Verteilung liegen
"Leerzeichen, Beistrich und Punkt" sind keine linguistischen Merkmale. Damit ist dieser ganze Absatz off-topic und kann entfallen.2A02:8108:9640:AC3:3DC8:D52B:7063:C71F 08:59, 11. Mai 2021 (CEST)Beantworten

Ergebnis umstritten[Quelltext bearbeiten]

Mit dem Zipfschen Gesetz wird versucht zu erklären, dass Wörter mit niedrigerem Informationsgehalt häufiger und Wörter mit höherem Informationsgehalt seltener in Texten vorkommen. Ob dies jedoch der Fall ist, ist zumindest umstritten.

Das ist eine völlige Verdrehung des Ansatzes. Mathematik "erklärt" überhaupt nichts, sondern versucht, eine Beobachtung formelhaft zu beschreiben. Quelle fehlt, missverstanden, überflüssig.2A02:8108:9640:AC3:3DC8:D52B:7063:C71F 08:59, 11. Mai 2021 (CEST)Beantworten

Homonyme und Polyseme[Quelltext bearbeiten]

Worte sind in Texten nicht voneinander unabhängig[Quelltext bearbeiten]

Der Informationsgehalt von Wörtern ist nicht einfach zu bestimmen. Ein Teil des Informationsgehaltes von Wörtern erklärt sich dadurch, dass ‘‘Wörter‘‘ in der Gewebestruktur von Texten (lat. textum = Gewobenes) zu ‘‘Worten‘‘ werden: Im Kontext beeinflussen die Wörter den übrigen Text und der übrige Text die Wörter, was die Wörter in der Interdependenz innerhalb des Textes zu Worten macht. Das bedeutet zum Beispiel, dass „EIN“ im Wörterbuch (unter anderem) ein unbestimmter Artikel in zwei Geschlechtern mit geringem Informationsgehalt, ein Zahlwort mit hohem Informationsgehalt, oder aber auch eine von einem Verbkompositum abgetrennte Vorsilbe mit schätzungsweise mittlerem Informationsgehalt sein kann; die tatsächliche Bedeutung erschließt sich erst in einem Text. Beim quantitativ-linguistischen Ansatz des zipfschen Gesetzes werden die Häufigkeiten ohne Ansehen des Bedeutungsgehaltes gezählt und wird kein ersichtlicher Bedacht darauf genommen, dass es sich bei einem Wort oft um unterschiedliche Begriffe handelt, die daher in verschiedenen Häufigkeiten Berücksichtigung finden sollten.

Wer den Unterschied zwischen "Worten" und "Wörtern" nicht einmal kennt, sollte sich lieber hier heraushalten.2A02:8108:9640:AC3:3DC8:D52B:7063:C71F 08:59, 11. Mai 2021 (CEST)Beantworten

Laute sind nicht voneinander unabhängig[Quelltext bearbeiten]

Den Buchstaben, die gezählt werden, entsprechen Laute. Die Laute eines Wortes, manchmal auch darüber hinaus, stehen miteinander in Verbindung und beeinflussen einander. Dieses phonetische Phänomen wirkt auf die Orthographie zurück und verändert das Auszählergebnis.

Beispiele:
Deutsch: Das Verhältnis - die VerhältniSSe (um die Aussprache eines harten "s" zu erhalten)
Italienisch: l' uovo ("l'" statt "il" vor Vokal)
Russisch: ljub-l-ju, ljubisch ("L" steht zwischen b,m,w,p,f und ja,jo,ju als Trennlaut)
Man sollte zumindest mal einleitend sagen, wovon man überhaupt spricht, und was das Ganze überhaupt soll. Hier z.B. über den Fall der Phonemquantität, im Unterschied zu weiteren Problemstellungen, z.B. der Wortverteilung.

Der zipfsche Ansatz ist möglicherweise verbesserbar[Quelltext bearbeiten]

Angeblich ist das empirisch gefundene und für Mandelbrot mathematisch nicht ableitbare parameterfreie zipfsche Gesetz (vgl. Mandelbrot, Benoît B., Die fraktale Geometrie der Natur, Basel 1987, S.360, ISBN 3-7643-1771-X) für eine Erkenntnis, dass es naturgemäße quasi-hyperbolische Verläufe objektiv sortierbarer relativer Häufigkeiten gibt, überhaupt nicht notwendig. Die Pareto-Verteilung beschreibt für xmin = 1 und r = 1 die Häufigkeiten der Zipf-Verteilung adäquat, wie auch die Benford-Verteilung der Form f(x) = 1/xlnB für B = exp(1/h1) und h1 die höchste relative Häufigkeit, die man stets renormieren muss. Streng zu beachten ist allerdings, dass jede zipfsche relative Häufigkeit für den Rang x als Integral unter der Zipf-Funktion im Intervall [x;x+1] gedacht werden muss, wohingegen die Werte der Pareto- als auch der Benford-Verteilung ‘‘Funktionswerte‘‘ sind, die diese zipfschen Teilintegrale abbilden. Als Basis zur Ermittlung der Gleichung der Zipf-Funktion eignet sich die Integralgleichung F(x+1)-F(x) = c/x.

χ²-Test spricht gegen Zipf[Quelltext bearbeiten]

Bei gegebenen relativen Buchstaben-Häufigkeiten aus einer Auszählung ergeben sich in der Praxis stets Differenzen zwischen theoretischer (zipfscher) Erwartung und beobachteter Häufigkeit. Stellt man den für die deutsche Sprache postulierten 32 zipfschen Häufigkeiten die tatsächlich in deutschen Texten beobachteten 32 Häufigkeiten gegenüber, darf man die sich ergebenden Differenzen mittels des bewährten Chi-Quadrat-Tests überprüfen. Dabei ergibt sich, dass bei einem in der Praxis üblichen Signifikanzniveau von 5% nicht mehr als 829 Buchstaben gezählt werden dürfen, damit die Hypothese, das zipfsche Gesetz gelte für die Buchstabenhäufigkeit in der deutschen Sprache, nicht schlicht zu verwerfen wäre. Das will sagen, dass man nicht einmal die Buchstaben einer normal beschriebenen A4-Seite auszählen dürfte, um eben noch behaupten zu können, das zipfsche Gesetz gelte für die Buchstabenverteilung im Deutschen. Ab 829 Zeichen kommt die große Diskrepanz zwischen zipfscher Erwartung und tatsächlicher Frequenz bei den höchsten Häufigkeiten zum Tragen. Die Häufigkeiten gemäß zipfschem Gesetz sind also zumindest für die erste Häufigkeit wahrscheinlich wesentlich zu hoch gegriffen und bedarf die Dimensionierung der Häufigkeiten daher einer alternativen mathematischen Beschreibung. Der Umstand, dass sich eine vergleichbare Situation auch bei den Buchstaben aus englischen Texten ergibt, beweist diese These nicht, erhärtet sie aber.

Mandelbrots Kritik an Zipf[Quelltext bearbeiten]

Der durch seine Arbeiten im Rahmen der Fraktalgeometrie bekannte Mathematiker Benoît Mandelbrot, der auch prinzipiell Positives über Zipfs Arbeiten anmerkt, schreibt kritisch: „Ein ernsthafter Mangel besteht bei ZIPF darin, dass er seine Ergebnisse an leere verbale Argumente gebunden und niemals in ein Gedankengebäude integriert hat“. Mandelbrots Notizen über Zipf schließen mit der betont höflichen Feststellung: „Bei ZIPF sind sehr deutlich die außerordentlichen Schwierigkeiten zu sehen, die jede interdisziplinäre wissenschaftliche Arbeit umgeben.“ (Mandelbrot, Benoît B.,Die fraktale Geometrie der Natur, Basel 1987, S.412, ISBN 3-7643-1771-X).


Kommentar: Zipf wollte nicht viel mehr zeigen als den hyperbolischen Zusammenhang von Häufigkeit und Rang. -- Anton 21:58, 4. Dez 2005 (CET)

Genau. Und damit ist das ganze Gelaber oben überflüssig.

Tabelle zur Überschrift Beispiel: an der falschen Stelle[Quelltext bearbeiten]

==84.172.60.222==

Die Tabelle steht wohl etwas an der falschen Stelle und sollte wohl eher zur Überschrift Beispiel, wo sie im Quelltext ja auch steht

Hallo 84.172.60.222, ohne Unterschrift und Datum ist es Glückssache, neue Diskussionsbeiträge auf dieser ausufernden Seite zu finden.
(1) Tabelle fehlte die abschließende Klammer.
(2) Zu deiner Bemerkung oben, dass Zipf mehr qualitativ als quantitativ zu bewerten sei: das ist auch meine Meinung. Gibt dies der Artikel nicht so wieder? Bitte verbessern!

Tabelle Einwohnerzahl <-> Zipf-Einwohner[Quelltext bearbeiten]

Die Tabelle sieht schön aus. Nur bin ich mir über die letzte Spalte Abweichung nicht ganz im Klaren. (1) Zipf hat wenigstens eine Fit-Konstante. Bei korrekter Anpassung sollten die Abweichungen wenigstens um 0 schwanken. (2) Der Fehler bei den wenigen großen Städten ist riesig.
M.E. sollte man die Tabelle zu Beispiel verschieben, wo auch die Größe der Städte diskutiert wird (zusammen mit dem Abschnitt BeispielE). --Anton 13:11, 29. Dez 2005 (CET)

Sollen das die größten deutschen Städte sein? Stuttgart fehlt. Vielleicht kann das jemand, der sich auskennt, noch mal neu berechnen? Danke! -- 10:54, 22.12.2010 (ohne Benutzername signierter Beitrag von 193.227.145.21 (Diskussion) )

In dem Beispiel mit den Städten, sollte man die Städte schon in die korrekte Reihenfolge bringen. Die beiden letzten sind vertauscht. Die Berechnung der Prozentzahlen ist unintuitiv. Wenn A größer ist als B und ich schreibe +10%, dann würde ich erwarten, dass A 110% von B ausmacht und nicht umgekehrt, dass B 90% von A ausmacht. Bei den kleinen Prozentzahlen fällt das nicht sehr auf, aber wenn A doppelt so groß wäre wie B, würde das als +50% verkauft werden und nicht als +100% wie erwartet. 194.31.198.71 12:41, 20. Okt. 2015 (CEST)Beantworten

Der Artikel ist klarer geworden[Quelltext bearbeiten]

Ja, jetzt scheint er mir viel verständlicher. Und Gottlob sind alle Versuche verschwunden, das benfordsche Gesetz als Spezialfall des Zipfschen Gesetzes zu sehen. Für den Fall, dass dies doch wieder versucht wird:

quote Der Begriff des benfordschen Gesetzes (NBL) zieht einige verbreitete Irrtümer im Schlepptau:

Wohl bedingt durch die verbreitete Darstellung des benfordschen Gesetzes als aus 9 Balken bestehendes Histogramm wird suggeriert, das benfordsche Gesetz mache eine Aussage über die Anfangsziffern von Zahlen aus dem dekadischen System (was als Teilaussage stimmen würde) und beruhe auf diskreten Funktionen. In Wahrheit macht das benfordsche Gesetz eine Aussage über beliebig lange Ziffernstrukturen in beliebigen Zahlensystemen und beruht ausschließlich auf stetigen Funktionen, wie z.B. der Dichtefunktion f(x) = 1/xlnB mit B als der Basis des Datensatzes.

Induziert durch einen optisch ähnlichen Funktionsverlauf und durch die unter Punkt 1 beschriebenen präsentationsbedingten Suggestivwirkungen wurde bisweilen schon spekuliert, das NBL sei nichts als ein Spezialfall des Zipfschen Gesetzes. Diese unhaltbare Annahme ist durch zwei Argumente leicht zu entkräften: Erstens basiert das Zipfsche Gesetz auf diskreten Funktionen, das NBL ausschließlich auf stetigen. Zweitens basiert die Verteilung des NBL auf der logarithmischen Funktion, die Verteilung des Zipfschen Gesetzes auf der Hyperbelfunktion. Von dem einen Phänomen zum anderen gelangt man bestenfalls über den Weg der Infinitesimalrechnung. Im Rahmen dieser Rechnungsart zeichnet sich nur die Funktion f(x)= exp(x) durch Identität mit ihrem Differential bzw. unbestimmten Integral aus. Da keines der beiden Phänomene explizit auf exp(x) beruht, kann das NBL kein Spezialfall des Zipfschen Gesetzes sein. unquote

Man könnte sogar so weit gehen und sagen: Die logarithmische Funktion läßt sich jederzeit als unendliche Summe von parabolischen Funktionen darstellen, aber nicht von hyperbolischen. Der Unterschied ist daher selbst bei optischen Ähnlichkeiten, die man nicht abstreiten kann, enorm.

Liebe Grüße Pard 03:05, 7. Jan 2006 (CET)

Wie du sieht, läßt sich Zipf auf Pareto zurückführen; damit wird es zu einer richtigen Verteilung (und über Pareto ließe sich auch eine Verteilungsdichte angeben). Die Frage Benford(Zipf) ist also geklärt.
Wie sieht es aus mit Benford(Pareto), beispielsweise als Wahrscheinlichkeitsdichte 1/x gemäß Zipf-1 mit Benford als Integral der Dichte = Wahrscheinlichkeitsfunktion? Siehe auch Weber-Fechner-Gesetz -> Stevenssche Potenzfunktion. Anton 14:20, 7. Jan 2006 (CET)

Den Satz:

Das [[Zipfsches Gesetz]] definiert Konstante als {Konstante = Rang * Häufigkeit}. Der perfekte Zipf liegt bei 0,99.

hierher verschoben: worauf bezieht sich Konstante, was ist ein Zipf, sind Selbstbezüge wie [[Zipfsches Gesetz]] üblich, Gramatik? Anton 14:43, 4. Mär 2006 (CET)

Doppelbeispiel hierher[Quelltext bearbeiten]

Folgendes Doppelbeispiel war lieblos hineingefügt worden, obwohl die gleichen weiter unten im Text bereits aufgeführt sind. Bitte überarbeiten und hinter den Abschnitt der Verteilungsfunktion einfügen. Anton 20:35, 29. Nov. 2006 (CET)Beantworten


==Beispiel

=== Worthäufigkeit Werden Wörter in einer Rangfolge nach ihrer Häufigkeit aufgelistet, ist die Häufigkeit eines Wortes nach dem Zipfschen Gesetz umgekehrt proportional zu seiner Rangstelle. So würde das fünfthäufigste Wort (Wort auf Platz 5) eine Häufigkeit von 1/5 des häufigsten Wortes haben, das zehnthäufigste eine Häufigkeit von 1/10 und so weiter.

=== Stadtgrößen Es wird auch versucht, das Zipfsche Gesetz auf die Einwohnerzahlen der Städte innerhalb von Staaten anzuwenden, aber nur bei wenigen passt die Liste auf das Gesetz, da sich die einzelnen Städte aufgrund von individuellen Rahmenbedingungen entwickeln, und nicht um ein statistisches Gesetz zu bestätigen.

Die Einwohnerzahlen der größten Städte Deutschlands wurden mit Hilfe des Zipfschen Gesetzes berechnet (Größe der größten Stadt 4.000.000, jeweils durch den Rang n geteilt:

Städte in Deutschland
Rang n Stadt Einwohner Bundesland berechnete Einwohnerzahl Abweichung
Stand 1989 Stand 1999 Stand 2003
1. Berlin 3.522.896 3.340.887 3.388.477 Berlin 4.000.000 15%
2. Hamburg 1.626.220 1.704.735 1.734.083 Hamburg 2.000.000 13%
3. München 1.206.683 1.194.560 1.247.873 Bayern 1.333.333 6%
4. Köln 946.280 962.507 965.954 Nordrhein-Westfalen 1.000.000 3%
5. Frankfurt 635.150 643.821 643.432 Hessen 800.000 20%
6. Dortmund 594.058 590.213 589.661 Nordrhein-Westfalen 666.666 12%
7. Essen 624.445 599.515 589.499 Nordrhein-Westfalen 571.428 -3%

Solche Annäherungen lassen sich für viele Größen, die in eine Rangfolge gestellt werden, ausführen. Weitere Beispiele sind die Energiefreisetzung bei den größten Vulkanausbrüchen, die Wirtschaftskraft der wirtschaftlich stärksten Staaten der Erde.

Grafik: Zipf-Verteilung der Worthäufigkeiten eines deutschen Textes[Quelltext bearbeiten]

In dieser Grafik hat sich bei der Darstellung der "beobachteten" Werte ein offensichtlicher Fehler eingeschlichen. Wenn die Worte nach Häufigkeit sortiert sind (x-Achse), kann kein Anstieg der Funktion (in der ersten Dekade zweimal gezeichnet) stattfinden. Ich vermute, dass nach Korrektur dieses Fehlers die f* und die f^-Werte noch näher aneinanderliegen. NeoGreen 12:18, 5. Dez. 2007 (CET)--Beantworten

Zu den Graphiken allgemein: wäre es nicht schöner, Rang * Wert zu zeichnen, was nach dem beschriebenen Gesetz näherungsweise konstant sein sollte? Mit den vorhandenen linearen und log Skalen in den Graphiken sieht man Fehler m.E. nicht so gut. --93.104.49.251 23:58, 16. Jul. 2014 (CEST)Beantworten

Poliert[Quelltext bearbeiten]

Einfache Zipf-Verteilung mit Normierungsfaktor hinzugefügt. Beispiel von oben neu gerechnet und eingefügt. Grafik neu gezeichnet; wie oben angemerkt muss die Verteilung monoton fallen. Berklas 22:23, 23. Mai 2008 (CEST)Beantworten

0,577[Quelltext bearbeiten]

Hallo alle zusammen! Könnte mir bitte jemand erklären, wie es zu dieser Konstante (0,577) kommt? Formel: Sidorenko 12:06, 18. Feb 2009

siehe Harmonische Reihe. -- 78.35.171.204 (22:07, 12. Feb. 2011 (CET), Datum/Uhrzeit nachträglich eingefügt, siehe Hilfe:Signatur)Beantworten

Ein typischer, verquaster Wiki-Mathe-Artikel[Quelltext bearbeiten]

Kein Mensch, der nicht erhebliches Vorwissen mathematischer Art hat, kann diesem Artikel Informationen entnehmen. Dies ist kein Lexikon für Mathematiker. Bedauerlich, daß sich noch niemand der Mühe unterzog, einen Absatz für die Doofen einzufügen.--Freud DISK 06:46, 13. Feb. 2011 (CET)Beantworten

Ich verstehe auch kein Wort. Ich werde mir wohl noch mal mehr Zeit nehmen müssen, um das hier durchzulesen. (Beispiel: Die Sachen mit den Rängen. Fünf mal gelesen, aber ich versteh's nicht) --87.180.106.193 20:52, 2. Jun. 2011 (CEST)Beantworten

Soll Rang Reihenfolge sein oder was ist das. Könnte man da falls nicht einen Link zu dem was es ist einbauen? (nicht signierter Beitrag von 2.164.19.66 (Diskussion) 20:25, 17. Sep. 2015 (CEST))Beantworten

Dem kann man nur zustimmen. Der Artikel ist völlig verkorkst, erkennbar an unzähligen Redundanzen ohne treffende Erklärung der verwendeten Begriffe. Bekannte deutsche Fachwissenschaftler der quantitativen Linguistik hat man offenbar - wikitypisch - so verärgert, dass sie auf eine Mitwirkung verzichten.2A02:8108:9640:AC3:4DF8:A0AF:4F2D:BE71 07:20, 6. Dez. 2021 (CET)Beantworten