Pareto-Verteilung
Die Pareto-Verteilung, benannt nach Vilfredo Pareto (1848–1923), ist eine stetige Wahrscheinlichkeitsverteilung auf einem rechtsseitig unendlichen Intervall
. Sie ist skaleninvariant und genügt einem Potenzgesetz. Für kleine Exponenten gehört sie zu den endlastigen Verteilungen.
Die Verteilung wurde zunächst zur Beschreibung der Einkommensverteilung Italiens verwendet. Paretoverteilungen finden sich charakteristischerweise dann, wenn sich zufällige, positive Werte über mehrere Größenordnungen erstrecken und durch das Einwirken vieler unabhängiger Faktoren zustande kommen. Verteilungen mit ähnlichen Eigenschaften sind die Zipfverteilung und das Benfordsche Gesetz.
Inhaltsverzeichnis |
Begriffsgeschichte[Bearbeiten]
Im zweiten Band des Cours d'économie politique von Vilfredo Pareto (1897) legt dieser dar, dass sich die Anzahl der Personen, welche innerhalb eines Staates ein höheres Einkommen als ein Schwellenwert
besitzen, näherungsweise proportional zu
ist, wobei der Parameter
länderübergreifend etwa 1,5 beträgt. Diese Vorgabe definiert bis auf Skalierung die nach Pareto benannte Wahrscheinlichkeitsverteilung (über die kumulierte Verteilungsfunktion). Auch zahlreiche andere empirische Verteilungen lassen sich gut als Paretoverteilung beschreiben, zum Beispiel Stadtgrößen oder Schadenshöhen in der Versicherungsmathematik.[1]
Definition[Bearbeiten]
Eine stetige Zufallsvariable
heißt pareto-verteilt
mit den Parametern
und
, wenn sie die Wahrscheinlichkeitsdichte
besitzt.
Dabei ist
ein Parameter, der den Mindestwert der Verteilung beschreibt. Dieser ist auch gleichzeitig der Modus der Verteilung, also die Maximalstelle der Wahrscheinlichkeitsdichte. Mit steigendem Abstand zwischen
und
sinkt die Wahrscheinlichkeit, dass
den Wert
annimmt. Der Abstand zwischen den beiden Werten wird als Quotient, das heißt als Verhältnis zwischen beiden Größen, bestimmt.
ist ein Parameter, der das Größenverhältnis der Zufallswerte in Abhängigkeit von ihrer Häufigkeit beschreibt. Mit
wird der Quotient potenziert. Bei einem größeren
verläuft die Kurve deutlich steiler, das heißt, die Zufallsvariable
nimmt große Werte mit geringerer Wahrscheinlichkeit an.
Die Wahrscheinlichkeit, mit der die Zufallsvariable
einen Wert kleiner oder gleich
annimmt, errechnet sich damit mit der Verteilungsfunktion
:
Damit errechnet sich die Wahrscheinlichkeit, dass die Zufallsvariable
Werte größer
annimmt, durch:
Eigenschaften[Bearbeiten]
Erwartungswert[Bearbeiten]
Der Erwartungswert ergibt sich zu:
Median[Bearbeiten]
Der Median ergibt sich zu
Varianz[Bearbeiten]
Die Varianz ergibt sich zu
Standardabweichung[Bearbeiten]
Aus der Varianz ergibt sich für
die Standardabweichung
Variationskoeffizient[Bearbeiten]
Aus Erwartungswert und Standardabweichung erhält man für
sofort den Variationskoeffizienten
Schiefe[Bearbeiten]
Für die Schiefe erhält man für 
Charakteristische Funktion[Bearbeiten]
Die charakteristische Funktion ergibt sich zu:
Dabei ist
die unvollständige Gammafunktion.
Momenterzeugende Funktion[Bearbeiten]
Die momenterzeugende Funktion ist für die Pareto-Verteilung nicht in geschlossener Form angebbar.
Entropie[Bearbeiten]
Die Entropie ergibt sich zu:
.
Zipfsches Gesetz[Bearbeiten]
Das Zipfsche Gesetz ist mathematisch mit der Pareto-Verteilung identisch (
- und
-Achse sind vertauscht). Während die Pareto-Verteilung die Wahrscheinlichkeit bestimmter Zufallswerte betrachtet, fokussiert das Zipfsche Gesetz die Wahrscheinlichkeit, mit der Zufallswerte eine bestimmte Position in der Rangfolge der Häufigkeit einnehmen.
Beziehung zur anderen Verteilungen[Bearbeiten]
Beziehung zur Exponentialverteilung[Bearbeiten]
Wenn
eine Pareto-verteilte Zufallsvariable
mit den Parametern
und
ist, dann ist
exponentialverteilt
mit dem Parameter
.
Beziehung zur verschobenen Pareto-Verteilung[Bearbeiten]
Wenn
eine Pareto-verteilte Zufallsvariable ist, dann genügt
einer verschobenen Pareto-Verteilung.
Ungleichverteilungsmaße und das Pareto-Prinzip[Bearbeiten]
Da die (Wahrscheinlichkeitsdichte der) Pareto-Verteilung ein einzelnes Maximum beim kleinsten Wert
hat, weisen Pareto-verteilte Größen das aus dem Pareto-Prinzip (auch 80-zu-20-Regel) bekannte Phänomen der Ungleichverteilung auf: Kleinere Werte sind recht häufig, große Werte hingegen sehr selten. Wie stark dieser Effekt ausgeprägt ist, hängt vom Parameter
ab.
Im Städte-Beispiel (s. Abbildung in der Einleitung) tragen wenige Großstädte überproportional zur Gesamtbevölkerung bei, während eine sehr große Zahl kleiner Städte nur wenige Einwohner stellt.
Zur Quantifizierung dieses Phänomens existieren verschiedene Ungleichverteilungsmaße. Für die Berechnung von Ungleichverteilungsmaßen beschreiben Verteilungen der Form „
zu
“
zwei Quantile, wobei die Breite des ersten Quantils der Höhe des zweiten Quantils und die Höhe des ersten Quantils der Breite des zweiten Quantils gleicht. Ein Beispiel für diese Art, Verteilungen darzustellen, ist das oft zitierte „80-20-Prinzip“. Es gilt beispielsweise, wenn 80 % einer Gruppe über 20 % der Ressourcen der Gruppe verfügen, und 20 % dieser Gruppe 80 % der Ressourcen nutzen können.
In der Lorenz-Kurve stellt sich dieser Sachverhalt in der Gestalt eines „stehenden“ und eines „liegenden“ Quantils dar.
und
müssen dabei jeweils im Bereich von 0 bis 1 liegen und es gilt:
. Der Gini-Koeffizient und die Hoover-Ungleichverteilung sind in diesem Fall gleich:
Für eine 80:20-Verteilung ergibt sich somit ein Gini-Koeffizient bzw. ein Hoover-Koeffizient von 0,6 bzw. 60 %.
Für diese Zwei-Quantile-Verteilungen ist dann auch der Theil-Index (ein Entropie-Maß) einfach zu berechnen:
Das Paretoprinzip kann als Merkhilfe für den Wertebereich des Theil-Index dienen. Der Index hat bei einer Gleichverteilung von 0,5:0,5 (50 % zu 50 %) einen Wert von 0 und nimmt bei etwa 0,82:0,18 (82 % zu 18 %) den Wert 1 an[2]. Das liegt ganz in der Nähe der Verteilung von 80 % zu 20 %. Oberhalb der Verteilung von 82 % zu 18 % ist der Theil-Index größer als 1.
Erkennen von Pareto-Verteilungen[Bearbeiten]
Ob eine Verteilung eine Pareto-Verteilung ist, kann man grafisch anhand doppelt-logarithmischer Darstellungen der Verteilungen abschätzen.
Die Wahrscheinlichkeitsdichte der Pareto-Verteilung kann man als Potenzgesetz
schreiben:
Auch
kann man in die Form
bringen:
Der (einfach) logarithmierte Graph
solcher Potenzgesetze ist
Nach Logarithmieren der
-Achse mit
(d.h., der tatsächliche
-Wert beträgt
, häufig wird die Achse jedoch direkt mit den
-Werten beschriftet) erhält man
was eine Gerade mit Anstieg
ist.
Im nebenstehenden Diagramm ist
für das Städtebeispiel doppelt-logarithmisch dargestellt. Man erkennt gut, dass der Graph über weite Teile tatsächlich gerade verläuft, mit einem Anstieg
, woraus sich der Parameter
ergibt.
Folglich lautet der Exponent der Dichtefunktion
, in guter Übereinstimmung mit der Literatur.
Für die Darstellung wurde
verwendet, weil es ein kumulatives Maß ist, das durch Aufsummierung (in der Theorie: Integrieren) vieler Einzelwerte entsteht, wodurch die Streuung einzelner Werte weniger stark ins Gewicht fällt. Bei Verwendung des Histogramms hingegen ist eine Summierung vieler Werte nur mit einer verringerten Anzahl der Intervalle zu realisieren, wodurch die Verteilung unrealistisch grob würde.
Literatur[Bearbeiten]
- Rainer Schlittgen: Einführung in die Statistik. Oldenbourg Wissenschaftsverlag 2003, ISBN 3-486-27446-5, S. 231 (Auszug in der Google Buchsuche)
- Karl Mosler, Friedrich Schmid: Wahrscheinlichkeitsrechnung und schließende Statistik. Springer 2006, ISBN 3-540-27787-0, S. 99 (Auszug in der Google Buchsuche)
- Pareto, Vilfredo (1897): Cours d’Economie Politique
Weblinks[Bearbeiten]
- Benford’s law, Zipf’s law, and the Pareto distribution in Terence Taos Blog.
- Universität Konstanz – Interaktive Animation
- Die Pareto-Verteilung auf Neue Statistik
Einzelnachweise[Bearbeiten]
- ↑ Michel Dekking: A modern introduction to probability and statistics: understanding why and how. Springer 2005, ISBN 1-85233-896-2, S. 63. (Auszug in der Google Buchsuche)
- ↑ 17.6,82.4 On-Line-Rechner: Ungleichverteilung
Diskrete univariate Verteilungen für endliche Mengen:
Benford | Bernoulli | beta-binomial | binomial | kategorial | hypergeometrisch | Rademacher | Zipf | Zipf-Mandelbrot
Diskrete univariate Verteilungen für unendliche Mengen:
Boltzmann | Conway-Maxwell-Poisson | negativ binomial | erweitert negativ binomial | Compound-Poisson | diskret uniform | discrete-Phase-Type | Gauss-Kuzmin | geometrisch | logarithmisch | parabolisch-fraktal | Poisson | Poisson-Gamma | Skellam | Yule-Simon | Zeta
Kontinuierliche univariate Verteilungen mit kompaktem Intervall:
Beta | Cantor | Kumaraswamy | raised Cosine | Dreieck | U-quadratisch | stetig uniform | Wigner-Halbkreis
Kontinuierliche univariate Verteilungen mit halboffenem Intervall:
Beta prime | Bose-Einstein | Burr | Chi-Quadrat | Coxian | Erlang | Exponential | F | Fermi-Dirac | Folded normal | Fréchet | Gamma | Gamma-Gamma | Extremwert | verallgemeinert invers Gauß | halblogistisch | halbnormal | Hotellings T-Quadrat | hyper-exponentiale | hypoexponential | invers Chi-Quadrat | scale-invers Chi-Quadrat | Invers Normal | Invers Gamma | Lévy | log-normal | log-logistisch | Maxwell-Boltzmann | Maxwell-Speed | Nakagami | nichtzentriert Chi-Quadrat | Pareto | Phase-Type | Rayleigh | relativistisch Breit-Wigner | Rice | Rosin-Rammler | shifted Gompertz | truncated normal | Type-2-Gumbel | Weibull | Wilks’ Lambda
Kontinuierliche univariate Verteilungen mit unbeschränktem Intervall:
Cauchy | Extremwert | exponential Power | Fishers z | Fisher-Tippett (Gumbel) | generalized hyperbolic | Hyperbolic-secant | Landau | Laplace | alpha-stabil | logistisch | normal (Gauß) | normal-invers Gauß’sch | Skew-normal | Studentsche t | Type-1-Gumbel | Variance-Gamma | Voigt
Diskrete multivariate Verteilungen:
Ewen | multinomial | Dirichlet compound multinomial
Kontinuierliche multivariate Verteilungen:
Dirichlet | generalized Dirichlet | multivariat normal | multivariat Student | normalskaliert invers Gamma | Normal-Gamma
Multivariate Matrixverteilungen:
Invers Wishart | Matrix-normal | Wishart




![\operatorname{m}(X) = x_{\min} \sqrt[k]{2}\ .](http://upload.wikimedia.org/math/c/9/6/c961ef3f83e873f0f2c66a301cd949f4.png)











