Konjugierter Prior

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Fairytale Trash Question.svg
Dieser Artikel wurde auf der Qualitätssicherungsseite des Portals Mathematik zur Löschung vorgeschlagen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Mathematik auf ein akzeptables Niveau zu bringen. Dabei werden Artikel gelöscht, die nicht signifikant verbessert werden können.

Bitte hilf mit und beteilige dich an der Diskussion!

Dieser Artikel oder Abschnitt ist nicht allgemeinverständlich formuliert. Die Mängel sind unter Diskussion:Konjugierter Prior beschrieben. Wenn du diesen Baustein entfernst, begründe dies bitte auf der Artikeldiskussionsseite und ergänze den automatisch erstellten Projektseitenabschnitt Wikipedia:Unverständliche Artikel#Konjugierter Prior um {{Erledigt|1=~~~~}}.

WP:OMA kriegt da die Krise --Benutzer:Innobello 21:20, 12. Jul. 2014 (CEST)


Als Konjugierte Prioren (auch konjugierte A-priori-Verteilungen) bezeichnet man in der Bayesschen Statistik Familien von Wahrscheinlichkeitsverteilungen, die bezüglich einer Familie von Likelihood-Funktionen im Satz von Bayes sowohl die A-priori-Verteilung als auch die A-posteriori-Verteilung beschreiben. Zum Beispiel ist die Familie der Normalverteilungen selbstkonjugiert, also konjugierte Prioren für eine normalverteilte Likelihood. Das Konzept der konjugierten Prioren wurde von Howard Raiffa and Robert Schlaifer in ihrer Arbeit zu Bayesianische Entscheidungstheorie[1] eingeführt. Ein ähnliches Konzept wurde unabhängig von George Alfred Barnard[2] entdeckt.

Die Verwendung konjugierter Prioren vereinfacht die algebraische Bestimmung des Posteriors; sie ist in geschlossener Form möglich, wo ansonsten numerische Verfahren zum Einsatz gebracht werden müssten. Außerdem helfen konjugierte Prioren beim Verständnis der Anwendung des Satzes von Bayes, da sie den Vorgang des „Lernens“ transparent und nachvollziehbar machen.

Alle Mitglieder der Exponentialfamilie haben konjugierte Prioren, die in wissenschaftlicher Literatur dokumentiert sind.[3]

Tabellarischer Überblick über Likelihood-Verteilungen und konjugierte Prioren[Bearbeiten]

Im Folgenden sei n die Anzahl der Beobachtungen.

Wenn die Likelihood zur Exponentialfamilie gehört, existiert ein konjugierter Prior, der oft ebenfalls aus der Exponentialfamilie stammt.

Diskrete Verteilungen[Bearbeiten]

Likelihood Modellparameter Konjugierte Priorverteilungen Prior Hyperparameter Posterior Hyperparameter Interpretation der Hyperparameter[note 1] Posterior-Vorhersage[note 2]
Bernoulli p (Wahrscheinlichkeit) Beta \alpha,\, \beta\! \alpha + \sum_{i=1}^n x_i,\, \beta + n - \sum_{i=1}^n x_i\! \alpha - 1 Erfolge, \beta - 1 Misserfolge[note 1] p(\tilde{x}=1) = \frac{\alpha'}{\alpha'+\beta'}
Binomial p (Wahrscheinlichkeit) Beta \alpha,\, \beta\! \alpha + \sum_{i=1}^n x_i,\, \beta + \sum_{i=1}^nN_i - \sum_{i=1}^n x_i\! \alpha - 1 Erfolge, \beta - 1 Misserfolge[note 1] \operatorname{BetaBin}(\tilde{x}|\alpha',\beta')
(beta-binomial)
negative binomial
bekannte Anzahl der Misserfolge r
p (Wahrscheinlichkeit) Beta \alpha,\, \beta\! \alpha + \sum_{i=1}^n x_i,\, \beta + rn\! \alpha - 1 Gesamtzahl Erfolge, \beta - 1 Misserfolge[note 1] (d. h. \frac{\beta - 1}{r} Versuche mit festem r)
Poisson λ (Rate) Gamma k,\, \theta\! k+ \sum_{i=1}^n x_i,\ \frac {\theta} {n \theta  + 1}\! k Gesamtereignisse in 1/\theta Intervallen \operatorname{NB}(\tilde{x}|k', \frac{\theta'}{1+\theta'})
(negativ binomial)
Poisson λ (Rate) Gamma \alpha,\, \beta\! [note 3] \alpha + \sum_{i=1}^n x_i ,\ \beta + n\! \alpha Ereignisse in \beta Intervallen \operatorname{NB}(\tilde{x}|\alpha', \frac{1}{1+\beta'})
(negativ binomial)
Kategoriell p (Wahrscheinlichkeitsvektor), k (Anzahl der Kategorien, d. h. Dimension von p) Dirichlet \boldsymbol\alpha\! \boldsymbol\alpha+(c_1,\ldots,c_k), mit c_i Anzahl der Beobachtungen in Kategorie i \alpha_i - 1 Ereignisse in Kategorie i[note 1] p(\tilde{x}=i) = \frac{{\alpha_i}'}{\sum_i {\alpha_i}'}

    = \frac{\alpha_i + c_i}{\sum_i \alpha_i + n}

Multinomial p (Wahrscheinlichkeitsvektor), k (Anzahl der Kategorien, also Dimension von p) Dirichlet \boldsymbol\alpha\! \boldsymbol\alpha+\sum_{i=1}^n\mathbf{x}_i\! \alpha_i - 1 Ereignisse in Kategorie i[note 1] \operatorname{DirMult}(\tilde{\mathbf{x}}|\boldsymbol\alpha')
(Dirichlet-multinomial)
Hypergeometrisch
mit bekannter Populationsgröße N
M Anzahl mit zu untersuchender Eigenschaft beta-binomial[4] n=N, \alpha,\, \beta\! \alpha + \sum_{i=1}^n x_i,\, \beta + \sum_{i=1}^nN_i - \sum_{i=1}^n x_i\! \alpha - 1 Erfolge, \beta - 1 Misserfolge[note 1]
Geometrisch p0 (Wahrscheinlichkeit) Beta \alpha,\, \beta\! \alpha + n,\, \beta + \sum_{i=1}^n x_i\! \alpha - 1 Experimente, \beta - 1 gesamte Misserfolge[note 1]

Kontinuierliche Verteilungen[Bearbeiten]

Beachte: In den folgenden Fällen wird angenommen, dass die Daten aus n Punkten x_1,\ldots,x_n bestehen.

Likelihood Modellparameter Konjugierte Priorverteilungen Prior Hyperparameter Posterior Hyperparameters Interpretation der Hyperparameter Posterior-Vorhersage[note 4]
Normalverteilung
mit bekannter Varianz σ2
μ (mean) Normalverteilung \mu_0,\, \sigma_0^2\! \left.\left(\frac{\mu_0}{\sigma_0^2} + \frac{\sum_{i=1}^n x_i}{\sigma^2}\right)\right/\left(\frac{1}{\sigma_0^2} + \frac{n}{\sigma^2}\right),
 \left(\frac{1}{\sigma_0^2} + \frac{n}{\sigma^2}\right)^{-1}
Der Erwartungswert wurde geschätzt aus Beobachtungen mit Gesamtpräzision (Summe der einzelnen Präzisionen) \tau_0 = 1/\sigma_0^2 und mit dem Stichprobenmittel \mu_0 \mathcal{N}(\tilde{x}|\mu_0', {\sigma_0^2}' +\sigma^2)[5]
Normalverteilung
mit bekannter Präzision τ
μ (Erwartungswert) Normalverteilung \mu_0,\, \tau_0\!  \left.\left(\tau_0 \mu_0 + \tau \sum_{i=1}^n x_i\right)\right/(\tau_0 + n \tau),\, \tau_0 + n \tau Der Erwartungswert wurde geschätzt aus Beobachtungen mit Gesamtpräzision (Summe der einzelnen Präzisionen) \tau_0 und mit dem Stichprobenmittel \mu_0 \mathcal{N}\left(\tilde{x}|\mu_0', \frac{1}{\tau_0'} +\frac{1}{\tau}\right)[5]
Normalverteilung
mit bekanntem Mittelwert μ
σ2 (Varianz) Inverse gamma  \mathbf{\alpha,\, \beta} [note 5]  \mathbf{\alpha}+\frac{n}{2},\, \mathbf{\beta} + \frac{\sum_{i=1}^n{(x_i-\mu)^2}}{2} Die Varianz wurde geschätzt aus 2\alpha Beobachtungen mit Stichprobenvarianz \beta/\alpha (d. h mit der Summe der quadratischen Abweichungen 2\beta vom bekannten Erwartungswert \mu) t_{2\alpha'}(\tilde{x}|\mu,\sigma^2 = \beta'/\alpha')[5]
Normalverteilung
mit bekanntem Erwartungswert μ
σ2 (Varianz) Skalierte inverse Chi-Quadrat-Verteilung \nu,\, \sigma_0^2\! \nu+n,\, \frac{\nu\sigma_0^2 + \sum_{i=1}^n (x_i-\mu)^2}{\nu+n}\! Varianz wurde geschätzt aus \nu Beobachtungen mit Stichprobenvarianz \sigma_0^2 t_{\nu'}(\tilde{x}|\mu,{\sigma_0^2}')[5]
Normalverteilung
mit bekanntem Erwartungswert μ
τ (Präzision) Gamma \alpha,\, \beta\![note 3] \alpha + \frac{n}{2},\, \beta + \frac{\sum_{i=1}^n (x_i-\mu)^2}{2}\! Präzision wurde geschätzt aus 2\alpha Beobachtungen mit Stichprobenvarianz \beta/\alpha (d. h mit der Summe der quadratischen Abweichungen 2\beta vom bekannten Erwartungswert \mu) t_{2\alpha'}(\tilde{x}|\mu,\sigma^2 = \beta'/\alpha')[5]
Normalverteilung[note 6] μ and σ2
Assuming exchangeability
Normal-inverse gamma  \mu_0 ,\, \nu ,\, \alpha ,\, \beta \frac{\nu\mu_0+n\bar{x}}{\nu+n} ,\, \nu+n,\, \alpha+\frac{n}{2} ,\,
 
\beta + \tfrac{1}{2} \sum_{i=1}^n (x_i - \bar{x})^2 + \frac{n\nu}{\nu+n}\frac{(\bar{x}-\mu_0)^2}{2}
  •  \bar{x} is the sample mean
mean was estimated from \nu observations with sample mean \mu_0; variance was estimated from 2\alpha observations with sample mean \mu_0 and sum of squared deviations 2\beta t_{2\alpha'}\left(\tilde{x}|\mu',\frac{\beta'(\nu'+1)}{\alpha'\nu'}\right)[5]
Normalverteilung μ and τ
Assuming exchangeability
Normal-gamma  \mu_0 ,\, \nu ,\, \alpha ,\, \beta \frac{\nu\mu_0+n\bar{x}}{\nu+n} ,\, \nu+n,\, \alpha+\frac{n}{2} ,\,
 
\beta + \tfrac{1}{2} \sum_{i=1}^n (x_i - \bar{x})^2 + \frac{n\nu}{\nu+n}\frac{(\bar{x}-\mu_0)^2}{2}
  •  \bar{x} is the sample mean
mean was estimated from \nu observations with sample mean \mu_0, and precision was estimated from 2\alpha observations with sample mean \mu_0 and sum of squared deviations 2\beta t_{2\alpha'}\left(\tilde{x}|\mu',\frac{\beta'(\nu'+1)}{\alpha'\nu'}\right)[5]
Mehrdimensionale Normalverteilung mit bekannter Covarianzmatrix Σ μ (mean vector) Mehrdimensionale Normalverteilung \boldsymbol{\boldsymbol\mu}_0,\, \boldsymbol\Sigma_0 \left(\boldsymbol\Sigma_0^{-1} + n\boldsymbol\Sigma^{-1}\right)^{-1}\left( \boldsymbol\Sigma_0^{-1}\boldsymbol\mu_0 + n \boldsymbol\Sigma^{-1} \mathbf{\bar{x}} \right),
\left(\boldsymbol\Sigma_0^{-1} + n\boldsymbol\Sigma^{-1}\right)^{-1}
  • \mathbf{\bar{x}} is the sample mean
mean was estimated from observations with total precision (sum of all individual precisions)\boldsymbol\Sigma_0^{-1} and with sample mean \boldsymbol\mu_0 \mathcal{N}(\tilde{\mathbf{x}}|{\boldsymbol\mu_0}', {\boldsymbol\Sigma_0}' +\boldsymbol\Sigma)[5]
Mehrdimensionale Normalverteilung with known precision matrix Λ μ (mean vector) Mehrdimensionale Normalverteilung \mathbf{\boldsymbol\mu}_0,\, \boldsymbol\Lambda_0 \left(\boldsymbol\Lambda_0 + n\boldsymbol\Lambda\right)^{-1}\left( \boldsymbol\Lambda_0\boldsymbol\mu_0 + n \boldsymbol\Lambda \mathbf{\bar{x}} \right),\, \left(\boldsymbol\Lambda_0 + n\boldsymbol\Lambda\right)
  • \mathbf{\bar{x}} is the sample mean
mean was estimated from observations with total precision (sum of all individual precisions)\boldsymbol\Lambda and with sample mean \boldsymbol\mu_0 \mathcal{N}\left(\tilde{\mathbf{x}}|{\boldsymbol\mu_0}', ({{\boldsymbol\Lambda_0}'}^{-1} + \boldsymbol\Lambda^{-1})^{-1}\right)[5]
Mehrdimensionale Normalverteilung mit bekanntem Mittel μ Σ (covariance matrix) Inverse-Wishart \nu ,\, \boldsymbol\Psi n+\nu ,\, \boldsymbol\Psi + \sum_{i=1}^n (\mathbf{x_i} - \boldsymbol\mu) (\mathbf{x_i} - \boldsymbol\mu)^T  covariance matrix was estimated from \nu observations with sum of pairwise deviation products \boldsymbol\Psi t_{\nu'-p+1}\left(\tilde{\mathbf{x}}|\boldsymbol\mu,\frac{1}{\nu'-p+1}\boldsymbol\Psi'\right)[5]
Mehrdimensionale Normalverteilung mit bekanntem Mittel μ Λ (precision matrix) Wishart-Verteilung \nu ,\, \mathbf{V} n+\nu ,\, \left(\mathbf{V}^{-1} + \sum_{i=1}^n (\mathbf{x_i} - \boldsymbol\mu) (\mathbf{x_i} - \boldsymbol\mu)^T\right)^{-1}  covariance matrix was estimated from \nu observations with sum of pairwise deviation products \mathbf{V}^{-1} t_{\nu'-p+1}\left(\tilde{\mathbf{x}}|\boldsymbol\mu,\frac{1}{\nu'-p+1}{\mathbf{V}'}^{-1}\right)[5]
Mehrdimensionale Normalverteilung μ (mean vector) and Σ (covariance matrix) normal-inverse-Wishart \boldsymbol\mu_0 ,\, \kappa_0 ,\, \nu_0 ,\, \boldsymbol\Psi \frac{\kappa_0\boldsymbol\mu_0+n\mathbf{\bar{x}}}{\kappa_0+n} ,\, \kappa_0+n,\, \nu_0+n ,\,
  \boldsymbol\Psi + \mathbf{C} + \frac{\kappa_0 n}{\kappa_0+n}(\mathbf{\bar{x}}-\boldsymbol\mu_0)(\mathbf{\bar{x}}-\boldsymbol\mu_0)^T
  •  \mathbf{\bar{x}} is the sample mean
  • \mathbf{C} = \sum_{i=1}^n (\mathbf{x_i} - \mathbf{\bar{x}}) (\mathbf{x_i} - \mathbf{\bar{x}})^T
mean was estimated from \kappa_0 observations with sample mean \boldsymbol\mu_0; covariance matrix was estimated from \nu_0 observations with sample mean \boldsymbol\mu_0 and with sum of pairwise deviation products \boldsymbol\Psi t_{{\nu_0}'-p+1}\left(\tilde{\mathbf{x}}|{\boldsymbol\mu_0}',\frac{{\kappa_0}'+1}{{\kappa_0}'({\nu_0}'-p+1)}\boldsymbol\Psi'\right)[5]
Mehrdimensionale Normalverteilung μ (mean vector) and Λ (precision matrix) normal-Wishart \boldsymbol\mu_0 ,\, \kappa_0 ,\, \nu_0 ,\, \mathbf{V} \frac{\kappa_0\boldsymbol\mu_0+n\mathbf{\bar{x}}}{\kappa_0+n} ,\, \kappa_0+n,\, \nu_0+n ,\,
  \left(\mathbf{V}^{-1} + \mathbf{C} + \frac{\kappa_0 n}{\kappa_0+n}(\mathbf{\bar{x}}-\boldsymbol\mu_0)(\mathbf{\bar{x}}-\boldsymbol\mu_0)^T\right)^{-1}
  •  \mathbf{\bar{x}} is the sample mean
  • \mathbf{C} = \sum_{i=1}^n (\mathbf{x_i} - \mathbf{\bar{x}}) (\mathbf{x_i} - \mathbf{\bar{x}})^T
mean was estimated from \kappa_0 observations with sample mean \boldsymbol\mu_0; covariance matrix was estimated from \nu_0 observations with sample mean \boldsymbol\mu_0 and with sum of pairwise deviation products \mathbf{V}^{-1} t_{{\nu_0}'-p+1}\left(\tilde{\mathbf{x}}|{\boldsymbol\mu_0}',\frac{{\kappa_0}'+1}{{\kappa_0}'({\nu_0}'-p+1)}{\mathbf{V}'}^{-1}\right)[5]
Stetige Gleichverteilung  U(0,\theta)\! Pareto  x_{m},\, k\!  \max\{\,x_1,\ldots,x_n,x_\mathrm{m}\},\, k+n\! k Beobachtungen mit maximalem Wert x_m
Pareto
mit bekanntem Minimum xm
k (shape) Gamma \alpha,\, \beta\! \alpha+n,\, \beta+\sum_{i=1}^n \ln\frac{x_i}{x_{\mathrm{m}}}\! \alpha observations with sum \beta of the order of magnitude of each observation (i.e. the logarithm of the ratio of each observation to the minimum x_m)
Weibull
mit bekanntem Formfaktor β
θ (scale) Inverse gamma[4] a, b\! a+n,\, b+\sum_{i=1}^n x_i^{\beta}\! a observations with sum b of the β'th power of each observation
Logarithmische Normalverteilung
mit bekannter Präzision τ
μ (mean) Normalverteilung[4] \mu_0,\, \tau_0\!  \left.\left(\tau_0 \mu_0 + \tau \sum_{i=1}^n \ln x_i\right)\right/(\tau_0 + n \tau),\, \tau_0 + n \tau "mean" was estimated from observations with total precision (sum of all individual precisions)\tau_0 and with sample mean \mu_0
Logarithmische Normalverteilung
mit bekanntem Mittel μ
τ (precision) Gamma[4] \alpha,\, \beta\![note 3] \alpha + \frac{n}{2},\, \beta + \frac{\sum_{i=1}^n (\ln x_i-\mu)^2}{2}\! precision was estimated from 2\alpha observations with sample variance \frac{\beta}{\alpha} (i.e. with sum of squared log deviations 2\beta — i.e. deviations between the logs of the data points and the "mean")
Exponential λ (rate) Gamma \alpha,\, \beta\! [note 3] \alpha+n,\, \beta+\sum_{i=1}^n x_i\! \alpha observations that sum to \beta \operatorname{Lomax}(\tilde{x}|\beta',\alpha')
(Lomax distribution)
Gamma
mit bekanntem Formfaktor α
β (Rate) Gamma \alpha_0,\, \beta_0\! \alpha_0+n\alpha,\, \beta_0+\sum_{i=1}^n x_i\! \alpha_0 observations with sum \beta_0 \operatorname{CG}(\tilde{\mathbf{x}}|\alpha,{\alpha_0}',{\beta_0}')=\operatorname{\beta'}(\tilde{\mathbf{x}}|\alpha,{\alpha_0}',1,{\beta_0}') [note 7]
Inverse Gamma
mit bekanntem Formfaktor α
β (inverse Scala) Gamma \alpha_0,\, \beta_0\! \alpha_0+n\alpha,\, \beta_0+\sum_{i=1}^n \frac{1}{x_i}\! \alpha_0 observations with sum \beta_0
Gamma
mit bekannter Rate β
α (Form) \propto \frac{a^{\alpha-1} \beta^{\alpha c}}{\Gamma(\alpha)^b} a,\, b,\, c\! a \prod_{i=1}^n x_i,\, b + n,\, c + n\! b or c observations (b for estimating \alpha, c for estimating \beta) with product a
Gamma [4] α (Form), β (inverse Skala) \propto \frac{p^{\alpha-1} e^{-\beta q}}{\Gamma(\alpha)^r \beta^{-\alpha s}} p,\, q,\, r,\, s \! p \prod_{i=1}^n x_i,\, q + \sum_{i=1}^n x_i,\, r + n,\, s + n \! \alpha was estimated from r observations with product p; \beta was estimated from s observations with sum q

Fußnoten[Bearbeiten]

[note 1]

[note 2]

[note 4]

[note 3]

[note 5]

[note 7]

  1. a b c d e f g h i The exact interpretation of the parameters of a beta distribution in terms of number of successes and failures depends on what function is used to extract a point estimate from the distribution. The mode of a beta distribution is \frac{\alpha - 1}{\alpha + \beta - 2}, which corresponds to \alpha - 1 successes and \beta - 1 failures; but the mean is \frac{\alpha}{\alpha + \beta}, which corresponds to \alpha successes and \beta failures. The use of \alpha - 1 and \beta - 1 has the advantage that a uniform {\rm Beta}(1,1) prior corresponds to 0 successes and 0 failures, but the use of \alpha and \beta is somewhat more convenient mathematically and also corresponds well with the fact that Bayesians generally prefer to use the posterior mean rather than the posterior mode as a point estimate. The same issues apply to the Dirichlet-Verteilung.
  2. a b This is the posterior predictive distribution of a new data point \tilde{x} given the observed data points, with the parameters marginalized out. Variables with primes indicate the posterior values of the parameters.
  3. a b c d e β is rate or inverse scale. In parameterization of gamma distribution,θ = 1/β and k = α.
  4. a b This is the posterior predictive distribution of a new data point \tilde{x} given the observed data points, with the parameters marginalized out. Variables with primes indicate the posterior values of the parameters. \mathcal{N} and t_n refer to the normal distribution and Student's t-distribution, respectively, or to the multivariate normal distribution and multivariate t-distribution in the multivariate cases.
  5. a b In terms of the inverse gamma, \beta is a scale parameter
  6. A different conjugate prior for unknown mean and variance, but with a fixed, linear relationship between them, is found in the normal variance-mean mixture, with the generalized inverse Gaussian as conjugate mixing distribution.
  7. a b \operatorname{CG}() is a compound gamma distribution; \operatorname{\beta'}() here is a generalized beta prime distribution.

Einzelnachweise[Bearbeiten]

  1. Howard Raiffa and Robert Schlaifer. Applied Statistical Decision Theory. Division of Research, Graduate School of Business Administration, Harvard University, 1961.
  2. Jeff Miller et al. Earliest Known Uses of Some of the Words of Mathematics, "conjugate prior distributions". Electronic document, revision of November 13, 2005, retrieved December 2, 2005.
  3. Andrew Gelman, John B. Carlin, Hal S. Stern, and Donald B. Rubin. Bayesian Data Analysis, 2nd edition. CRC Press, 2003. ISBN 1-58488-388-X.
  4. a b c d e  Fink: A Compendium of Conjugate Priors. 1997.
  5. a b c d e f g h i j k l m Murphy, Kevin P. (2007). "Conjugate Bayesian analysis of the Gaussian distribution." [1]