Diskussion:Verallgemeinerte Kleinste-Quadrate-Schätzung

Diverses[Quelltext bearbeiten]

Letzter Kommentar: vor 6 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Fußnote 8 verweist ins Leere ( Robertnowlan: Alexander Aitken) (Robertnowlan ?). Die Referenz Judge/Hill wird einmal mit 1988, einmal mit 1998 zitiert, in den Fußnoten fehlen die anderen Autoren, entweder werden die auch aufgeführt oder man verwendet Judge u.a. (wie man am Besten dasselbe Werk mehrfach referenziert steht hier Hilfe:Einzelnachweise) --Claude J (Diskussion) 08:33, 16. Aug. 2017 (CEST)Beantworten

Kandidatur vom 04. August 2017 bis zum 24. August 2017[Quelltext bearbeiten]

Letzter Kommentar: vor 6 Jahren30 Kommentare14 Personen sind an der Diskussion beteiligt

In der Statistik ist die Methode der verallgemeinerten kleinsten Quadrate auch verallgemeinerte Kleinste-Quadrate-Methode bzw. VKQ-Methode, Generalisierte Kleinste-Quadrate-Methode oder – engl. generalized least squares kurz GLS – eine Prozedur, um unbekannte wahre Regressionsparameter in einer linearen Regressionsgleichung, unter problematischen Voraussetzungen (vorliegen von Autokorrelation und Heteroskedastizität), unverzerrt zu schätzen. Die GLS-Methode kann benutzt werden, um bei einem Modell mit einer allgemeinen Fehlerstruktur zielführend eine lineare Regression durchzuführen. Eine verallgemeinerte Fehlerstruktur liegt vor, wenn ein bestimmter Grad an Korrelation zwischen den Residuen und eine nicht konstante Fehlervarianz zulässig sind. In diesen Fällen können die gewöhnliche Methode der kleinsten Quadrate und die Gewichtete Kleinste-Quadrate-Methode statistisch ineffizient sein oder sogar zu falschen Resultaten der statistischen Inferenz führen. Aus diesem Grund wird, um valide Resultate der statistischen Inferenz zu erhalten, eine Transformation des klassischen linearen Modells durchgeführt, durch welche die benötigten Annahmen für die statistische Inferenz weiterhin erfüllt sind. Die GLS-Methode minimiert im Gegensatz zur gewöhnlichen Methode der kleinsten Quadrate eine gewichtete Residuenquadratsumme. Sie wurde von Alexander Aitken entwickelt und 1934 veröffentlicht.

Liebe Wikipedianer, ich würde euch gerne diesen von mir erstellen Artikel, über eine sehr wichtige Methode in der Statistik, vorstellen und zur Kandidatur stellen. Grüße.--JonskiC (Diskussion) 01:21, 4. Aug. 2017 (CEST)Beantworten

Es steckt viel Arbeit im Artikel und das ist lobenswert. Dennoch sind viele Dinge verbesserungswürdig. Das fängt bei der äußerst umständlichen Einleitung an und endet bei Einzelunterpunkten in der Gliederung. Bei einem Artikel zu mathematischen Verfahren und Algorithmen muss m.E. immer ein Beispiel zur Untermalung dabei sein. So ist das leider nicht einmal lesenswert. 2003:46:1A72:6200:F0:52C5:2317:C29D 13:00, 4. Aug. 2017 (CEST)Beantworten

Ich erkenne auch die viele Arbeit an, halte den Artikel aber in dieser Form für nicht auszeichnungswürdig keine Auszeichnung. Er ist nicht allgemeinverständlich und hat bei der Geschichte zu viele Überlappungen mit dem Hauptartikel. Vielleicht sollte man ihn kürzen und dort als Unterkapitel einfügen. --Tubssy (Diskussion) 08:34, 6. Aug. 2017 (CEST)Beantworten

Danke für die Anregungen. Gruß.--JonskiC (Diskussion) 12:36, 6. Aug. 2017 (CEST)Beantworten

Die Gliederung ist in sich nicht stimmig. Es tritt wiederholt nur ein Unterpunkt auf. Wenn Unterpunkte gemacht werden, dann mindestens zwei. Zum Inhaltlichen kann ich nichts beitragen. --Armin (Diskussion) 11:45, 6. Aug. 2017 (CEST)Beantworten

Hallo JonskiC, der Kreis der hier Schreibenden ist am Ende dann doch überschaubar. Ein fachlich höchst anspruchsvoller Artikel wie dieser wird hier kaum adäquat bewertet werden können, ohne dass fachkundige Benutzer von außen hinzu gezogen werden. Gerade bei einem solchen Thema wäre es wichtig, auf den entsprechenden Seiten auf die Kandidatur hinzuweisen, zum Beispiel im Portal:Statistik oder der Exzellenzinitiative des Portals Portal:Mathematik. Eine weitere Möglichkeit bestände vielleicht darin, fachkundige Benutzer gezielt auf diese Kandidatur hinzuweisen. Tönjes 12:04, 6. Aug. 2017 (CEST)Beantworten

Tut mir leid für meine Wortwahl. Bezüglich des Beispiels hat die IP ja auch recht, das Beispiel mit der heteroskedastischen Fehlervarianz könnte ich noch weiter ausbauen. Kenne nur einen Benutzer von dem ich weiß, dass er sich mit dem Thema auskennt. Wenn der sich äußern könnte wäre es optimal. MfG.--JonskiC (Diskussion)

Anleitung kürzen und Fachbegriffe weitestgehend entfernen. 2D-Beispielsysteme mit und ohne korreliertem Rauschen raussuchen oder ausdenken, Messreihen generieren und darstellen, Modellparameter anpassen mit LS und GLS, Darstellung und Vergleich der Ergebnisse mit Konfidenzintervallen. Vielleicht ergänzend auch noch ein Beispiel mit extremen nicht-gaußschem Rauschen (vllt. multimodal) und auch nichtlinear eingebundenen Parametern, um die Grenzen von GLS aufzuzeigen. Mir steht leider kein Matlab oder ähnliches zur Verfügung. 2003:46:1A5E:A700:BDCE:6018:D645:D79A 15:42, 6. Aug. 2017 (CEST)Beantworten

Kleine Anmerkung: Ich bin aus dem Satz

„Weiterhin wird für das Modell angenommen, dass der Erwartungswert für

\mathbf {y}

gegeben

\mathbf {X}

eine lineare Funktion von

\mathbf {X}

ist, wobei

\mathbf {\Phi }

die Kovarianzmatrix der Fehlerterme

\mathbf {\Psi }

eine beliebige bekannte reelle nicht-singuläre positiv definite Matrix darstellt.“

gar nicht schlau geworden. Ist nicht eher „eine lineare Funktion von ${\boldsymbol {\beta }}$ “ gemeint? im Nebensatz „wobei …“ scheint mir auch die Grammatik nicht zu stimmen, wodurch er unverständlich wird. Außerdem ist mir nicht klar geworden, was $\sigma ^{2}$ ist, dazu wird gar nichts gesagt. -- HilberTraum (d, m) 19:21, 6. Aug. 2017 (CEST)Beantworten

Ok Unverständlichen Satz korrigiert. --JonskiC (Diskussion) 13:30, 8. Aug. 2017 (CEST)Beantworten

Mit

\sigma ^{2}

ist gemeint

\sigma ^{2}:=\sigma _{\varepsilon }^{2}

also

\operatorname {Var} (\varepsilon _{1})=\operatorname {Var} (\varepsilon _{2})=...=\operatorname {Var} (\varepsilon _{n})=\sigma ^{2}=\mathrm {const.}

. Das könnte man noch einfügen.Bzgl. der Linearität hast du recht, dass müsste heißen: linear in den Parametern. Danke für die Anmerkungen und Gruß!--JonskiC (Diskussion) 20:42, 6. Aug. 2017 (CEST)Beantworten

Und den Zusatz "gegeben $\mathbf {X}$ " müsste man streichen. Das ist übrig geblieben weil ich anfangs alles mit bedingten Erwartungswerten formuliert habe, was aber unnötig kompliziert war.--JonskiC (Diskussion) 20:50, 6. Aug. 2017 (CEST)Beantworten

HilberTraum

\sigma ^{2}\mathbf {I}

bedeutet dann Homoskedastizität, da eine konstante Kovmatrix vorliegt und

\sigma ^{2}\mathbf {\Psi }

bedeutend Heteroskedastizität. --JonskiC (Diskussion) 21:14, 6. Aug. 2017 (CEST)Beantworten

Sorry, aber deine Antworten „und

\sigma ^{2}\mathbf {\Psi }

bedeutend Heteroskedastizität“ zu

\sigma ^{2}

sind für mich völlig unverständlich, noch „schlimmer“ als im Artikel. Darum ernst gemeint nochmal die Frage: Was ist

\sigma ^{2}

im Fall des Artikels (Heteroskedastizität)? (Gerne auch formal mathematisch) -- HilberTraum (d, m) 22:43, 6. Aug. 2017 (CEST)Beantworten

\sigma ^{2}

ist die Varianz der Fehlerterme bzw. Residuen. Sigma ist ja ein Skalar und keine Zufallsvariable also hat jeder Fehlerterm die gleiche Streeung bzw. es liegt eine konstante Streeung vor.

\operatorname {Var} (\varepsilon _{1})=\operatorname {Var} (\varepsilon _{2})=...=\operatorname {Var} (\varepsilon _{n})=\sigma ^{2}=\mathrm {const.}

sagt nur dass die Varianz wie hier im Bild aussieht

Homoskedastizität: Die Streuung der Punkte um die Gerade in vertikaler Richtung ist konstant.

. Im multiplen Fall gilt dann natürlich

$\operatorname {E} (\varepsilon \varepsilon ^{\top })=\sigma ^{2}\mathbf {I}$ (Homoskedastizität) Vs. $\operatorname {E} (\varepsilon \varepsilon ^{\top })\neq \sigma ^{2}\mathbf {I}$ (Heterokedastizität) (siehe auch Einfache lineare Regression der Abschnitt zu Homoskedadtizität , da ist es auch mathematisch dargestellt). Mathematisch herleiten kann man sich homoskedastizität nicht da sie ja eine Annahme ist, Gruß --JonskiC (Diskussion) 23:57, 6. Aug. 2017 (CEST)Beantworten

Wir reden glaub ich etwas aneinander vorbei. Im Artikel wird immer wieder betont, dass Homoskedastizität nicht vorausgesetzt wird, aber trotzdem wird überall

\sigma ^{2}

verwendet. Was ist mit

\sigma ^{2}

gemeint, wenn Heteroskedastizität vorliegt? -- HilberTraum (d, m) 09:32, 7. Aug. 2017 (CEST)Beantworten

Achso okay, jetzt verstehe ich was du meinst. Das liegt daran, dass man die Matrix

\mathbf {\Psi }

noch weiter umformen kann. z.B. bei einem autoregeressiven Prozess 1. Ordnung kann man durch umformen einen konstanten Faktor aus der Matrix

\mathbf {\Psi }

ziehen. Da der Faktor konstant ist setzt man ihn per Definition gleich

\sigma ^{2}

(dann hat man eine Notaion analog zu Homoskedastizität). Bei Heteroskedastizität ist das auch so. Um das genau zu zeigen müsste ich das Beispiel aber noch ausbauen. Gruß.--JonskiC (Diskussion) 11:12, 7. Aug. 2017 (CEST)Beantworten

Ok Beudeutung von

\sigma ^{2}\mathbf {\Psi }

näher erläutert. --JonskiC (Diskussion) 13:57, 12. Aug. 2017 (CEST)Beantworten

Hm, wofür das

\sigma ^{2}

da ist, wird aber mMn immer noch nicht klar. Es sollte zumindest dastehen, dass

\sigma ^{2}

ein weiterer zu schätzender Parameter ist (sein kann?). Zum Beispiel unten bei „Anwendungen“ ist es bei

\mathbb {E} ({\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\top })={\begin{pmatrix}\sigma _{1}^{2}&0&\cdots &0\\0&\sigma _{2}^{2}&\ddots &\vdots \\\vdots &\ddots &\ddots &0\\0&\cdots &0&\sigma _{T}^{2}\end{pmatrix}}=\sigma ^{2}\mathbf {\Psi } =\mathbf {\Phi }

ziemlich unklar, wie

\sigma

konkret mit den

\sigma _{t}^{2}

zusammenhängt, also was gegeben und was gesucht ist. -- HilberTraum (d, m) 17:40, 13. Aug. 2017 (CEST)Beantworten

Ich verstehe die Problematik. Ich werde deshalb in nächster Zeit das Beispiel zur multiplikativen Heteroskedastizität erweitern, damit es verständlich wird. In der Monographie G. Judge, R. Carter Hill: Introduction to the Theory and Practice of Econometrics. 1998 ist es sehr gut erläutert. Ich könnte dir das besagte Buch eigentlich auch per Mail schicken, falls du mal lust hast reinzuschauen. Gruß. --JonskiC (Diskussion) 17:56, 13. Aug. 2017 (CEST)Beantworten

Ich (nicht HilberTraum) denke eher, dass du die Sache nicht wirklich verstanden hast. Diese Sprache spricht leider auch die Einleitung sehr deutlich, die sich wie ein wildes Sammelsurium unterschiedlichster Lehrbuchtextfragmente liest. Das Unverständnis in der Sache dürfte auch der Grund sein, weswegen du keine Beispiele im Artikel bringst. Aber nix für ungut, immerhin hat der Artikel viele Fachwörter. 2003:46:1A5A:F400:1506:B8B8:5F02:CF7B 19:08, 17. Aug. 2017 (CEST)Beantworten

Neutral mit Tendenz zu keine Auszeichnung. Es mag am Thema liegen oder daran, dass meine Schulzeit zu weit zurückliegt - aber für mich bleibt der Artikel schon in der Einleitung unverständlich. --2.162.234.107 23:34, 11. Aug. 2017 (CEST)Beantworten

Neutral Der Artikel scheint äußerst fundiert zu sein, ist nur meines Erachtens äußerst kompliziert – das sollte sich auf jeden Fall jemand anschauen, der Mathe studiert hat oder sehr gut in Mathe ist. Was ich bis jetzt verstanden habe ist, dass man die elliptische Kreisbahn von Planeten damit bestimmen kann, da ist mein Latein aber auch schon zu Ende. Wie auch schon zuvor kritisert, ist die Einleitung äußerst umständlich. Um hier keine Auszeichnung zu vergeben, scheint mir der Artikel zu gut zu sein. Allerdings kann ich es ehrlich nicht bewerten, deswegen gebe ich ein faires "Neutral". --Jojhnjoy (Diskussion) (Aktivität) (Schwerpunkte) 10:41, 12. Aug. 2017 (CEST)Beantworten

Lesenswert Das ist ein sehr hübscher Artikel. Viele geben Dir das gleiche Feedback, es müsste an manchen Stellen noch etwas mehr erklärt werden. Im Vergleich startet der Artikel Methode_der_kleinsten_Quadrate#Voraussetzungen mit: Man betrachtet eine abhängige Größe $y$ , die von einer Variablen $x$ oder auch von mehreren Variablen beeinflusst wird. So hängt die Dehnung einer Feder nur von der aufgebrachten Kraft ab, der Gewinn eines Unternehmens jedoch von mehreren Faktoren wie Umsatz, den verschiedenen Kosten oder dem Eigenkapital. Hier werden Physik oder Wirtschaft als anschauliche Anwendungsgebiete herangezogen. Ich denke, um den Unterschied in den Annahmen nicht nur zu nennen, sondern deutlich zu machen, kommt man um einen einführenden Abschnitt zu Autokorrelation und Heteroskedastizität nicht herum. Die Notwendigkeit der Verallgemeinerung sollte im Einstieg klar sein. Ein Vergleich:

KQM: mathematische Standardverfahren zur Ausgleichungsrechnung. Dabei wird zu einer Datenpunktwolke eine Kurve gesucht, die möglichst nahe an den Datenpunkten verläuft.

VKQM: In der Statistik eine Prozedur, um unbekannte wahre Regressionsparameter in einer linearen Regressionsgleichung, unter problematischen Voraussetzungen (vorliegen von Autokorrelation und Heteroskedastizität), unverzerrt zu schätzen.

Hier muss der Leser also Regressionsgleichungen, -Parameter (wahr oder unwahr?), die Voraussetzungen und (verzerrte oder unverzerrte) Schätzer kennen. Grüße --WissensDürster (Diskussion) 13:25, 12. Aug. 2017 (CEST)Beantworten

Danke für die hilfreichen Anmerkungen lieber WissensDürster. Ich habe direkt die Einleitung um ein paar Punkte ergänzt Ok, die die Notwendigkeit der Prozedur unterstreichen sollen. Grüße. --JonskiC (Diskussion) 13:56, 12. Aug. 2017 (CEST)Beantworten

Lesenswert Ein undankbares Thema, weil es sich in meinen Augen mit einer Technik befasst, die (sowohl didaktisch als auch praktisch) sich eher mit einem "Problem zweiter Ordnung" befasst, nämlich der Effizienz der Schätzung, und nicht ihrer Konsistenz oder Erwartungstreue. Letzteres lässt sich imho einfacher motivieren. Dazu kommt noch, dass mir spontan kein aktuelles Paper einfällt, dass GLS wirklich benutzt, zumindest in der Ökonomie. Einerseits ist der Fokus da stark auf Konsistenz, andererseits gibt es ja seit den 80er robuste Standardfehler, die einen großen Teil der Probleme von Autokorrelation und Heteroskedaszität lösen. Schlussendlich muss man ja bei GLS in der Praxis auch durchaus heftige Annahmen treffen. Aber das sind nur meine zwei Cents. Sorry. Exkurs Ende und zurück zum Artikel. Ja, besonders allgemeinverständlich ist er nicht, und andere Benutzer haben hier schon Vorschläge gemacht, die ich auch gutheiße. Andererseits ist das auch schon ein fortgeschrittenes Thema, im Endeffekt eine Verfeinerung der OLS-Schätzung. Realiter werden die meisten Leser, die diese Seite besuchen, also wahrscheinlich entweder schon den OLS-Artikel gelesen haben oder zumindest die Inhalte davon kennen, und dann empfinde ich den Artikel als okay. Meine Hauptkritik ist, dass der Artikel GLS vielleicht ein wenig zu sehr „verkauft“. GLS bringt mir die Effizienz wieder zurück, die OLS verliert, wenn Homoskedaszitität nicht gilt, und erlaubt es, korrekte Standardfehler zu schätzen. Für letzteres Problem gibt es inzwischen aber andere Methoden, die imho auf weniger restriktiven Annahmen beruhen, und Effizienz ist oft eine sekundäre (oder tertiäre) Erwägung. Ganz alleine stehe ich damit nicht da, denn [r}obust standard errors, automated clustering, and larger samples have also taken the steam out of issues like heteroskedasticity and serial correlation. A legacy of White’s (1980a) paper on robust standard errors, one of the most highly cited from the period, is the near death of generalized least squares in crossectional applied work. In the interests of replicability, and to reduce the scope for errors, modern applied researchers often prefer simpler estimators though they might be giving up asymptotic efficiency. In diese Richtung zielen auch die meisten meiner Kritteleien:

„eine Prozedur, um unbekannte wahre Regressionsparameter in einer linearen Regressionsgleichung, unter problematischen Voraussetzungen (vorliegen von Autokorrelation und Heteroskedastizität), unverzerrt zu schätzen“ Unbesehen der validen Anmerkungen von WissenDürster eins über mir: Warum der Fokus auf unverzerrt? Unverzerrt schätzen kann ich bei Autokorrelation und Heteroskedastizität auch mit OLS, dafür brauche ich kein GLS. Der Fokus von GLS ist doch vor allem, wieder effizient zu schätzen.
„Die verallgemeinerte kleinste Quadrate-Schätzung baut auf der Gauß-Markov-Theorie auf und spielt immer noch eine große Rolle in theoretischen und praktischen Aspekten der statistischen Inferenz in generalisierten linearen Modellen.“ Da habe ich irgendwie so meine Zweifel, zumindest, was die praktischen Aspekte angeht. Aber gut, die Quelle sagt so…
„Für gewöhnlich stellt man an ein solches Modell die Anforderung, dass die Gauß-Markov-Annahmen gelten sollen. Dies soll hier aber nicht der Fall sein, da man nicht opportunistisch von problematischen Voraussetzungen ausgeht. Aus diesem Grund wird ein Modell betrachtet, bei dem eine allgemeine Fehlerstruktur zulässig ist.“ Naja, die meisten GM-Annahmen werden ja trotzdem angenommen, einzig die Homoskedazistität wird vernachlässigbar. In der Praxis dürfte ein zero conditional mean in den meisten Fällen ähnlich unrealistisch sein wie Homoskedaszitität ;)
„Es wird jedoch ersichtlich, dass die Kovarianzmatrix bei einem Modell mit allgemeiner Fehlerstruktur zwar unverzerrt, aber nicht mehr effizient ist.“ Ist hier nicht der Punktschätzer gemeint?
„Aus diesem Grund sollte man die Intervallschätzung auf dem verallgemeinerten Kleinste-Quadrate-Schätzer aufbauen.“ oder robuste Standard-Fehler à la Eicker-Huber-White benutzen.

Viele Grüße,--SEM (Diskussion) 08:50, 13. Aug. 2017 (CEST)Beantworten

Vielen Dank SEM für die wirklich hilfreichen Anmerkungen. Du hast recht in der Einleitung müsste man "unverzerrt" gegen "effizient" austauschen und habe dies soeben getan Ok, da der Fokus auf der Effizienz liegt. Ich denke vorallem in der Lehre, aber auch in der Forschung ist die Methode der verallgemeinerten kleinsten Quadrate noch von großer Relevanz. Vielleicht wird dies in den nächsten Jahren abnehmen, wenn neue bessere Verfahren entwickelt werden, aber zurzeit denke ich hat das Thema noch Top-Relevanz hat (siehe dazu auch die Einstufung in der englischsprachigen Wikipedia). Zu deinem genannten vierten Punkt hast du auch Recht. Da muss ich mich vertan haben. Habe es korrigiert Ok.

Deinen Zusatz mit dem robusten Standard-Fehler à la Eicker-Huber-White habe ich ebenfalls ergänzt Ok

Beste Grüße, --JonskiC (Diskussion) 15:26, 13. Aug. 2017 (CEST)Beantworten

Info: Die Kandidatur könnte ausgewertet werden, wäre zum jetzigen Zeitpunkt allerdings gescheitert. Da es inzwischen einige fundierte Stellungnahmen gibt und der Autor weiter am Artikel arbeitet, wäre ich dafür, die Kandidatur um 10 Tage zu verlängern. Die Auswertung könnte dann ab dem 24. 08 erfolgen. Tönjes 16:17, 14. Aug. 2017 (CEST)Beantworten

Die Kandidatur IST gescheitert. Der Hauptautor hat das Thema nicht richtig verstanden, sondern lediglich Lehrbuchfragmente zusammengekleistert. Das sieht man ganz deutlich bei den ausweichenden Antworten auf die Fragen des Mathematikers HilberTraum. Entsprechend schlecht und unverständlich für Dritte ist das eigentlich gut erklär- und vor allem illustrierbare Thema dargestellt. Die Einleitung beispielsweise ist eine mittlere Katastrophe. Auf meine zunächst recht freundlich formulierten Anmerkungen (Einzelgliederungspunkte, Beispiele, Unterschiede zu anderen Verfahren) wurde überhaupt nicht eingegangen, stattdessen kamen wüste und inzwischen wieder gelöschte verbale Ausfälle auch gegen andere Kritiken. 2003:46:1A5B:200:E40D:D4D2:5618:1DD8 09:19, 21. Aug. 2017 (CEST)Beantworten

keine Auszeichnung Viel zu unverständlich, die Geschichte beginnt auch nicht erst 1801, sondern bereits im 17./18. Jahrhundert mit der Bestimmung der Erdfigur.--Sinuhe20 (Diskussion) 10:04, 22. Aug. 2017 (CEST)Beantworten

Mit zwei Stimmen Lesenswert, zwei Stimmen Neutral und drei Stimmen keine Auszeichnung ist die Kandidatur dieser Version gescheitert, der Artikel bleibt ohne Auszeichnung. Tönjes 08:46, 24. Aug. 2017 (CEST)Beantworten

Nochmal $\sigma ^{2}$ [Quelltext bearbeiten]

Letzter Kommentar: vor 5 Jahren13 Kommentare2 Personen sind an der Diskussion beteiligt

Hallo JonskiC (Diskussion), habe gerade die Diskussion zur Kandidatur im vergangenen Jahr gelesen. Das $\sigma ^{2}$ ist tatsächlich dubios und sollte ersatzlos gestrichen werden. Sinn macht es bestenfalls beim Beispiel Autokorrelation mit gleicher Varianz pro Fehlerterm. Bei Heteroskedastie (aber Unkorelliertheit), warum sollte da ein ominöser Faktor abgespaltet werden? Und erst recht bei unterschiedlichen Fehlervarianzen und Korreliertheit! Also alles mit $\mathbf {\Phi }$ formulieren! Sonntagsgruß --Trabeschaur (Diskussion) 12:25, 18. Nov. 2018 (CET)Beantworten

Hallo Trabeschaur! Nein, die Schreibweise mit

\sigma ^{2}

ist absolut korrekt und sollte daher beibehalten werden. Die Schreibweise mit

\sigma ^{2}

beschreibt ja gerade die Notation mit Heteroskedastizität. Nur in manchen Fällen kann man

\sigma ^{2}

weglassen z.B. bei dieser Gleichheit

\left(\mathbf {X} ^{\top }\mathbf {\Phi } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {\Phi } ^{-1}\mathbf {y} =\left(\mathbf {X} ^{\top }(\sigma ^{2}\mathbf {\Psi } )^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }(\sigma ^{2}\mathbf {\Psi } )^{-1}\mathbf {y} =\left(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {y}

. Bei Heteroskedastie (aber Unkorelliertheit) wird das nur so notiert um den Unterschied zur Homoskedastie herauszustellen.

Die Matrix $\mathbf {\Phi }$ ist nun mal definiert als $\sigma ^{2}\mathbf {I} _{T}$ . Ebenfalls Sonntagsgrüße. PS: Vielleicht ist es im Artikel zu unklar formuliert, sodass Hilbertraum damals nicht richtig verstanden hat was ich meinte. Ich werde in den nächsten Tagen versuchen das klarer zu formulieren. Ich denke hier ist es ganz gut erklärt: [1].pdf--Jonski (Diskussion) 13:53, 18. Nov. 2018 (CET) Beispiel bei Autokorrelation 1. Ordnung gilt jaBeantworten

\mathbb {E} (\varepsilon _{t}\varepsilon _{t-s})=\rho ^{s}\sigma _{\varepsilon }^{2}={\frac {\rho ^{s}\sigma _{\nu }^{2}}{1-\rho ^{2}}}

.

und damit

{\begin{aligned}\mathbb {Cov} [{\boldsymbol {\varepsilon }}]=\mathbb {E} [{\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\top }]&=\mathbb {E} {\begin{pmatrix}\varepsilon _{1}^{2}&\varepsilon _{1}\varepsilon _{2}&\cdots &\varepsilon _{1}\varepsilon _{T}\\\\\varepsilon _{2}\varepsilon _{1}&\varepsilon _{2}^{2}&\cdots &\varepsilon _{2}\varepsilon _{T}\\\\\vdots &\vdots &\ddots &\vdots \\\\\varepsilon _{T}\varepsilon _{1}&\varepsilon _{T}\varepsilon _{2}&\cdots &\varepsilon _{T}^{2}\end{pmatrix}}={\begin{pmatrix}\operatorname {Var} (\varepsilon _{1})&\operatorname {Cov} (\varepsilon _{1},\varepsilon _{2})&\cdots &\operatorname {Cov} (\varepsilon _{1},\varepsilon _{T})\\\\\operatorname {Cov} (\varepsilon _{2},\varepsilon _{1})&\operatorname {Var} (\varepsilon _{2})&\cdots &\operatorname {Cov} (\varepsilon _{2},\varepsilon _{T})\\\\\vdots &\vdots &\ddots &\vdots \\\\\operatorname {Cov} (\varepsilon _{T},\varepsilon _{1})&\operatorname {Cov} (\varepsilon _{T},\varepsilon _{2})&\cdots &\operatorname {Var} (\varepsilon _{T})\end{pmatrix}}\\&={\begin{pmatrix}{\frac {\sigma _{\nu }^{2}}{1-\rho ^{2}}}&\rho {\frac {\sigma _{\nu }^{2}}{1-\rho ^{2}}}&\cdots &\rho ^{T-1}{\frac {\sigma _{\nu }^{2}}{1-\rho ^{2}}}\\\\\rho {\frac {\sigma _{\nu }^{2}}{1-\rho ^{2}}}&{\frac {\sigma _{\nu }^{2}}{1-\rho ^{2}}}&\cdots &\rho ^{T-2}{\frac {\sigma _{\nu }^{2}}{1-\rho ^{2}}}\\\\\vdots &\vdots &\ddots &\vdots \\\\\rho ^{T-1}{\frac {\sigma _{\nu }^{2}}{1-\rho ^{2}}}&\rho ^{T-2}{\frac {\sigma _{\nu }^{2}}{1-\rho ^{2}}}&\cdots &{\frac {\sigma _{\nu }^{2}}{1-\rho ^{2}}}\end{pmatrix}}=\sigma _{\nu }^{2}\underbrace {\begin{pmatrix}{\frac {1}{1-\rho ^{2}}}&\rho {\frac {1}{1-\rho ^{2}}}&\cdots &\rho ^{T-1}{\frac {1}{1-\rho ^{2}}}\\\\\rho {\frac {1}{1-\rho ^{2}}}&{\frac {1}{1-\rho ^{2}}}&\cdots &\rho ^{T-2}{\frac {1}{1-\rho ^{2}}}\\\\\vdots &\vdots &\ddots &\vdots \\\\\rho ^{T-1}{\frac {1}{1-\rho ^{2}}}&\rho ^{T-2}{\frac {1}{1-\rho ^{2}}}&\cdots &{\frac {1}{1-\rho ^{2}}}\end{pmatrix}} _{=:{\boldsymbol {\Psi }}}=\sigma _{\nu }^{2}{\boldsymbol {\Psi }}={\boldsymbol {\Phi }}\end{aligned}}

.

(für Heteroskedastie lassen sich analoge Beispiele finden) Jetzt klarer?--Jonski (Diskussion) 15:42, 18. Nov. 2018 (CET)Beantworten

Nicht wirklich, lieber Jonski (Diskussion). Dass in Spezialfällen wie Autokorrelation ein vernünftiger Faktor herausgezogen werden kann, bestreite ich nicht. Doch was bringt das? Wenn man den Faktor im allg. Fall als beliebig annimmt und mit

\sigma ^{2}

bezeichnet, suggeriert das doch so etwas wie Varianz. Nach meinem Geschmack würde ich alles mit dem allgemeinen

\mathbf {\Phi }

machen. Wenn

\mathbf {\Phi } =\sigma ^{2}{\boldsymbol {I}}

, dann ist man bei der klassischen KQ. Wenn man dann die Formel für die VKQ mit

\mathbf {\Phi }

(und nicht mit

\mathbf {\Psi }

) hat, kann man ja noch sagen, dass diese invariant bzgl. anderer Skalierung von

\mathbf {\Phi }

ist, d.h. dass zur Berechnung der VKQ die Fehlerkovarianzmatrix nur bis auf einen Faktor bekannt sein muss.-- So, nun halte ich aber das dritte Gebot ein! --Trabeschaur (Diskussion) 17:02, 18. Nov. 2018 (CET)Beantworten

Hallo Trabeschaur

\sigma ^{2}

(die Varianz der Fehlerterme) ist ja auch nur ein beliebiger konstanter Faktor bzw. Skalar, da bei Homoskedastizität Varianzhomogenität bzw. Varianzkonstanz vorliegt. Aber dieser konstanter Faktor ist die Varianz der Fehlerterme. Deswegen schreibt man ja auch

\operatorname {Var} (\varepsilon _{i})=\sigma ^{2}=\mathrm {beliebigerkonstanterFaktor}

statt

\sigma ^{2}=\operatorname {Var} (\varepsilon _{i})

. Man will bei Heteroskedastizität ja auch eine Analogie zu Fall Homoskedastizität herstellen deswegen notiert man das so. Bei Homoskedasitzität ist es ja

\sigma ^{2}\mathbf {I}

und bei Heteroskedastizität

\sigma ^{2}\mathbf {\Psi }

und dann kann man einfach sagen

\mathbf {\Sigma } :=\sigma ^{2}\mathbf {I} =\sigma ^{2}\mathbf {\Psi } =:\mathbf {\Phi } \Longleftrightarrow \mathbf {\Psi } =\mathbf {I} \Longleftrightarrow ({\boldsymbol {P}}^{-1})(({\boldsymbol {P}}^{\top })^{-1})=\mathbf {I}

. Du sagst: Wenn

\mathbf {\Phi } =\sigma ^{2}{\boldsymbol {I}}

, dann ist man bei der klassischen KQ. Damit sagst du dann ja damit nichts anderes als: „Das verallgemeinerte lineare Regressionsmodell mit Heteroskedastizität und/oder Autokorrelation ist gleich dem multiplen linearen Regressionsmodell mit Homoskedastizität, wenn die Modelle gleich sind.“ Das macht keinen Sinn. Es müsste doch heißen: „Das verallgemeinerte lineare Regressionsmodell mit Heteroskedastizität und/oder Autokorrelation ist gleich dem multiplen linearen Regressionsmodell mit Homoskedastizität, wenn

\mathbf {\Psi }

geeignet gewählt ist.“ Ja das stimmt, aber wie willst du dann mittels der Cholesky-Zerlegung auf die Matrix

\sigma ^{2}{\boldsymbol {I}}

kommen? Beim VKQ-Schätzer kann man ja

\mathbf {\Phi }

bennutzen (die Darstellungen sind äquivalent wie im Artikel steht), aber wie willst du dann z.B. diese Formel

\mathbf {\Sigma } _{{\widehat {\boldsymbol {\beta }}}_{\text{VKQ}}}=\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} )^{-1}

nur mit

\mathbf {\Phi }

darstellen, sodass man die Analogie zu

\mathbf {\Sigma } _{{\widehat {\boldsymbol {\beta }}}_{\text{KQ}}}=\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}

im KQ-Fall erkennt? Anhand der Matrix

\mathbf {\Psi } ^{-1}

soll man ja erkennen, dass die Gauß-Markov-Annahmen dadurch erfüllt sind, dass man

{\boldsymbol {P}}\mathbf {\Psi } {\boldsymbol {P}}^{\top }=\mathbf {I}

setzt; wie lässt sich mit der Matrix

\mathbf {\Phi }

zeigen, dass die Gauß-Markov-Annahmen erfüllt sind? Vielleicht verstehe ich auch einfach nicht was du meinst. Ich werde nochmal versuchen intensiv darüber nachzudenken. PS: Welches dritte Gebot meinst du? --Jonski (Diskussion) 17:41, 18. Nov. 2018 (CET)Beantworten

Hallo Jonski (Diskussion), da bin ich wieder. Hast ja noch lange bis in die Nacht gearbeitet! Deine neuesten Ergänzungen machen's m.E. nicht wirklich besser, sie blähen eigentlich nur auf. Wahrscheinlich reden wir viel zu kompliziert über eigentlich einfache Dinge. Klar ist uns doch, dass die VKQ die KQ als Speziealfall enthalten muss, und zwar im Fall der Homoskedastie $\operatorname {Cov} [{\boldsymbol {\varepsilon }}]=\sigma ^{2}\mathbf {I} _{T}$ . (Übrigens heißt es, glaube ich, besser Homoskedastie und nicht Homoskedastizität, genauso mit Heteroskedastie.) Jetzt im allgemeinen Fall haben wir $\operatorname {Cov} [{\boldsymbol {\varepsilon }}]=\mathbf {\Phi }$ und damit dann ${\widehat {\boldsymbol {\beta }}}_{\text{VKQ}}=\left(\mathbf {X} ^{\top }\mathbf {\Phi } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {\Phi } ^{-1}\mathbf {y}$ mit $\mathbf {\Sigma } _{{\widehat {\boldsymbol {\beta }}}_{\text{VKQ}}}=(\mathbf {X} ^{\top }\mathbf {\Phi } ^{-1}\mathbf {X} )^{-1}$ . Im Spezialfall $\mathbf {\Phi } =\sigma ^{2}\mathbf {I} _{T}$ bekommt man natürlich die klassischen Lösungen ${\widehat {\boldsymbol {\beta }}}_{\text{KQ}}=\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {y}$ mit $\mathbf {\Sigma } _{{\widehat {\boldsymbol {\beta }}}_{\text{KQ}}}=\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}$ . Klar kann man auch mit dem symmetrischen und positiv definiten $\mathbf {\Phi }$ eine Choleskizerlegung machen und führt damit formal das verallgemeinerte Modell auf das klassische mit $\operatorname {Cov} [{\boldsymbol {\varepsilon }}]=\mathbf {I} _{T}$ zurück. Also immer wieder meine Frage: Wozu brauchst Du wirklich $\sigma ^{2}$ , verwirrenderweise mal als $1$ , mal als beliebigen Faktor? Was ist z.B $\sigma ^{2}$ in folgendem simplen Zweipunkte-Beispiel: $\operatorname {Var} y_{1}=1,\ \operatorname {Var} y_{2}=4,\ \operatorname {Cov} (y_{1},y_{2})=1,5$ . Damit ist $\mathbf {\Phi } ={\begin{pmatrix}1&1,5\\1,5&4\end{pmatrix}}$ .

Ach so, mit dem dritten Gebot meine ich das christliche: "Du sollst den Feiertag heiligen." --Trabeschaur (Diskussion) 14:26, 19. Nov. 2018 (CET)Beantworten

Hallo Trabeschaur. Ja,

\sigma ^{2}

sollte das Ergebnis nicht verändern, da das Skalar ein Proportionalitätsfaktor ist. Bei deinem Beispiel kann mand dann einfach ein

\sigma ^{2}

rausziehen.

Hallo Jonski (Diskussion). Wenn Du

\sigma ^{2}

herausziehst, arbeitest du dann also lieber mit

\mathbf {\Psi } ={\begin{pmatrix}{\frac {1}{\sigma ^{2}}}&{\frac {1,5}{\sigma ^{2}}}\\{\frac {1,5}{\sigma ^{2}}}&{\frac {4}{\sigma ^{2}}}\end{pmatrix}}

als mit dem klaren und einfachen

\mathbf {\Phi } ={\begin{pmatrix}1&1,5\\1,5&4\end{pmatrix}}

? --Trabeschaur (Diskussion) 16:58, 19. Nov. 2018 (CET)Beantworten

Die Schreibweise $\sigma ^{2}$ hat mE dennoch entscheidende Vorteile um die Analogien zu erkennen. Bspw. beim normalen Modell vs. das verallgemeinerte Modell. Da wird der Zusammenhang zwischen beiden Modellen mE bei

\sigma ^{2}\mathbf {I} \qquad

vs.

\qquad \sigma ^{2}\mathbf {\Psi }

viel klarer als bei

\sigma ^{2}\mathbf {I} \qquad

vs.

\qquad \mathbf {\Phi }

Auch bei $\mathbf {\Sigma } _{{\widehat {\boldsymbol {\beta }}}_{\text{VKQ}}}=\sigma ^{2}(\mathbf {X} ^{\top }\mathbf {\Psi } ^{-1}\mathbf {X} )^{-1}$ ist die Darstellung besser als mit $\mathbf {\Phi }$ , dann sieht man nämlich dass die beiden Formeln für VKQ und KQ gleich sind bis auf die Matrix $\mathbf {\Psi } ^{-1}$ ,

Lieber Jonski (Diskussion), auch hier muss ich widersprechen: Dein irgendwie beliebiges

\sigma ^{2}

hat ja zunächst gar nichts mit dem homoskedastischen

\sigma ^{2}

im Spezialfall zu tun. Eigentlich müsstest du, wenn du eben unbedingt einen Faktor herausziehen willst, von

\mathbf {\Phi } =a\mathbf {\Psi }

mit beliebigem unverfänglichen

a

ausgehen und dann im Spezielfall

a\mathbf {\Psi } =\sigma ^{2}\mathbf {I}

setzen. Aber wiegesagt, ich finde das alles viel komplizierter als mit nacktem

\mathbf {\Phi }

. --Trabeschaur (Diskussion) 16:58, 19. Nov. 2018 (CET)Beantworten

die dann als Gewichtsmatrix interpretiert werden kann. Bei dieser Schreibweise $\mathbf {\Sigma } _{{\widehat {\boldsymbol {\beta }}}_{\text{VKQ}}}=(\mathbf {X} ^{\top }\mathbf {\Phi } ^{-1}\mathbf {X} )^{-1}$ gibt es die Interpretation der Gleichheit bis auf $\mathbf {\Psi } ^{-1}$ nicht, da dann ja noch das $\sigma ^{2}$ fehlt;) Die Grundlage des Artikels stellt die Monographie von Judge et al. dar.

Das Buch, lieber JonskiC, kenne ich nicht, aber eine Reihe anderer "ökonometrische" Bücher, wo ich mir als Mathematiker oft die Haare raufe, weil vieles sehr schnell hingeschrieben ist. --Trabeschaur (Diskussion) 16:58, 19. Nov. 2018 (CET)Beantworten

Dort ist es nun einmal genauso dargestellt. Ich sehe daher keinen Änderungsbedarf bzgl. der Notation. Der Artikel hat mE viel gravierendere Schwächen als diese Kleinigkeit bzgl. der Notation;) Aus heutiger Perspektive würde ich ihn nicht mehr zur Kandidatur stellen wie damals. Wieso heißt es besser Homoskedastie und nicht Homoskedastizität (genauso mit Heteroskedastie)? Das würde mich sehr interessieren, da ich schon oft beide Termini vorgefunden habe und mir unsicher bzgl. der optimalen Verwendung war:).

Ist vielleicht auch nur subjektiv mein Favorit, ist näher am griechischen Original und nicht so beamtensprachlich eingedeutscht. --Trabeschaur (Diskussion) 16:58, 19. Nov. 2018 (CET)Beantworten

Beste Grüße.--Jonski (Diskussion) 15:21, 19. Nov. 2018 (CET)Beantworten

Auch beste Grüße, ich denke, wir hören jetzt auf zu diskutieren. Du wirst vermutlich nichts ändern, und ich will's nicht machen. Es gibt tatsächlich wichtigeres, auch bei Wikipedia. --Trabeschaur (Diskussion) 16:58, 19. Nov. 2018 (CET)Beantworten

Hallo Trabeschaur, du kannst den Artikel natürlich komplett überarbeiten und die von dir vorgeschlagene Literatur verwenden. Wenn da dann nur mit

\mathbf {\Phi }

gearbeitet wird, dann kann man das natürlich auch hier anpassen. Ich habe übringens in 5 unterschiedlichen Büchern nachgeguckt und da ausschließlich die Schreibweise des Artikels in der gegenwärtigen Fassung vorgefunden. Meiner Meinung nach ist es an manchen Stellen – je nach Kontext – besser mit

\mathbf {\Phi }

zu arbeiten und an anderen mit

\sigma ^{2}\mathbf {\Psi }

. Aber in der allgemeinen Modellnennung sollte man mE schon

\sigma ^{2}\mathbf {\Psi }

beibehalten. Aber momentan basiert der Artikel noch fast ausschließlich auf der von mir o.g. Monographie, daher halte ich das nicht für sinnvoll. Das Buch ist übrigens mein absoluter Favorit. Ist meiner Meinung nach eines der besten Ökonometrie/Statistik Abhandlungen die es gibt;)--Jonski (Diskussion) 18:50, 21. Nov. 2018 (CET)Beantworten

Diskussion:Verallgemeinerte Kleinste-Quadrate-Schätzung

Diverses[Quelltext bearbeiten]

Kandidatur vom 04. August 2017 bis zum 24. August 2017[Quelltext bearbeiten]

Nochmal σ 2 {\displaystyle \sigma ^{2}} [Quelltext bearbeiten]

Navigationsmenü

Suche

Nochmal $\sigma ^{2}$ [Quelltext bearbeiten]