Diskussion:Logistische Regression

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Darstellung der Funktion[Quelltext bearbeiten]

Kann jemand vielleicht die Skalierung der ersten Abbildung verändern. Da ja nur Werte zwischen 0 und 1 möglich sind, sollten auch in der Abbildung nur diese Werte dargestellt werden, könnte sonst etwas verwirrend sein.

So besser? Die Marker -0.2 und 1.2 sind weg, ein wenig Sicherheitsabstand zu den Rändern ist dennoch da. (Die Marker hatte ich nur übernommen aus der schlecht aufgelösten alten PNG-Version) --Hagman 13:30, 27. Apr. 2007 (CEST)

Lizenz[Quelltext bearbeiten]

ElRakı fragte auf meiner Diskussionsseite nach: "Ich hoffe du hast für oben genannten Artikel eine Erlaubnis um ihn unter der GNU-FDL einstellen zu dürfen. Anstonsten muss er als URV gekennzeichnet werden. Kansnt du die Erlaubnis (falls du sie besitzt) auf der dortigen Diskussionsseite nachtragen? Und am Besten eine E-Mail-Adresse, die auf der dortigen HP zu finden ist, bei der man nachfragen kann, ob das korrekt ist."

Ja, ich habe vorher per e-Mail bei Prof. Dr. Wolfgang Ludwig-Mayerhofer (ludwig-mayerhofer@soziologie.uni-siegen.de) nachgefragt. Zitat: "Dann machen Sie sich also an die Arbeit." Der Mailverkehr fand am 24.05.2005 statt. --Andre M. 02:14, 19. Dez 2005 (CET)

Aufbau und Inhalt des Artikels[Quelltext bearbeiten]

Ich habe die ursprüngliche Version mit Teilen aus meiner Dissertation ergänzt. Allerdings ist das Ergebnis etwas unübersichtlich. Ich wollte auch nicht zuviel vom ursprünglichen Text ändern/löschen.

Die Darstellung und die Gliederung sind daher noch verbesserungswürdig.


Ja, verbessern sollte man den Artikel auf jedenfall, ich habe schon mal einen Anfang gemacht. Allerdings sollte man meiner Meinung nach erstmal einen Artikel zu Generalisierte lineare Modelle verfassen, von dem aus kann man nämlich meiner Meinung nach den Artikel zur logistischen Regression sehr viel effizienter und verständlicher gestalten, ich werde versuchen in nächster Zeit hierzu einen Artikel zu verfassen. --Pi666 13:35, 5. Aug 2006 (CEST)

Löschung von wichtigen Textteilen[Quelltext bearbeiten]

Der Beitrag ist in seiner jetzigen Form unbrauchbar!

Wichtige Abschnitten wurden gelöscht. Maßgebliche Literatur ist ebenfalls *nicht mehr* erwähnt.

Wer macht so einen Mist? Ich bin in der epidemiologischen Forschung tätig und arbeite routinemäßig mit logistischer Regression und finde das Murks (verkürzt, unvollstängig), was da steht.

Statistische Tests auf gemeinsame Grundgesamtheit[Quelltext bearbeiten]

Angenommen, eine logistische Regression wurde an zwei Stichproben durchgeführt. Welche statistischen Tests gibt es zum Überprüfen der Hypothese, dass die beiden Stichproben aus einer gemeinsamen Grundgesamtheit kommen? (Bei der linearen Regression kann man z. B. die Steigungen der beiden Ausgleichsgeraden mittels eines t-Tests vergleichen.) --84.128.220.163 21:02, 24. Jan. 2007 (CET)

Hallo, ich denke, dass Dir der Kolmogorow-Smirnow-Test weiterhelfen dürfte. Auch kannst Du vielleicht den Q-Q-Plot für Deine Zwecke einsetzen, hier verwendest Du auf der x-Achse die empirischen Quantile der einen Verteilung und auf der y-Achse die empirischen Quantile der anderen Verteilung, wenn alle erhaltenen Punkte ungefähr auf einer Geraden liegen, untermauert es die These, dass beide von der gleichen Grundgesamtheit stammen. Gruß --Pi666 10:08, 25. Jan. 2007 (CET)
Die Zugehörigkeit zur Stichprobe modelliert man als zweiwertige Einflussvariable in einem gemeinsamen Regressionsmodell und testet sie gegen die Null, gemeinsam mit allen Interaktionen der Stichprobenzugehörigkeit mit den Regressionsparametern. Johannes Hüsing 21:57, 3. Mai 2009 (CEST)

Unverständlich[Quelltext bearbeiten]

  • Die Formel ist unverständlich bzw. entspricht nicht mathematischen Gepflogenheiten.
  • Die Variablen G und k, die in der Bildunterschrift verwendet werden, werden im Text nicht erklärt.
  • Der Ausdruck angegebenen Form darstellen lässt ist unklar: Was bedeutet das T?

--<|> Pygmalion <|> 20:53, 21. Jun. 2007 (CEST)

1.* Halte ich für verständlich, zumal und auch im Folgetext erklärt werden.
2.* Bezieht sich wohl auf die in Logistische Funktion genannte Funktion. In diesem Artikel könnte man den Zusatz "für den Fall G=1, k=1, f(0)=1/2" meiner Meinung nach auch weglassen. Oder eben zu Logistische Funktion verlinken.
3.* bezeichnet den transponierten Vektor . Muss meiner Meinung nach in diesem Artikel auch nicht weiter erklärt werden.
1.* und 3.* würden vielleicht verständlicher wenn statt geschrieben würde.
Der Hinweis auf Unverständlichkeit kann meiner Meinung nach aber weg.Mfg Nils --87.78.82.121 20:18, 26. Jun. 2007 (CEST)

Der Artikel ist wesentlich besser und verständlicher als andere statistische Beiträge im deutschen Wikipedia. Bitte weg mit dem Hinweis auf Unverständlichkeit! [Dieser Eintrag war nicht signiert, Sigma^2 (Diskussion) 00:02, 12. Jun. 2013 (CEST).]

Es ist noch sehr viel Unverständliches in diesem Artikel. Z. B.:
  • Warum sollte die Anzahl n der Beobachtungen genauso groß sein wie die Anzahl der Variablen? Wie soll dann irgendeine statistische Methodik funktionieren?
  • Der Vektor ist als Zeilenvektor definiert, dann ist das Produkt entweder nicht definiert, wenn ein Spaltenvektor ist, oder es ist ein Matrix, wenn ein Zeilenvektor und damit ein Spaltenvektor ist. Beides ist nicht gemeint, sondern das Skalarprodukt.
  • Was soll die Bedingung bei der Logit-Definition bedeuten?
  • Es heißt , kurz danach . Es geht mir um den Index i an Y, der mal da ist, mal nicht.
  • Wird in diesem Artikel ein Notation angestrebt, bei der Zufallsvariablen mit Großbuchstaben und deren Realisationen mit Kleinbuchstaben bezeichnet werden? Falls ja, ist schon der Einstieg mit und unverständlich; falls nein, was ist mit der Unterscheidung gemeint?
Usw. Sigma^2 (Diskussion) 00:04, 12. Jun. 2013 (CEST)

Bildbeschreibung fehlt bei [[Bild:Logitkurve.jpg]][Quelltext bearbeiten]

Der Artikel enthält ein Bild, dem eine Bildbeschreibung fehlt, überprüfe bitte, ob es sinnvoll ist, diese zu ergänzen. Gerade für blinde Benutzer ist diese Information sehr wichtig. Wenn du dich auskennst, dann statte bitte das Bild mit einer aussagekräftigen Bildbeschreibung aus. Suche dazu nach der Textstelle [[Bild:Logitkurve.jpg]] und ergänze sie.

Wenn du eine fehlende Bildbeschreibung ergänzen willst, kannst du im Zuge der Bearbeitung folgende Punkte prüfen:
  • Namensraum Datei: Bilder sollte im Namensraum Datei liegen. Bitte ändere die alten Bezeichnungen Bild: und Image: in Datei:.
  • Skalierung: Außerhalb von Infoboxen sollten keine festen Bildbreiten (zum Beispiel 100px) verwendet werden. Für den Fließtext im Artikelnamensraum gibt es Thumbnails in Verbindung mit der automatischen Skalierung. Um ein Bild/eine Grafik in besonderen Fällen dennoch größer oder kleiner darzustellen, kann der „upright“-Parameter verwendet werden. Damit erfolgt eine prozentuale Skalierung, die sich an den Benutzereinstellungen orientiert. --SpBot 23:23, 1. Mär. 2009 (CET)

Der Response?[Quelltext bearbeiten]

Im Einleitungssatz: "...wobei Yi einen binären Response bezeichnet, das heißt, Yi nimmt nur die Werte 0 oder 1 an." Ist "Response" in diesem Kontext wirklich männlich? Der Response-Link führt zu Abhängige und unabhängige Variable, wo Response ebenfalls männlich ist, als Synonyme allerdings "interessierende Variable, endogene Variable oder Zielvariable" genannt werden. Könnte man nicht der besseren Verständlichkeit wegen "Response" in beiden Artikeln durch "die Zielvariable" ersetzen? "Der Response" verwirrt garantiert jeden Laien. Oder verändert das die Aussage? Viele Grüße, --Biologos 13:43, 11. Dez. 2009 (CET)

Notation[Quelltext bearbeiten]

n bezeichnet oben in der Formel die Anzahl der Beobachtungen, und später in der Formel die Anzahl der Prädiktoren. Hier müsste ein anderer Variablenname (etwa k) eingeführt werden. (nicht signierter Beitrag von 89.0.133.195 (Diskussion | Beiträge) 00:10, 13. Jan. 2010 (CET))

Streng genommen ist der Artikel mit dieser Notation falsch und so nicht brauchbar-man sollte diesen Artikel nur mit großer Vorsicht genießen!!! (nicht signierter Beitrag von 193.170.163.3 (Diskussion) 13:32, 24. Sep. 2010 (CEST))

Koennte man BITTE in der definition auch eine erklaerung (mit kl.beispiel) fuer nicht 'statistisch'vorbelastete leser aufnehmen. ... um wenigstens im 'groben' texte mit referenz zu 'verstehen'??? DANKE valentin spindler (arbeite in deutsch,englisch und spanisch) (nicht signierter Beitrag von Valentinspindler (Diskussion | Beiträge) 14:33, 21. Jan. 2010 (CET))

Beispiel[Quelltext bearbeiten]

Kann vielleicht jemand, der sich mit dem Thema auskennt, ein Anwendungsbeispiel in den Artikel einfügen, das würde ihn meiner Ansicht nach verständlicher machen. --46.223.1.82 13:15, 13. Feb. 2013 (CET)

Fehlerhaft[Quelltext bearbeiten]

Der Artikel enthält mehrere Fehler. Der schwerwiegendste ist, dass die Formel für die Hosmer-Lemeshow-Statistik H falsch ist. Die richtige Formel für H enthält 2g Summanden. Sigma^2 (Diskussion) 19:50, 11. Jun. 2013 (CEST)

Hab jetzt ein paar mal mit http://www.biostat.wisc.edu/~cook/642.tex/notes0412.pdf (ganz oben) verglichen und finde den Fehler nicht. Warum korrigierst Du die Formel nicht selbst? fossa net ?! 20:04, 11. Jun. 2013 (CEST)
Auch wenn man mathematisch nicht geschult ist, sieht man, dass erstens der Summationsindex einmal bis 10 geht (in der Quelle) und einmal bis n geht (im Artikel) und dass zweitens die Nenner der Brüche völlig verschieden sind. An dieser Formel ist nicht einfach irgendetwas zu korrigieren. Es handelt sich im Artikel um eine falsch abgeschriebene Chiquadrat-Statistik, die nichts mit der HL-Statistik zu tun hat. Inzwischen ist diese falsche Formel für die HL-Statistik schon mehrfach im Internet zu finden, vermutlich von Wikipedia-Abschreibern. Der ganze Artikel ist statistisch-mathematisch sehr fehlerhaft, da alles viel komplexer ist. Im Artikel wird z. B. der Index i=1,...n verwendet für die Beobachtungen, die Variablen und für die Anzahl der Klassen der HL-Statistik. Das ist so daneben, dass es nur mit sehr großem Aufwand korrigiert werden kann. Das Minimum ist zu unterscheiden zwischen der Anzahl der Beobachtungen, der Anzahl der erklärenden Variablen und der Anzahl der Klassen. Das lässt sich nur mit drei verschiedenen Indizes verstehbar aufschreiben. Hier http://www.oliverkuss.de/science/publications/Kuss_Dissertation.pdf steht auf S. 25 Formel (45) eine richtige Formel für die HL-Statistik. Auf S. 12 Formel (7) findet sich eine Formel der Chiquadrat-Statistik, die im Artikel nachempfunden ist. Sigma^2 (Diskussion) 20:57, 11. Jun. 2013 (CEST)
Mal aus dem Kopf zitiert, ich guck später nach, ob's falsch ist: Hosmer und Lemeshow diskutieren zunächst den allgemeinen Fall (1...n) und empfehlen danach n=10. Die Nenner der Brüche sind in der Tat verschieden, aber nach endlichen Umformungen (endlich=ca. 2) kommt das aufs Gleiche raus. Die Kuss-Dissertation schaue ich mir gleich mal an. fossa net ?! 21:02, 11. Jun. 2013 (CEST)
Aus n Beobachtungen n Gruppen zu bilden ist sinnlos, denn dann gibt es keine vernünftige Asymptotik und keine asymptotische Chiquadratverteilung der Teststatistik. Deswegen wird bei HL eine endliche, fixierte Anzahl von Gruppen (z. B. g = 10) mit n \to \infty betrachtet. D. h. die Asymptotik erfolgt über die Anzahl der Beobachtungen, nicht über die Anzahl der Gruppen. Nach endlichen Umformungen (endlich = 2, einverstanden) kommt nicht etwa das Gleiche heraus, sondern nur etwas formal Ähnliches, wenn man n_gE_g = \pi_g setzt. Aber bei HL gibt es keine Wahrscheinlichkeit \pi_g, wie beim Chiquadrat-Test, sondern nur geschätzte (!) Zell-Wahrscheinlichkeiten \hat\pi_g, die nur asymptotisch (für n \to \infty) die Wahrscheinlichkeiten \pi_g approximieren. Zusätzlich sind die Klassengrenzen datenabhängig und damit zufällig. Die von mir zunächst reklamierte Tatsache, dass die HL-Statistik 2g Summanden hat, ist nicht der springende Punkt, da sich die HL-Statistik auch mit g Summanden darstellen lässt, vgl. Formel (2.11) in HL (1980). Noch einmal: solange nicht zwischen der Anzahl der Beobachtungen (z. B. n), der Anzahl der erklärenden Variablen (z. B. p, wie bei HL) und der Anzahl der Klassen (z. B. g, wie bei HL) unterschieden wird, bleibt es nebulös. Das ist HL im Original: Hosmer, David W. and Lemeshow, Stanley (1980) 'Goodness of fit tests for the multiple logistic regression model', Communications in Statistics - Theory and Methods, 9:10, 1043 - 1069. Sigma^2 (Diskussion) 23:26, 11. Jun. 2013 (CEST)

Diskrete unabhängige Variablen[Quelltext bearbeiten]

In der Einleitung steht, dass diskrete unabhängige Variablen in binäre Dummy-Variablen aufgeteilt werden müssen. Sind damit wirklich alle diskreten Variablen gemeint (also z.B. auch Natürliche Zahlen)? Ich denke eher, hier sind nomiale / kategoriale Variablen gemeint. (nicht signierter Beitrag von 130.83.219.214 (Diskussion) 13:31, 4. Mär. 2016 (CET))

Anwendungsvoraussetungen[Quelltext bearbeiten]

Hallo, in dem genannten Abschnitt wird zuerst davon gesprochen, dass es eine "Reihe" von Anwendungsvoraussetzungen gibt und direkt danach wir nur eine einzige genannt, nämlich eine nicht zu hohe Multikollinearität. Was ist mit den anderen? --Jazzman 12:42, 13. Mai 2016 (CEST)