Diskussion:Statistische Signifikanz

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Bedeutung von "Statistische Signifikanz"[Quelltext bearbeiten]

Die statistische Signifikanz ist zwar schön umschrieben, aber nicht wirklich definiert. Hat jemand genug Ahnung, der das definieren könnte, ohne es nur zu umschreiben?--141.113.86.94 14:31, 1. Okt. 2009 (CEST)[Beantworten]

Signifikanzniveau[Quelltext bearbeiten]

Für mich ist folgende Passage unverständlich

Die Wahl des Wertes 5 % ist wie folgt motiviert: eine normalverteilte Zufallsgröße nimmt nur mit einer Wahrscheinlichkeit von weniger als 5 % einen Wert an, der sich vom Erwartungswert um mehr als die zwei-fache Standardabweichung unterscheidet.

Warum wird die zwei-fache Standardabweichung akzeptiert? Mir ist nicht klar wie sich diese Begründung von der Aussage "5% Irrtumswahrscheinlichkeit sind akzeptabel" unterscheidet. 84.60.37.242 18:07, 22. Apr. 2008 (CEST)[Beantworten]

Ich verstehe die Frage nicht genau. Also formuliere ich den Satz mal um, vielleicht wird es dann klarer:
Die Fläche unter der Gaußschen Glockenkurve beträgt 1. Der Teil der Fläche, der von der Mittellinie bis zu 2 Standardabweichungen entfernt ist, also eine Art mittlerer Streifen, beträgt 0,95 (genauer 0,9545).
Ein Ergebnis in diesem mittleren Streifen wird als Bestätigung der Nullhypothese betrachtet. Falls die Nullhypothese richtig ist, wird sie also mit 95% Wahrscheinlichkeit bestätigt, mit 5% Wahrscheinlichkeit gibt es ein falsch positives Ergebnis.
Wenn die Nullhypothese falsch ist, kann man nichts berechnen. --Hob 14:21, 23. Apr. 2008 (CEST)[Beantworten]

Im Text heißt es "So bedeutet alpha=0,05: Falls die Nullhypothese richtig ist, darf die Wahrscheinlichkeit dafür, dass diese anhand des Testergebnisses abgelehnt wird (sogenannter Fehler 1. Art), nicht mehr als 5% betragen. Entsprechend beträgt die Wahrscheinlichkeit, eine richtige Nullhypothese durch den Test bestätigt zu finden, 1-alpha=0,95, mindestens 95%." Tatsächlich gilt: Wenn das Signifikanzniveau auf 5% gesetzt wurde und wenn die Nullhypothese richtig ist, so beträgt die Wahrscheinlichkeit eines Fehlers 1. Art GENAU 5%. Dies ist eben die Wahrscheinlichkeit, ein signifikantes Ergebnis zu bekommen, falls die in der Nullhypothese angenommene Wahrscheinlichkeitsverteilung der tatsaechlichen Verteilung entspricht. Somit beträgt auch die Wahrscheinlichkeit, eine richtige Nullhypothese beizubehalten, GENAU 95%. ("Bestätigt" ist die Nullhypothese aber nicht. Es gibt lediglich nicht genug Evidenz dafür, sie abzulehnen. Veranschaulicht: Wäre der Unterschied der wahren Parameter und der Parameter der Nullhypothese nur sehr klein, so würde mit hoher Wahrscheinlichkeit die in diesem Falle falsche Nullhypothese beibehalten werden.) Daher ist auch die im Text getätigte Bezeichnung des Signifikanzniveaus als "maximal zulässige Irrtumswahrscheinlichkeit" und als "obere Grenze für die Irrtumswahrscheinlichkeit" falsch. Genauso falsch ist der Link von "Irrtumswahrscheinlichkeit" in der Einleitung auf "p-Wert." Wie es im Wiki-Artikel-Eintrag "Irrtumswahrscheinlichkeit" korrekterweise heißt: "Die Irrtumswahrscheinlichkeit entspricht NICHT dem berechneten p-Wert bei der Durchführung eines Tests." Dort ist auch die korrekte Aussage zu lesen: "Die Irrtumswahrscheinlichkeit kann sein: die Wahrscheinlichkeit für den Fehler 1. Art bei einem Test." --UnternehmenVerbesserung (Diskussion) 18:58, 4. Okt. 2013 (CEST)[Beantworten]

Hallo, den Link bei "Irrtumswahrscheinlichkeit" habe ich mal auf Fehler 1. Art umgebogen, danke für der Hinweis! Das andere, was du ansprichst ("nicht mehr als 5 %") scheint allerdings zu stimmen, wie es im Artikel steht. Man braucht das z. B. bei diskreten Tests (wie dem Binomialtest): Da ist es ja oft gar nicht möglich, eine maximale Fehlerwahrscheinlichkeit 1. Art von genau 5 % zu erreichen, wenn man keine randomisierten Tests zulässt. Dann muss man sich halt mit einem kleineren Fehler als 5 % "zufrieden geben". Grüße -- HilberTraum (Diskussion) 19:18, 4. Okt. 2013 (CEST)[Beantworten]
Danke für die schnelle Reaktion. Ok, ich räume ein, dass bei diskret verteilten Teststatistiken das exakte Signifikanzniveau nach unten angepasst werden muss und häufig das ursprüngliche unangepasste Signifikanzniveau weiter als "Signifikanzniveau" simpliciter bezeichnet wird. Davon unabhängig, sollte die Formulierung der "Bestätigung" im folgenden Satz überarbeitet werden: "Entsprechend beträgt die Wahrscheinlichkeit, eine richtige Nullhypothese durch den Test bestätigt zu finden, 1-alpha=0,95, mindestens 95%." Denn selbst wenn eine Nullhypothese beibehalten wird, wird sie nicht als "bestätigt" aufgefasst. Man fand lediglich nicht genug Evidenz dafür, sie abzulehnen. Hintergrund: Eine inkorrekte Nullhypothese in Kombination mit einer geringen Power des Tests führen dazu, dass die falsche Nullhypothese mit hoher Wahrscheinlichkeit beibehalten werden würde (z.B. bei geringer Stichprobengröße und/oder wenn sich die wahren Parameter von den Parametern der Nullhypothese nur wenig unterscheiden). Daher fasst man beibehaltene Nullhypothesen nicht als "bestätigt" auf, sondern nur als nicht abgelehnt. --UnternehmenVerbesserung (Diskussion) 14:17, 5. Okt. 2013 (CEST)[Beantworten]
Ja, da hast du recht. Willst du es vielleicht selbst im Artikel umformulieren? -- HilberTraum (Diskussion) 20:13, 7. Okt. 2013 (CEST)[Beantworten]
Man koennte darauf eingehen, dass die Asymmetrie daherrührt, das Punkt-Null-Hypothesen H0 gegen ihre Alternativen H1=H_0 getestet werden. Bei der Gelegenheit: ...und dass davon unter Umständen abgewichen wird, da war mal was... https://de.wikipedia.org/wiki/Wikipedia:Auskunft/Archiv/2009/Woche_02#F-Test_vor_t-Test, --Erzbischof 22:45, 7. Okt. 2013 (CEST)[Beantworten]

Aus dem ersten Abschnitt habe ich den p-Wert gelöscht. ist nicht gleich p, sondern eine vorher gewählte obere Schranke dafür. --Johannes Hüsing 08:57, 31. Jan. 2008 (CET)[Beantworten]

Abschätzungen[Quelltext bearbeiten]

Es gibt auch genauere Abschätzungen der Signifikanz - die die Anzahl der Stichproben mit einbeziehen. - Das sollte man hier mal ausbessern (statt der pauschalen 5%). Habe aber die entsprechenden Formeln nicht parat. mtob 22:00, 7. Jun 2003 (CEST)

Je mehr Fälle, desto höher die Signifikanz. Bei riesigen Stichproben ist quasi alles Signifikant :-) (Raffael Meier)

Nein! Gegenbeispiel: Würfeln, dabei ist die Hypothese "6 erscheint öfter als 1" nicht signifikant, eben _weil_ der ganze Vorgang zufällig ist.--128.101.154.21 18:40, 3. Mär 2006 (CET)

Die Kritik "bei riesigen Stichproben ist quasi alles signifikant" ist durchaus ernst zu nehmen. Sobald ein Unterschied von >0 in den Erwartungswerten vorhanden ist, so wird auch eine ungerichtete Hypothese signifikant, wenn nur die Stichprobe groß genug ist. Das Gegenbeispiel mit dem Würfel zieht nur dann, wenn es sich um einen völlig perfekten Würfelvorgang handelt. Hat der Würfel auch nur eine absolut minimale Unwucht (oder ist der/die Würfelnde nicht perfekt), so würde die Hypothese "6 erscheint so oft wie 1" bei entsprechend immensen Stichproben natürlich korrekterweise verworfen werden. Auch eine gerichtete Hypothese wie "6 erscheint öfter als 1" würde, im Falle einer vorherigen Unkenntnis darüber, wie die Unwucht des Würfels beschaffen ist, mit einer Wahrscheinlichkeit, die gegen 50% geht, verworfen werden, wenn die Größe der Stichprobe ins Extreme geht. UnternehmenVerbesserung (Diskussion) 18:56, 4. Okt. 2013 (CEST)[Beantworten]

Das mit der Power = Aussagewert habe ich aber anders gekannt. Falls jemand meine Änderungen nicht mag, bitte melden -- Arcimboldo 06:32, 16. Apr 2005 (CEST)

  • Meld* Die Medizinstatistiker Beck-Bornholdt und Dubben widersprechen der Meinung, dass Signifikanz mit der Irrtumswahrscheinlichkeit gleich zu setzen sei. Signifikante Studien können trotzdem eine geringe statistische Power, i.e. Aussagewert, haben. Statistische Signifikanz ist also ein notwendiges Kriterium, aber noch kein hinreichender Beweis für die Wirksamkeit eines Medikaments.

Dieser (nun gelöschte) Absatz behandelt die unterstellt Beziehung zw Signifikanz und der Irrtumswahrscheinlichkeit und das kommt jetzt IMHO nimmer vor.---^°^ @

Doch - er kommt im Paragraph darunter behandelt:

Weiters sind folgende (verbreitete) Meinungen über das Signifikanzniveau irrig und nicht zutreffend: Das Signifikanzniveau lege fest

die Effektgröße

die Wahrscheinlichkeit, dass die Nullhypothese wahr oder falsch ist

die Wahrscheinlichkeit, dass die Alternativhypothese wahr oder falsch ist

den Grad der Zuversicht, dass das Ergebnis wiederholbar ist

Ich finde den Satz daher unnötig - und vor allem ist diese Erkenntnis Allgemeingut, und keine Erleuchtung durch Beck-Bornholdt und Dubben. Ich wäre dafür, ihn rauszunehmen, die Referenz in der Literaturliste kann ja bleiben. Gruß -- Arcimboldo 14:26, 17. Apr 2005 (CEST)

    • Also so wie die Autoren, dass darstellen ist es (für sie als Medizinstatistiker) keineswegs Allgemeingut. AUch nicht in der Forschung, sagen sie, oder hat sich inzwischen schon Cohen durchgesetzt?: Für medizinische Behandlungen schlägt Cohen (1969) für β einen 4mal so hohen Wert vor wie für α, die Teststärke gibt er somit ungefähr mit (1 - β = 1 - 4 * α) 1-4*0,05=80%, oder weniger an, wenn α=0,05 ist.--^°^ @
      • Auch das hat eigentlich nicht viel mit der Aussage an sich zu tun. Und durchgesetzt hat es sich durchaus - jedenfalls in der pharmazeutischen Entwicklung, in der ich als Statistiker tätig bin, sind Studien mindestens mit 80, meist mit 90%, gepowert. -- Arcimboldo 15:42, 17. Apr 2005 (CEST)
        • ok, schön zu hören, Bornhold &Dubben meinen, dass der Fehler.2.art nur in wenigen spitzenzeitschriften wirklich berücksichtigt wird und die Power in den Sudien ihres fachgebiets deutlcih unter 50% liegt (2001).--^°^ @ 12:11, 19. Apr 2005 (CEST)

PS: Und der Teil "Signifikante Studien können trotzdem eine geringe statistische Power, i.e. Aussagewert, haben." ist schlicht falsch. Wenn die Studie signifikant war, dann war die statistische Power hoch genug .... Der Aussagewert ist etwas anderes als die Power -- Arcimboldo 14:30, 17. Apr 2005 (CEST)

  • ist ein Problem der Fachsprache, IMHO. Was ist dann der AUssagewert, Laienhaft wir er (irrtümlich) mit der Signifikanz gleichgesetzt und die POWER vernachläßigt.--^°^ @

Nein. Wenn Du das mit der "Power" aus dem Satz rausließest, dann würde er richtig. Du verwechselst statitistische Power mit klinischer Relevanz. Aber zu diesem Thema habe ich dann den ganzen Absatz dahinter geschrieben, der die gleiche Aussage etwas ausführlicher beschreibt. Und die Sache mit der Signifikanz ist dahinter ist im Absatz "irrige Überzeugungen" dahinter in den von mir fett gesetzten Stellen, nochmals, und zwar besser und präziser, beschrieben (der stammt nicht von mir, stand schon drin). Auch wenn manche Leute, die selbst Auswertungen machen, sich nicht darüber im klaren sind - Beck-Bornholdt und Dubben bringen keine neue wissenschaftliche Erkenntnis ein, sondern legen nur einen Sachverhalt dar. -- Arcimboldo 15:25, 17. Apr 2005 (CEST)

Also ich weiß nicht recht, was ihr von mir hören wollt. Ich kenne den Begriff Signifikant nur für eine Prüfgröße, die in den Ablehnungsbereich fällt, egal, wie klein der Beta-Fehler ist. Wie groß jetzt die Güte (also Power) sein muss, damit der Test akzeptabel ist, ist Geschmacksache und wohl auch branchenabhängig. Bei vielen Tests, etwa des Korrelationskoeffizienten, ist es überhaupt schwierig, einen Beta-Fehler anzugeben, weil man es hier mit einer nichtzentralen Betaverteilung zu tun. Wahrscheinlich wäre es korrekter, die verschiedenen testtheoretischen Kriterien für Tests einzuführen, wie Konsistenz, bester Test, gleichmäßig bester Test, unverfälschter (unbiased) Test. Insgesamt ist das Konglomerat Testen hier recht ausgeufert und unstrukturiert. Es gehörten IMHO mal einige wenige Artikel draus gemacht. Aber bisher habe ich es gescheut und werde es wohl weiterhin tun. ;) --Philipendula 23:15, 18. Apr 2005 (CEST)
Hier jetzt erst ein Kompromissvorschlag zur Güte: Statistisch signifikante Studien können trotzdem einen geringen statistische Power, praktischen Aussagewert haben.
Ich versuche noch einmal, klar zu machen, warum die Power in den Kontext nicht hineinpasst: Die Power ist ein Element der Versuchsplanung. Sie ist, unter den bei der Planung getroffenen Annahmen über die tatsächliche Effektgröße, die Wahrscheinlichkeit, ein statistisch signifikantes Ergebnis zu erzielen. Wenn die Studie signifikant ist, dann ist eben dieses Ereignis schon eingetreten - es spielt also keine Rolle mehr, was die Annahmen und die in der Planung berechnete Power war. Bzw. die Power war eben, nachträglich betrachtet, hinreichend groß.
Und den anderen Satz in den Paragraphen darunter einarbeiten, weil er die dortige Thematik behandelt: Entgegen weit verbreiteter Meinung ist Signifikanz mit der Irrtumswahrscheinlichkeit gleich zu setzen (Beck-Bornholdt und Dubben). Nicht zutreffend sind die Annahmen, das Signifikanz (bzw. der beobachtete P-Wert) lege fest: ...
Wenn das ok ist, werde ich es morgen einarbeiten. Die Strukturfrage für den Artikel stellt sich natürlich unabhängig davon. Insgesamt finde ich es aber richtig, der Frage der richtigen Interpretation Raum zu geben. Gruß -- Arcimboldo 08:03, 19. Apr 2005 (CEST)
ist Signifikanz mit der Irrtumswahrscheinlichkeit gleich zu setzen. Da fehlt ein "nicht", nicht (wahr).--~~ 12:11, 19. Apr 2005 (CEST)
Das ist richtig, danke für die Korrektur. -- Arcimboldo 12:24, 19. Apr 2005 (CEST)
ok, mach mal, ich vertrau dir.--^°^ @
  • Dieser zufällige Fehler wird allgemein als Fehler 1. Art und bei Signifikanzen als Irrtumswahrscheinlichkeit bezeichnet. Da hinkt was, weil ja in die Irrtumswarscheinlichkeit der Fehler 1. und 2.ter art reingeht.--^°^ @ 11:00, 19. Apr 2005 (CEST)
@Nerd: Häufig wird für den Alpha-Fehler synonym auch Irrtumswahrscheinlichkeit gebraucht. Diese etwas unpräzise Bezeichnungsweise verkompliziert meistens das Ganze noch. --Philipendula 11:09, 19. Apr 2005 (CEST)
das sollte auch irgenddwie erwähnt werden ("fälschlich,aber verbreitet", oder so).--^°^ @ 12:11, 19. Apr 2005 (CEST)
Bei der beschriebenen Situation geht es darum, dass ein Unterschied festgestellt wurde, also die Nullhypothese "kein Zusammenhang" ist schon widerlegt. Es ist also nur noch ein Fehler 1. Art möglich (der Fehler 2. Art wäre, wenn kein Zusammenhang festgestellt worden wäre, aber in Wahrheit einer bestünde). Aber, wie schon Philipendula erwähnt hat, ist es in der Tat etwas unglücklich, dass der Artikel im oberen Teil quasi alpha und Irrtumswahrscheinlichkeit synonym verwendet, und dann später klarstellt, dass die beiden nicht das Gleiche sind. -- Arcimboldo 12:24, 19. Apr 2005 (CEST)
...also die Nullhypothese "kein Zusammenhang" ist schon widerlegt. Wodurch eig?--^°^ @

Bin mit der genannten Power Definition nicht einverstanden. Die Power ist hoch wenn *trotz* kleinem N Signifikanz und eine hohe Effektstärke erreicht wird. Im Artikel ist das genau anders herum benannt. Im weiteren ist der spätere Verweis auf den Artikel Effektgröße schlecht, besser auf den (für diesen Zusammenhang korrekten) Artikel Efektstärke verweisen Gruß --Axel

die Effektgröße[Quelltext bearbeiten]

das habe ich in den Artikel reingeschrieben, ohne zu wissen, was es bedeutet, ev kann das jm ausführen.--^°^ @

überarbeiten[Quelltext bearbeiten]

Unter Verwandte Themen steht T-Test, hier ist der Bezug nicht direkt ersichtlich, beiOperationscharakteristik scheint ein sehr enger Bezug zu sein, der mir aber nicht klar ist, daher sollte hier und dort der Bezug erläutert werden. --Siehe-auch-Löscher 10:35, 5. Sep 2005 (CEST)

Signifikanz/Irrtumswahrscheinlichkeit[Quelltext bearbeiten]

"Entgegen weit verbreiteter Meinung ist Signifikanz mit der Irrtumswahrscheinlichkeit gleich zu setzen" stimmt nicht, wie sich aus den zwei Einleitungssätzen des Artikels ergibt. --Fuzzy 01:38, 11. Jan 2006 (CET)

Soweit ich weiß, sieht die Meinungslage so aus:
  • Weit verbreitete Meinung: "Signifikanz = Irrtumswahrscheinlichkeit"
  • Beck-Bornholdt, Dubben: "Signifikanz <> Irrtumswahrscheinlichkeit"
  • Alle anderen Statistiker: "Signifikanz <> Irrtumswahrscheinlichkeit"
Oder? Dann erweckt das "nach Meinung von BB und D" einen völlig falschen Eindruck. --Hob 15:59, 11. Jan 2006 (CET)
  • "Dann erweckt das "nach Meinung von BB und D" einen völlig falschen Eindruck" wieso--^°^ 23:28, 11. Jan 2006 (CET)
"Nach Meinung von Otto Müller ist die Erde keine Scheibe." - Die Formulierung klingt doch irgendwie so, als ob Herr Müller da eine zweifelhafte oder zumindest ungewöhnliche Meinung hat, und nicht als ob er die Auffassung widergibt, die so ziemlich jeder über das Thema Informierte vertritt. Oder? --Fuzzy 23:57, 11. Jan 2006 (CET)
Volle Zustimmung. Leider scheint Benutzer Nerd an seiner Lieblingsreferenz sehr zu hängen, die einen bekannten Sachverhalt nur zum xxx-ten Male wiedergibt und keineswegs eine eigenständige Quelle der Originalität ist. Ich würde lieber die letzten Reverts wieder rückgängig machen. -- Arcimboldo 03:59, 12. Jan 2006 (CET)
Bevor hier wieder personenorientiert und nicht themeno. disk. wird. was heißt "und keineswegs eine eigenständige Quelle der Originalität ist"?--^°^ 09:37, 12. Jan 2006 (CET)
Ich hab dazu die Zwischenüberschrift "Irrtumswahrscheinlichkeit und Signifikanzniveau" eingefügt und den Unterschied an ein paar Stellen deutlicher gemacht. Und (als IP) hinzugefügt: Im Output mancher Statistikprogramme (z. B. SPSS) wird die Irrtumswahrscheinlichkeit, also der p-Wert, als "Sig." oder "Signifikanz" bezeichnet, was zu Missverständnissen führen kann. Richtig ist hingegen: Signifikanz liegt vor, wenn die Irrtumswahrscheinlichkeit kleiner oder gleich dem Signifikanzniveau ist. --Philipp T. 04:34, 28. Aug 2006 (CEST)
Signifikanzniveau und Irrtumswahrscheinlichkeit sind zwei verschiedene Dinge!

Irrtumswahrscheinlichkeit ist der Anteil der falschen Testergebnisse an allen Testergebnissen, und nicht der "p-Wert". -- ~ğħŵ 17:19, 21. Sep. 2007 (CEST)[Beantworten]

Diese Diskussion ist müßig! Gemäß der Sprechweise von PASW (SPSS) und anderen Statistikprogrammen ist Signifikanz = Irrtumswahrscheinlichkeit. Das ist als Definition zu betrachten und kann deswegen nicht falsch sein, schon gar nicht "nach jemandes Meinung". Insbesondere ist es also keine "irrige Auffassung", den Begriff Signifkanz im Sinne von Irrtumswahrscheinlichkeit zu verwenden; man schließt sich hier nur der Definition der Statistikprogramme an. (Man kann allerdings darauf verweisen, dass der Begriff Signifikanz im Deutschen dann zwei Bedeutungen hat, nämlich (a) die metasprachliche Bedeutung, dass "Signifikanz vorliegt, wenn die Irrtumswahrscheinlichkeit kleiner als das Signifikanuniveau ist" und (b) die innermathematische Bedeutung einer bedingten Wahrscheinlichkeit. So würde ich es auch halten, statt einen aussichtslosen und überflüssigen Kampf gegen eine von einem weltweit verbreiteten Statistikpaket vorgegebene Definition zu führen.) -- Chth 15:59, 10. Feb. 2011 (CET)[Beantworten]

Korrelation ist nicht gleich Kausalität: Storchenbeispiel[Quelltext bearbeiten]

Das Beispiel mit den Störchen und der Geburtenrate ist nicht zulässig, weil hier einfach zwei nicht-stationäre, d.h. Trend-dominierte Variablen miteinander "korreliert" wurden. Plädiere daher dafür, dieses Beispiel schlicht zu löschen.

Jede Korrelation ist "zulässig", aber nicht jede Interpretation. Das Beispiel dient ja gerade dazu, zu illustrieren, dass man bei Korrelationen auf die Wirksamkeit intervenierender Variablen achten muss, die ihrerseits den statistischen Zusammenhang vermitteln können, und oft auch einen kausalen Zusammenhang (intervenierende Variable ist hier der Trend). Allerdings ist der letzte Abschnitt eher ein Sammlung von Dingen, auf die man achten muss, und passt nicht so recht zur Überschrift des Abschnitts. Strasburger (Diskussion) 16:59, 1. Mär. 2015 (CET)[Beantworten]

Die Formulierung der Einleitung war falsch.

  • "wenn die Wahrscheinlichkeit gering ist, dass sie durch Zufall zustande gekommen sind" wäre "Wahrscheinlichkeit, dass Zufall, unter der Voraussetzung, dass signifikant".
  • "wenn die Wahrscheinlichkeit, dass sie durch Zufall zustande kommen, gering ist" ist "Wahrscheinlichkeit, dass signifikant, unter der Voraussetzung, dass Zufall".

Letzteres kann man berechnen, ersteres nicht. Letzteres ist 5%. Sehr beliebtes Missverständnis. --Hob 10:03, 8. Mai 2008 (CEST)[Beantworten]

Die Zusammenhaenge bestehen in der Stichprobe, sie sind also zustandegekommen. Das Signifikanzniveau gibt Dir die Wahrscheinlichkeit an, dass der real existuierende Zusammenhang durch Zufall entstanden ist (unter allerlei Voraussetzungen naturalmente). Und ein <5%-Signifianzniveau ist auch nur ein typische Konvention, keine mathematische Definition. Fossa?! ± 15:45, 8. Mai 2008 (CEST)[Beantworten]
"Wahrscheinlichkeit an, dass der real existuierende Zusammenhang durch Zufall entstanden ist" - Falsch. Konsultiere bitte ein Statistikbuch für Anfänger. Von Walter Krämer gibt es sehr schöne solche, aber der ist GWUP-Mitglied, also ist seine Mathematik für dich vermutlich zu totalitär und extremistisch. Ob du einen kompetenten Dumb-Statistiker findest, ist eher zweifelhaft.
Dass 5% eine Konvention ist, ist sowieso klar und stand nie zur Debatte. --Hob 16:08, 8. Mai 2008 (CEST)[Beantworten]
Hihi, also selbst in Statistiksachen argumentierst du nebuloes: Was konkret ist falsch und wo konkret steht das Gegenteil? Ich habe kein Statistik-Buch von Herrn Kraemer, aber lese folgendes: "When the experiment has been performed, [...] we can compute the observed value of D. (Anm.: D ist die Teststatistik) Then the significance level is: SL=P{D>Dobs|H is true}" (Kalbfleisch: Probability and Statistical Inference: Vol. 2, S. 136). Oder hier: "Statistical significance is the probability of having observed" Oder hier The observed level. Fossa?! ± 18:08, 8. Mai 2008 (CEST)[Beantworten]
PS: Erst jetzt sehe ich, dass das Problem die Gleichung "wenn die Wahrscheinlichkeit gering ist, dass sie durch Zufall zustande gekommen sind" wäre "Wahrscheinlichkeit, dass Zufall, unter der Voraussetzung, dass signifikant" ist. Diese Gleichung sehe ich nicht. Stattdessen geht's hier um "Wahrscheinlichkeit, dass Zufall, unter der Voraussetzung, dass sie zustandegekommen sind." Fossa?! ± 18:16, 8. Mai 2008 (CEST)[Beantworten]
Das kommt auf das gleiche heraus, siehe ganz unten. Du machst genau den weit verbreiteten Fehler, von dem ich rede. Ich werde versuchen, die Erklärung einfach zu halten, damit möglichst viele Leser sie verstehen.
Die Gaußsche Glockenkurve im Artikel Normalverteilung beschreibt den Fall "es herrscht der Zufall", die Nullhypothese. Richtig?
Führt man eine Untersuchung aus, erhält man als Resultat einen Wert, der irgendwo auf der Zahlengerade liegen kann. Die Experimentatoren schauen sich dann an, in welchen Bereich der Normalverteilung der Wert liegt - mehr in dem Hubbel in der Mitte oder mehr in den Ausläufern, in den Schwänzen links und rechts. Richtig?
In dem Bild "Quantile einer Normalverteilung" in dem gleichen Artikel ist an verschiedenen Stellen der Schwanz der Kurve so abgeschnitten, dass die Fläche unter der Kurve rechts vom Schnitt bestimmte Werte erreicht. Die Signifikanz ist durch die Stelle definiert, an der der Anteil der Fläche jenseits dieser Stelle 2,5% beträgt (und im rechten Schwanz an der symmetrischen Stelle nochmal 2,5%, macht zusammen 5%, und es gibt auch höhere übliche Signifikanzwerte, aber das ist für das Verständnis nicht so wichtig). Richtig?
Die 2,5%-Marke links von der Null und die 2,5%-Marke rechts von der Null klemmen zwischen sich einen Streifen um die Null herum ein. Ein Ergebnis ist signifikant, wenn es außerhalb des Streifens liegt, also im linken oder rechten Schwanz der Kurve. Richtig?
Ich wiederhole: In dem Streifen liegen 95% der Fläche unter der Kurve. Richtig?
Ich wiederhole: die Fläche beschreibt die Nullhypothese, also den reinen Zufall. Richtig?
Das heißt, das Verhältnis zwischen
Anzahl der signifikanten Untersuchungen, falls der Zufall herrscht
und
Anzahl der Untersuchungen, falls der Zufall herrscht
ist 5%. Richtig?
Falls die Nullhypothese falsch ist, also falls kein Zufall herrscht, sondern ein nichtzufälliger Effekt vorliegt, dann liegt eine andere Kurve vor, die gegenüber der reinen Zufallskurve um einen bestimmten Betrag nach links oder rechts verschoben ist, aber ansonsten identisch ist. Der Betrag, um den die Kurve verschoben ist, ist den Forschern noch unbekannt, denn sie wollen ja erst herausfinden, ob der Effekt existiert. Damit ist den Forschern auch unbekannt, wo die verschobene Kurve von der Signifikanz zerschnitten wird. Richtig?
Damit lässt sich keine der Zahlen
Anzahl der signifikanten Untersuchungen, falls der Zufall nicht herrscht
und
Anzahl der Untersuchungen, falls der Zufall nicht herrscht
zu einer der beiden anderen Zahlen
Anzahl der signifikanten Untersuchungen, falls der Zufall herrscht
und
Anzahl der Untersuchungen, falls der Zufall herrscht
oder zueinander a priori in Beziehung setzen. Richtig?
Damit ist klar: die 5% ist der Anteil der signifikanten Untersuchungen unter den Untersuchungen, bei denen der Zufall herrscht. QED.
"Wahrscheinlichkeit, dass Zufall, unter der Voraussetzung, dass sie zustandegekommen sind." wäre das Verhältnis des Schwanzteils der ersten, zufälligen, die Nullhypothese beschreibenden Kurve zu demjenigen Teil der verschobenen Kurve, der außerhalb des Signifikanzstreifens liegt. Das kann man selbstverständlich erst berechnen, wenn man weiß, wie groß der Effekt ist. Zu diesem Zeitpunkt ist der Käse bereits verzehrt.
Von der "Wahrscheinlichkeit, dass Zufall, unter der Voraussetzung, dass sie zustandegekommen sind" wird immer wieder behauptet, man habe sie berechnet, aber tatsächlich ist in jedem Fall die "Wahrscheinlichkeit, dass signifikant, unter der Voraussetzung, dass Zufall". Nur diese ist überhaupt berechenbar.
Das Zitat von Kalbfleisch widerspricht meinen Ausführungen nicht. Das Zitat von Breakwell et al. bestätigt meine Ausführungen, wenn man den Kontext nicht abschneidet. Allerdings müssen die es etwas komplizierter machen, weil sie die Größe "Signifikanz" definieren, was ich aus Einfachheitsgründen unterlassen habe.
Das komplette Zitat ist:
Statistical significance is the probability of having observed a test statistic as large as you have if there was in fact no relationship between the variables in question.
Auf deutsch: die Signifikanz eines bestimmten Ergebnisses ist die Wahrscheinlichkeit, dass so ein großes (oder ein noch größeres) Ergebnis auftritt, falls der Zufall herrscht.
Auf deutsch und mit Beispiel: wenn die Signifikanz eines bestimmten Ergebnisses genau gleich 5% ist, dann ist die Wahrscheinlichkeit, dass so ein großes (oder ein noch größeres) Ergebnis auftritt, falls der Zufall herrscht, genau bei 5%.
Auf deutsch mit Beispiel und das Signifikanzniveau eingesetzt: wenn ich alle Ergebnisse betrachte, die signifikant auf dem 5%-Niveau sind, dann liegt die Wahrscheinlichkeit, dass eines dieser Ergebnisse auftritt, falls der Zufall herrscht, bei 5%.
Also geht es um die "Wahrscheinlichkeit, dass sie zustandegekommen sind, unter der Voraussetzung, dass Zufall." Und nicht, wie du fälschlich behauptest, die "Wahrscheinlichkeit, dass Zufall, unter der Voraussetzung, dass sie zustandegekommen sind."
Das ist genau das, was ich sage. Also: damit haben wir ja unsere gesuchte Quelle. --Hob 21:55, 8. Mai 2008 (CEST)[Beantworten]
Ergänzung aus Diskussion:Homöopathie, hierher kopiert [1]:
Auch wenn die 1:1-Übertragung nach meiner begrenzten ärztlichen Kenntnis nicht geht, müssen wir das nicht weiter diskutieren. Ich schließe aber aus dem, was Du schreibst, dass 19 von 20 signifikant positiven H.-Studien kein Phantom zeigen. Die Interpretation dieses Befunds ist eine andere Geschichte. --RainerSti 23:00, 8. Mai 2008 (CEST)[Beantworten]
Nein, genau das ist nicht der Fall, und genau das ist das populäre Missverständnis. Stell dir einen hypothetischen Wissenschaftler vor, der ein außerordentlich gutes Näschen dafür hat, echte Effekte aufzuspüren. Wenn der eine Untersuchung anstellt, dann trifft er auch ins Schwarze und findet einen existierenden Effekt, der so groß ist, dass er die Signifikanzhürde leicht überspringt. Betrachtet man die von diesem Wissenschaftler angestellten Untersuchungen, stellt man fest: 100% der signifikant positiven Studien sind richtig-positiv, 0% sind falsch-positiv.
Und nun das Gegenteil: betrachte einen Wissenschaftler, der ein Weltbild hat, das von der Realität weit entfernt ist. Er glaubt, dass man von Wassertrinken Gicht bekommt und dass Briefmarkensammler besonders oft Linksextremisten sind. Alle seine Untersuchungen betreffen Effekte, die in der Realität nicht existieren. Seine Ergebnisse sind zufällig, und wegen der Definition der Signifikanz sind 5% seiner Untersuchungen falsch-positiv, die restlichen 95% richtig-negativ. Richtig-positive Ergebnisse hat er nicht. Die 5% Treffer als bewiesene Ergebnisse zu bezeichnen ist ein Fehler, den Statistiker als Texas sharpshooter fallacy bezeichnen. Der deutsche Artikel dazu heißt Zielscheibenfehler.
Wie man sieht, hängt das Verhältnis zwischen richtig-positiven und falsch-positiven Ergebnissen davon ab, ob man geschickt sucht oder ungeschickt. Sollte es tatsächlich mal 5% sein, dann höchstens durch Zufall.
Wenn es also 20 signifikant positive Untersuchungen zur Homöopathie gäbe, einer absurden Theorie, die mein erster Beispielwissenschaftler nicht mit der Feuerzange anfassen würde, dann wären die vermutlich alle falsch-positiv, weil sie von Leuten stammen wie meinem zweiten Beispielwissenschaftler, und es gäbe ungefähr weitere 380 Untersuchungen, die diese Leute zum Teil in den Mülleimer geworfen haben oder die nur von Skeptikern zitiert werden.
Dein Missverständnis halte ich für eine der Ursachen für den Glauben (unter anderem) an Homöopathie. Jemand mit halbem Statistikwissen erfährt von signifikant positiven Ergebnissen, multipliziert deren Zahl fälschlich mit 95% und glaubt, dann die falsch-positiven weggerechnet zu haben.
Aus dem gleichen Grund gibt es wohl so viele angeblich krebserregende Stoffe. Man untersucht zusammen mit echt Gefährlichem Tausende harmloser Substanzen, und 5% der Harmlosen landen als Übeltäter in den Schlagzeilen. --Hob 09:06, 9. Mai 2008 (CEST)[Beantworten]
--Hob 08:40, 13. Mai 2008 (CEST)[Beantworten]

"d.h. mit hoher Wahrscheinlichkeit nicht zufällig sind"[Quelltext bearbeiten]

ist falsch. Bitte Diskussion:Statistische_Signifikanz#Einleitung durchlesen und verstehen. Die Wahrscheinlichkeit, dass ein statistisch signifikantes Ergebnis nicht zufällig ist, kann 100% sein, sie kann aber auch 0% sein. Es ist unbekannt, wie hoch sie ist. --Hob 13:53, 16. Mai 2008 (CEST)[Beantworten]

Danke für die Korrektur. Deine Sätze sind alle richtig. Leider aber recht schwer verdaulich, was sicher auch in der Sache begründet liegt. Ich werde noch etwas über den Satz, den Du zuletzt eingefügt hast, nachdenken und evtl. eine alternative Formulierung bringen. Auf jeden Fall versuche ich, es nicht wieder falsch herum hinzudrehen; habe Deinen Punkt verstanden. :-) -- Digisus 18:33, 16. Mai 2008 (CEST)[Beantworten]

Alternative Formulierung ist gut. Das ist alles sehr schwer gut und knapp zu erklären. --Hob 18:45, 16. Mai 2008 (CEST)[Beantworten]

"Auch Unterschiede, die statistisch signifikant sind, können zufällig sein: Das ist per Definition wenig wahrscheinlich, aber nicht ausgeschlossen. Signifikanz schließt Zufälligkeit nicht aus, sie steht aber für deren geringe Wahrscheinlichkeit."

Schon wieder falsch. Dass "Unterschiede, die statistisch signifikant sind", "wenig wahrscheinlich" seien, heißt: Nur wenige der statistisch signifikanten Ergebnisse sind zufällig. "Geringe Wahrscheinlichkeit" der "Zufälligkeit" macht die gleiche Aussage.
Das ist aber, wie bereits mehrfach gesagt, nicht wahr. Ich wiederhole: Haben die Forscher bei der Auswahl der vermuteten Effekte ein schlechtes Händchen, dann sind 100% der statistisch signifikanten Ergebnisse zufällig. --Hob 10:31, 19. Mai 2008 (CEST)[Beantworten]
Ok, ich verstehe es nicht und werde auch nichts mehr daran herumbasteln. (Den Satz mit den "Untersuchungen" verstehe ich nicht wirklich. Vielleicht sollte das ein eigener Abschnitt werden. Dannn können die "Untersuchungen", die sonst in der Einleitung nicht auftauchen und etwas plötzlich erscheinen, eingeführt werden.) Digisus 20:48, 19. Mai 2008 (CEST)[Beantworten]
Dann versuche ich es mal so:
Positiv heißt signifikant, negativ heißt nicht signifikant.
  • FP = Anzahl der falsch positiven Ergebnisse (Zufall, signifikant)
  • RN = Anzahl der richtig negativen Ergebnisse (Zufall, nicht signifikant)
  • FN = Anzahl der falsch negativen Ergebnisse (kein Zufall, nicht signifikant)
  • RP = Anzahl der richtig positiven Ergebnisse (kein Zufall, signifikant)
FP / (FP+RN) ist die Wahrscheinlichkeit, dass signifikant, falls Zufall. Denn RN ist der Rest vom Zufall, der nicht signifikant ist.
FP / (FP+RN) = 5%
FP / (FP+RP) ist die Wahrscheinlichkeit, dass Zufall, falls signifikant. Denn RP ist der Rest der signifikanten, der nicht zufällig ist.
FP / (FP+RP) ist unbekannt. Das kann 100% sein oder auch 0% oder irgendwas dazwischen. Das hängt davon ab, wie viele zufällige und wie viele nichtzufällige Dinge man untersucht.
Untersucht man ausschließlich zufällige Dinge (schlechtes Näschen), sind FN und RP=0, und FP / (FP+RP) = 100%.
Untersucht man ausschließlich nichtzufällige Dinge (gutes Näschen), sind RN und FP=0, und FP / (FP+RP) = 0%. --Hob 07:22, 20. Mai 2008 (CEST)[Beantworten]


signifikant: mir ist unklar, warum signifikant "wesentlich" hier bedeutet. Sollte es nicht eher heißensichtbar? Der Duden beschreibt signifikant auch mit "bezeichnend, anschaulich".


Um Wikipedia-Artikel, die sich mit Mathematik befassen, zu verstehen braucht man 3 Dr.- Titel und ein Lexikon um alle Fremdwörter nachzuschlagen, schade eigentlich. 91.128.58.36 17:42, 3. Mai 2009 (CEST)[Beantworten]

Hi,

mir fehlt in dem Artikel ein Beispiel mit einer Rechnung. Da ich mir folgendes Beispiel selbst überlegt habe, würde ich gern eure Meinung dazu hören, bevor ich es in den Artikel stelle:


Anna behauptet, mit einer Wünschelrute Wasser finden zu können. Um das zu beweisen, versteckt Bernd einen Eimer Wasser unter einem von zehn Kartons. Falls Anna den richtigen Karton findet, könnte es ein Zufall gewesen sein. Aus diesem Grund wiederholen sie den Test 13 mal. Wie oft muss Anna mindestens den Eimer mit Wasser finden, damit ihr ein Wünschelrutengänger-Talent mit einer Sicherheit von mindestens 90% bestätigt werden kann?

:= "Anna hat geraten"
:= "Anzahl der Treffer"

Anna rät richtig Anna rät falsch
Wasser ist in dem Karton 1/10 9/10
Kein Wasser ist in dem Karton 9/10 1/10




Hinweis: Ich habe vor kurzem eine Galileo-Sendung gesehen, in der so eine Aufgabe gestellt wurde. Ein Amerikaner bietet demjenigen, der Beweisen kann übersinnliche Fähigkeiten zu besitzen, 1.000.000 US-Dollar. Die Person, die getestet wurde, hätte den Eimer Wasser 7 von 13 mal finden müssen. Damit hätte man ihr ein Talent mit einem Signifikanzniveau von 99,99919 % bestätigt. Siehe en:List of prizes for evidence of the paranormal --MartinThoma 12:22, 15. Mai 2010 (CEST)[Beantworten]

Irrtumswahrscheinlichkeit und Signifikanzniveau[Quelltext bearbeiten]

Na gut, dann versuchen wir es doch mal auf der Diskussionsseite: Meines Wissens ist etwas signifikant oder eben nicht. Die Sache, dass etwas "sehr signifikant" oder "hoch signifikant" ist, ist IMHO nicht korrekt. Gibt es denn Quellen dafür, wo man dies nachlesen kann? -- Warfair 12:59, 3. Mär. 2011 (CET)[Beantworten]

[2], Fußnote. --Hob
Also signifikant und hoch signifikant habe ich schon gehört; die beiden anderen Begriffe scheinen eher in den Anwendungswissenschaften, seltener in der Statistik, benutzt zu werden. --Sigbert 21:08, 3. Mär. 2011 (CET)[Beantworten]
Und damit haben wir nun den Salat. :) Mir sind alle Begriffe bekannt - allerdings teste ist doch immer auf ein bestimmtes Signifikanzniveau. Die nachträgliche Unterscheidung, ob es nun signifikanter ist oder nicht, widerstrebt meinem bisherigen Wissen. Allerdings habe ich sowas auch bisher nur in Zeitschriften entdeckt. Wenn es verwendet wird, dann sollte man vielleicht den Artikel so umschreiben, dass es oft verwendet wird, aber nur eine Kovention und kein echter Fakt ist. Vielleicht finden wir ja noch jemanden, der sich mehr mit der Materie auskennt... -- Warfair 11:52, 4. Mär. 2011 (CET)[Beantworten]
Hier sind viele, die sich auskennen.
Im Artikel steht: "Obwohl es frei wählbar ist, findet man in der Literatur häufig ein Niveau von 5 %." Die 5% sind eine Konvention, reine Willkür, genau wie es da steht. --Hob 13:08, 4. Mär. 2011 (CET)[Beantworten]
Die 5% sind ja auch in Ordnung. ;) Mir geht es nur darum, dass etwas per Definition nicht signifikanter sein kann. Also das etwas, auf 1% nicht signifikanter ist, als auf 5%-Niveau. Für die Bedeutsamkeit des Effekts, existieren andere Werte. Und entweder habe ich es verschlafen, mein Prof. bzw. meine Bücher sind unwissend oder der Artikel hier ist unkorrekt. Ich hoffe jedenfalls, dass eine, der drei Möglichkeiten ist. ;) -- Warfair 10:23, 5. Mär. 2011 (CET)[Beantworten]
Vielleicht hast du so ein Statement gesucht. http://www.nature.com/nature/journal/v210/n5041/abs/2101190a0.html --Erzbischof 12:01, 5. Mär. 2011 (CET)[Beantworten]
Ja, so etwas in der Art. Wobei ich dies jetzt eher so verstehen würde "eigentlich ist es totaler Quatsch, diese Unterscheidungen zu machen, für Nicht-Statistiker schlagen wir aber trotzdem folgendes vor". Und 1966 hatten die also auch schon solche Probleme. Ich hab bei meiner kurzen Recherche, leider noch immer nichts gefunden. Im würde jetzt noch etwas warten und dann den Artikel so umschreiben, dass mit Bezug auf die Quelle, die grundlegende Richtigkeit nicht vorhanden ist, andererseits trotzdem eine Quasi-Konvention durch die vielfache Nutzung entstanden ist. -- Warfair 16:53, 12. Mär. 2011 (CET)[Beantworten]

Der Abschnitt weist Inkonsistenzen auf. Erstmals wird erklärt, dass ein Ereignis "sehr signifikant" ist, wenn die Irrtumswahrscheinlichkeit <= 1% beträgt. Wenig später wird für "sehr signifikant" eine Irrtumswahrscheinlichkeit von <= 0.3% angegeben. -- flueckem 13:04, 15. Mai. 2011 (CET)

Muss jemand editiert haben, ist jedenfalls nicht mehr zu sehen. -- 00:14, 23. Dez. 2011 (CET)Warfair
Meines Erachtens heißt es nicht "sehr signifikant" sondern "hochsignifikant" für 1% und "höchstsignifikant" für 0,1%. Quelle z.B. Bortz. Ich hab' das mal geändert Strasburger (Diskussion) 17:11, 1. Mär. 2015 (CET)[Beantworten]

Irrige Überzeugungen[Quelltext bearbeiten]

Irgendwie ist der Abschnitt selber voller irriger Überzeugungen. Z.B. "Signifikanz liegt vor, wenn die Irrtumswahrscheinlichkeit kleiner oder gleich dem Signifikanzniveau ist." ist doch völliger Unsinn. Aber grundsätzlich wäre so ein Abschnitt schon nützlich. Hat jemand eine Idee, was man da machen sollte oder kennt eine gute Quelle für so etwas? Dazu ist ja oben auch schon einiges diskutiert worden, aber mMn extrem wirr und irgendwie ohne Ergebnis. -- HilberTraum (Diskussion) 13:46, 4. Jul. 2012 (CEST)[Beantworten]

Die zitierte Aussage scheint mMn auch den hinterfragten Zusammenhang wenig treffend darzustellen. Vielleicht lässt sich unter der Überschrift "Irrige Annahmen" die obige Diskussion mit ergänzten Ausdrücken und einer erweiterten Formulierung besser zusammenfassen. --nanu *diskuss 01:13, 5. Jul. 2012 (CEST)[Beantworten]
So langsam durchschaue ich, wo das Problem herkommt: Der Wert, den z.B. SPSS als Signifikanz bezeichnet, ist natürlich nicht die Irrtumswahrscheinlichkeit wie im Artikel behauptet, sondern der p-Wert des Tests. Aber: Wenn einige (viele?) Leute den p-Wert auch "Signifikanz(wert)" nennen, wie es ja auch ganz neutral im Artikel p-Wert steht, ist es dann in Ordnung, wenn das hier "irrig" genannt wird? Man kann ja trotzdem noch davon sprechen, dass Ergebnisse "signifikant" sind. -- HilberTraum (Diskussion) 09:48, 6. Jul. 2012 (CEST)[Beantworten]
Ist es denn in Ordnung einen p-Wert „signifikant“ zu nennen, ohne dass ein Signifikanzniveau angegeben ist?
Die Festlegung der Höhe des Signifikanzniveaus aber ist doch keine nur mathematische Entscheidung, sondern sie hängt von der Bedeutung der untersuchten Fragestellung ab. Welches Gewicht man hierbei dann dem Irrtum beimisst, die Nullhypothese fälschlicherweise zurückzuweisen, wird durch Überlegungen begründet, die sich auf außer-mathematische Zusammenhänge beziehen und diese bewerten.
Erst nachdem der kritische Wert für die Irrtumswahrscheinlichkeit festgelegt wurde, kann ein statistisches Ergebnis „signifikant“ heißen – nicht aus sich, sondern aus der Differenz zu dem zuvor festgelegten Kriterium. Ein p-Wert selbst ist zunächst neutral; man sollte ihn auch so bezeichnen. --nanu *diskuss 15:01, 6. Jul. 2012 (CEST)[Beantworten]
Das sehe ich alles genauso wie du, aber das kann man auch noch genauso machen, wenn man den p-Wert "Signifikanz" (oder "Karl-Heinz") nennt, wie es anscheinend manche Leute/Bücher/Programme machen. Für eine besonders geschickte Bezeichnung halte ich das auch nicht, aber mit solchen Bewertungen sollte sich Wikipedia lieber zurückhalten. Man wählt dann halt z.B. ein Signifikanzniveau von 5 %, das Programm berechnet eine Signifikanz von 0.07, also ist das Ergebnis nicht signifikant. Das ist evtl. etwas verwirrend, aber ich würde es nicht als "irrig" bezeichnen. -- HilberTraum (Diskussion) 17:12, 6. Jul. 2012 (CEST)[Beantworten]
Im Artikelabschnitt wird es als "missverständlich" bezeichnet – was bestimmt zutrifft.
Insofern dieses Missverständnis dadurch zustande kommt, dass die gebräuchliche und unmissverständliche Bezeichnung "p-Wert" durch eine schon anderweitig benutzte Bezeichnung - und die ist nicht "K.-H." - ersetzt wird, gelingt es eine Bedeutung zu suggerieren, die nicht zutrifft. Man könnte dies auch "irreführend" nennen und den Namen womöglich für geschickt gewählt halten. Mit "Karl-Heinz" wäre das nämlich nicht passiert.
Solange aber, wie man noch keine Quantilen gefunden hat, die per se Wesentliches von Unwesentlichem trennen, wird es schwierig sein, "innermathematisch" so etwas wie Signifikanz zu definieren. Unter der Glocke der Normalverteilung hängt kein Klöppel, der dem Belanglosen die Stunde schlägt (sagte neulich Karl-Heinz). --nanu *diskuss 23:14, 6. Jul. 2012 (CEST)[Beantworten]

Es sei ein Irrtum, das Signifikanzniveau gebe an: "den Grad der Zuversicht, dass das Ergebnis als solches wiederholbar sein könnte". Diese Aussage ist mindestens missverständlich. - Ziel jedes Experiments ist es, mithilfe der Stichprobe eine Ausgabe über die gesamte Population machen zu können. In medizinischen Test wird deshalb eine sehr hohe Signifikanz gefordert, damit man bei der "Wiederholung des Experiments" erwarten kann, dass sich das Ergebnis wiederholt. Die angegebene Quelle ist nicht gut verfügbar, den Kontext der Aussage kann ich somit nicht prüfen. --SpendenAufruf (Diskussion) 08:00, 3. Jul. 2013 (CEST)[Beantworten]

"Erwarten kann" man, was man will. Die interessante Frage ist doch eher, ob man es erwarten sollte. Wenn jemand die Signifikanz als Maß für seine Zuversicht verwendet, dann kann er übel aufs Maul fallen. Daher ist der Punkt berechtigt. --Hob (Diskussion) 15:52, 3. Jul. 2013 (CEST)[Beantworten]
"Sollen" ist ja ein moralischer Begriff. Wann man berechnetete Wahrscheinlichkeiten zur Grundlage seiner Entscheidungen macht, hängt von der individuellen Risikobereitschaft ab. Im Rahmen der Theorie ist es jedoch rational eine sehr hohe Signifkanz zum Entscheidungskriterium zu machen. Ein "auf die Nase Fallen" wird dabei immer in Kauf genommen, vgl. z. B. den Bad Beat beim Poker. (nicht signierter Beitrag von SpendenAufruf (Diskussion | Beiträge) 10:43, 7. Jul 2013 (CEST))
"rational eine sehr hohe Signifikanz zum Entscheidungskriterium zu machen" - Nein, denn damit verringert man zwar die Anzahl der zu erwartenden falsch-positiven Entscheidungen, erhöht aber die Anzahl der zu erwartenden falsch-negativen Entscheidungen. Das kann erwünscht sein, muss es aber nicht.
Die Zuversicht ist, wie du sagst, eine subjektive Entscheidung. Das heißt, das muss einfach jeder selbst entscheiden. Es wäre ein Fehler, zu glauben, dass die Signifikanz einem so etwas vorschreiben würde. Ich denke, das ist mit dem betreffenden Abschnitt gemeint. --Hob (Diskussion) 12:52, 10. Jul. 2013 (CEST)[Beantworten]

Anna ist bei von der Alternativ-Hypothese überzeugt, sie liegt unter der Null-Hypothese in 5% der Fälle falsch. Bernd ist bei von der Alternativ-Hypothese überzeugt und bei von der Alternativ-Hypothese sehr überzeugt, und trifft unter der Null-Hypothese in 4% der Fälle eine falsche Entscheidung und in 1% eine falsche Entscheidung mit Karacho. --Erzbischof 14:52, 10. Jul. 2013 (CEST)[Beantworten]

liegt ein Effekt vor?[Quelltext bearbeiten]

Die Änderung des Einleitungssatzes in "Effekte in statistischen Analysen werden als signifikant bezeichnet, wenn …" scheint mir nicht zutreffend. Nach meiner Kenntnis werden hier statistisch nicht Effekte analysiert, sondern Daten. Und diese häufig in einem ersten Schritt zunächst im Hinblick auf die Frage "Liegt überhaupt ein Effekt vor?" Dafür wird die Annahme formuliert "Nein, es liegt kein Effekt vor." und untersucht, mit welcher Wahrscheinlichkeit die verworfen werden kann. Ein zuvor festgelegtes S.-Niveau entscheidet dann darüber, ob ich den gefundenen Wert als "signifikant" bezeichne oder nicht.

Wenn ich aber schon weiß, dass ein Effekt vorliegt, brauche ich dafür keinen statistischen Test mehr. --nanu *diskuss 23:13, 1. Mär. 2013 (CET)[Beantworten]

Die Frage "Liegt überhaupt ein Effekt vor?" hat die Antwort Es liegt immer ein Effekt vor (Effekt = Abweichung von der Nullhypothese). Die Frage ist nur, wie gross ist der Effekt und wie kann er erklärt werden? --Sigbert (Diskussion) 20:13, 2. Mär. 2013 (CET)[Beantworten]
Ich habe das gleich mal geprüft: Wir hatten gestern eine große Runde, die einen 20 habe ich gebeten dreimal tief ein-, die anderen 19 aber dreimal tief auszuatmen. Und siehe da: in der einen Gruppe waren heute morgen um acht Uhr erst 6 wach, in der anderen aber 12!!! Du hast offenbar Recht, es gibt immer einen Effekt. Und wie groß ist der hier jetzt? --nanu *diskuss 14:01, 3. Mär. 2013 (CET)[Beantworten]

Einleitung wieder unlogisch[Quelltext bearbeiten]

"Wenn hingegen ein Unterschied statistisch nicht signifikant ist, kann allein daraus noch nicht sicher geschlossen werden, dass nur der Zufall eine Rolle gespielt hat. Denn die Wahrscheinlichkeit eines Fehlers 2. Art, , eine falsche Nullhypothese für richtig zu halten, ist üblicherweise unbekannt."

Das war schon mal besser. Dieses "hingegen" würde ich dann erwarten, wenn im anderen, direkt darüber beschriebenen Fall - wenn der Unterschied signifikant ist - etwas sicher geschlossen werden könnte. Aber gerade das ist ja nicht der Fall.

Und das Wort "denn" im zweiten Satz suggeriert: wenn die Wahrscheinlichkeit bekannt wäre, könnte man mit Sicherheit schließen, dass nur der Zufall eine Rolle gespielt hat. Stimmt natürlich auch nicht.

Wie wäre es mit:

"Auch aus einem statistisch nicht signifikanten Unterschied kann man keine definitiven Schlüsse ziehen. Aber in diesem Fall ist üblicherweise noch nicht einmal die Wahrscheinlichkeit, eine falsche Nullhypothese für richtig zu halten, bekannt." --Hob (Diskussion) 18:09, 9. Okt. 2013 (CEST)[Beantworten]

PS: Wieso eigentlich "üblicherweise"? In welchen Fällen ist Beta denn bekannt? Sollten diese Fälle genannt werden? --Hob (Diskussion) 18:11, 9. Okt. 2013 (CEST)[Beantworten]
Ich finde deine Formulierung gelungen, willst du sie einbauen? Zum P.S.: ist ja in der Praxis "nur" deswegen unbekannt, weil es vom Wert des zu testenden Parameters abhängt und dieser unbekannt ist (sonst müsste man ihn ja nicht testen). Als Funktion des Parameters lässt sich normalerweise schon darstellen. Eine Situation, in der bekannt wäre, ist daher z.B. bei einem Neyman-Pearson-Test, also wenn es überhaupt nur zwei Möglichkeiten gibt, die gegeneinander getestet werden. -- HilberTraum (Diskussion) 19:48, 9. Okt. 2013 (CEST)[Beantworten]
Finde ich auch gelungen. Vielleicht anstatt üblicherweise " meistenfalls ja". Den Link auf (Fehler 2. Art) würde ich nicht rausnehmen. --nanu *diskuss 20:58, 9. Okt. 2013 (CEST)[Beantworten]
Ist gemacht. Ich habe "üblicherweise" durch "meist" ersetzt und den Link wieder reingetan. Kann man ja noch weiter dran feilen. Zu "meist": das reicht wohl für die Einleitung. --Hob (Diskussion) 07:57, 10. Okt. 2013 (CEST)[Beantworten]
Leider ist es nun möglicherweise korrekter, aber schwerer zu verstehen. Was spricht gegen:
"Wenn ein Unterschied statistisch nicht signifikant ist, kann allein daraus noch nicht sicher geschlossen werden, dass nur der Zufall eine Rolle gespielt hat. Denn weiterhin gibt es möglicherweise einen Fehler 2. Art, \beta: die Möglichkeit, eine falsche Nullhypothese für richtig zu halten. In diesem Falle wäre ... "
Davon abgesehen muss dieser Absatz wahrscheinlich nicht in die Einleitung, oder? - Kexter (Diskussion) 23:12, 21. Aug. 2014 (CEST)[Beantworten]

Abschnitt Probleme bei der Interpretation[Quelltext bearbeiten]

Hier muss mal etwas umformuliert werden. Die scheinbar allgemeine Abhandlung wird plötzlich spezifisch für medizinische Studien, was insofern unsinnig ist als dass die beschriebenen Probleme durchaus allgemein zutreffend sind. Insgesamt fällt der Artikel zur Zeit als sehr unübersichtlich auf. Das Grundproblem ließe sich auf etwa folgende Aussage zusammenfassen: Die Aussagekraft eines signifikanten Ergebnisses hängt nicht vom Ergebnis selbst, sondern von dessen Übertragbarkeit auf einen anderen Fall ab. Ehe man Signifikanz für bare Münze nimmt, muss IMMER geprüft werden, ob das mit der eigenen Erwartungshaltung verbundene Anwendungsgebiet mit den Bedingungen, unter denen das signifikante Ergebnis generiert wurde, übereinstimmt. 100%ig ist dies natürlich nie der Fall und es ist eben deshalb bei jedem Ergebnis abzuwägen, inwiefern es überhaupt übertragbar ist. Dabei spielt die Signifikanz sogar eine eher untergeordnete Rolle! Die Signifikanz eines Ergebnisses ist ein Wert mit äußerst relativer Aussagekraft, was häufig übersehen wird. Eben deshalb wird es dringend empfohlen, die Begriffe "hochsignifikant" oder gar "höchstsignifikant" zu vermeiden, da diese eine überhöhte Anwendbarkeit/Bedeutsamkeit der Ergebnisse suggerieren, die so nicht real ist. --Max schwalbe (Diskussion) 14:37, 6. Dez. 2013 (CET)[Beantworten]

Signifikanz sagt nichts über Kausalitäten aus. Ja. Na und? Warum wird dieser banale Sachverhalt hier solange breitgetreten? Ich schlage vor, den Abschnitt zu löschen, weil nichtssagend. --Kängurutatze (Diskussion) 10:32, 9. Mai 2014 (CEST)[Beantworten]

Das wird breitgetreten, weil es eine Menge Leute gibt, die meinen, es wäre anders, und weil es mehrere verschiedene Ursachen für eine nichtkausale Signifikanz geben kann.
Mit Signifikanz wird sehr viel Schindluder getrieben, und der Absatz versucht, dem Leser das klar zu machen. Der Ansatz "mir ist das eh klar, also ist der Absatz überflüssig" widerspricht WP:OMA. --Hob (Diskussion) 10:42, 9. Mai 2014 (CEST)[Beantworten]
Wenn, was zu belegen wäre, wirklich so oft Kausalität und Signifikanz begrifflich miteinander vermischt würden, könnte man ja darauf hinweisen, daß das falsch ist. In einem Satz. Aber einen ganzen eigenen Abschnitt samt Beispielen? Stattdessen könnte man doch einen Abschnitt über potenzielle Ursachen für Signifikanz machen. --Kängurutatze (Diskussion) 10:59, 9. Mai 2014 (CEST)[Beantworten]
Potenzielle Ursachen für Signifikanz?
Den von Dir hinsichtlich der "begrifflichen Vermischung" vorgeschlagenen einen Satz gibt es schon. Und es ist Dir unbenommen, die im Abschnitt folgenden Beispiele unter diesem oder jenem Blickwinkel zu lesen.
Dass denn soviele Studien durchgeführt werden, die nun statistisch ausgewertet werden – ohne dass zuvor immer ein S.-Niveau festgelegt wurde, doch mag nachträglich dem p-Wert eines zugeordnet werden – um letztlich signifikante Ergebnisse vorweisen zu können; und dass deshalb solche häufiger veröffentlicht werden – weniger gerne ja die anderen, die manchmal dann in abgewandelter Form nochmal versucht werden – könnte das eine potenzielle Ursache für S. sein?
Nein, wohl nicht; wenn allen klar wäre: "S. sagt nichts über Kausalitäten aus." --nanu *diskuss 23:48, 10. Mai 2014 (CEST)-[Beantworten]

Da lachen nur noch die Statistiker[Quelltext bearbeiten]

Ich würde es bevorzugen, wenn in einem allgemeinen Lexikon - also nicht (nur) für Fachleute - die Sachverhalte so einfach, aber klar beschrieben würden, dass man sie als Nicht-Fachmann (Nicht-Statistiker) auch nachvollziehen kann, ohne selbst ein Statistik-Studium beginnen zu müssen. Mir scheint zuweilen, dass hier Leute schreiben, die nicht ganz sicher in der Materie sind. Das weckt kein grosses Vertrauen! Kadima Im übrigen fällt mir auf, dass die Texte didaktisch nicht sonderlich gut aufbereitet sind. Es geht oft gleich in die Vollen, ohne die Grundlagen zu legen. Im übrigen verweise ich auf einen wirklich guten Artikel im Spektrum der Wissenschaft 9/2014, S. 52: Der Fluch des p-Wertes. (nicht signierter Beitrag von 84.128.105.176 (Diskussion) 16:02, 17. Aug. 2014 (CEST))[Beantworten]

Kannst du bitte dazusagen, welche Abschnitte davon besonders betroffen sind? Sonst bringt der Hinweis nichts, denn den Artikel können nur Leute verbessern, die das Thema verstehen, aber genau die können nicht beurteilen, was unverständlich ist für Leute, die es nicht verstehen. --Hob (Diskussion) 11:42, 18. Aug. 2014 (CEST)[Beantworten]
Na zum Beispiel die Einleitung. Ich bin nicht 84.128.105.176, aber ich kam gerade mit dem selben Gedanken hierher: Deutschkurse für Mathematiker! Entschuldigt den Sarkasmus, aber ich habe ein Physikstudium hinter mir und rege mich seit Jahren über die Sprache von Mathematikern auf. Und das betrifft soweit ich zurückdenken kann auch die entsprechenden wikipedia-Artikel. So bleibt die Zahl exzellenter Artikel überschaubar. Und, Hob, es ist für jemanden, der von der Sache keine Ahnung hat, sicherlich noch schwieriger zu sagen, was hier geändert werden muss. "Erklären Sie mir das bitte nochmal, als wäre ich 4 Jahre alt" wäre hier die Devise.
So, nun zur Sache. Ich denke, die Einleitung müsste viel kürzer sein. Gleichungen und Variablen raus, Negationen vermeiden, Fachbegriffe auf ein Minimum reduzieren, anschaulich schreiben. Hier ein Versuch, ein erster Ansatz:
Die Statistische Signifikanz gibt Auskunft über die Informationsqualität von statistischen Daten. Der Begriff kann zum Beispiel bei der Auswertung der Sonntagsfrage verwendet werden: Wenn die Umfragewerte einer Partei um einen Prozentpunkt steigen oder fallen, muss man für die Auswertung dieser Werte wissen, ob es sich hier nur um einen zufälligen Effekt handelt oder ein so genannter überzufälliger Zusammenhang angenommen werden kann, die Abweichung also signifikant ist. Diese Frage lässt sich jedoch nicht pauschal beantworten; bei der Auswertung müssen zusätzliche Aussagen getroffen werden.
So in die Richtung, und dann Ende der Einleitung und schonungsvoll in die Erläuterungen. Der ganze zweite Absatz kann einen eigenen Abschnitt bekommen (Anforderungen an die Messungen [Otto N. versteht eine Umfrage nicht als Test]). Formulierungen wie "das Gewicht bemessen werden für den Fall, dass irrtümlich angenommen wird, der geprüfte Zusammenhang sei nur zufällig" sind extrem schlecht verständlich, spätestens hier steigen die Leute aus (1. "der geprüfte Zusammenhang" ohne Beispiel, 2. müsste es nicht heißen: "Der angenommene Zusammenhang"?, 3. was soll das heißen: "das Gewicht bemessen"?), aber dann geht's gleich weiter: der kritische Wert, Schwellenhöhe, maximal zulässige Irrtumswahrscheinlichkeit, und danach ist es einfach nur unverständlich (z.B. wer lehnt die Nullhypothese ab?). Man braucht eine halbe Stunde, um diesen Absatz zu lesen, weil man zum Versändnis erst noch die Artikel Irrtumswahrscheinlichkeit, p-Wert, Nullhypothese und Fehler 1. Art lesen muss. Was der dritte Absatz sagen will, bleibt auch im Nebel. Und selbst Absatz vier, der wohl für die Nichtakademiker gedacht war, erfüllt seinen Zweck nicht. Der statistische Ereignis-Begriff ist für das allgemeine Verständnis problematisch und hier m.E. nicht unbedingt notwendig. Substantivierungen meiden.
Das ist noch viel Arbeit. Nichts für ungut und schönen Abend, Kexter (Diskussion) 23:02, 21. Aug. 2014 (CEST)[Beantworten]
Das klingt nach einem vernünftigen Ansatz: Zunächst sagen, wozu man Signifikanz braucht, und dann kommt erst eine exaktere Definition.
Natürlich passt an deinem ersten Wurf nicht alles: "ob es sich hier nur um einen zufälligen Effekt handelt oder ein so genannter überzufälliger Zusammenhang angenommen werden kann, die Abweichung also signifikant ist" ist falsch. Signifikant ist nicht das Gegenteil von zufällig. Könnte man Signifikanz als Hinweis auf mögliche Nicht-Zufälligkeit bezeichnen, die erst noch durch weitere Untersuchungen bekräftigt oder widerlegt werden muss? --Hob (Diskussion) 10:07, 22. Aug. 2014 (CEST)[Beantworten]
Ja, mit etwas weniger Nominalstil schon. Vielleicht: "Signifikanz ist ein Hinweis darauf, dass die statistischen Auffälligkeiten nicht zufällig sind; dieser Hinweis muss im Folgenden noch durch weitere Untersuchungen bekräftigt oder widerlegt werden." Machst du das? - Kexter (Diskussion) 20:42, 26. Aug. 2014 (CEST)[Beantworten]
Richtig zufrieden bin ich noch nicht, vor allem, da "die statistischen Auffälligkeiten" plötzlich vom Himmel fallen und "nicht zufällig sind" ist nicht ungewiss genug. Außerdem wäre eine positive Definition vielleicht besser als "nicht zufällig". Wie wär's damit:
Statistische Signifikanz statistischer Auffälligkeiten ist ein Hinweis auf einen möglichen ursächlichen Zusammenhang; dieser Hinweis muss im Folgenden noch durch weitere Untersuchungen bekräftigt oder widerlegt werden.
Den Satz könnte man der existierenden Einleitung einfach voranstellen. --Hob (Diskussion) 10:17, 27. Aug. 2014 (CEST)[Beantworten]
... und was haltet ihr davon:
Statistische Signifikanz bezeichnet das Etikett für Ergebnisse statistisch ausgewerteter Studien mit dem Hinweis auf einen vermutlich überzufälligen Zusammenhang; dass ein ursächlicher Zusammenhang bestimmter Weise vorliegt, muss noch durch weitere Untersuchungen bekräftigt oder widerlegt werden.” ? --nanu *diskuss 23:14, 28. Aug. 2014 (CEST)[Beantworten]
"Bezeichnet das Etikett" gefällt mir nicht, das ist doppelt.
“Das Ergebnis einer statistisch ausgewerteten Studie ist statistisch signifikant, wenn es einen überzufälligen Zusammenhang nahelegt; dass ein ursächlicher Zusammenhang tatsächlich vorliegt, muss noch durch weitere Untersuchungen bekräftigt oder widerlegt werden.”? --Hob (Diskussion) 10:23, 29. Aug. 2014 (CEST)[Beantworten]
(Ist es nicht ein Etikett, und Statistische Signifikanz dessen Bezeichnung?)
Statistisch signifikant wird das Ergebnis statistisch ausgewerteter Studien genannt, wenn es einen überzufälligen Zusammenhang nahelegt; dass ein ursächlicher Zusammenhang tatsächlich vorliegt, muss noch durch weitere Untersuchungen bekräftigt oder widerlegt werden.”? --nanu *diskuss 22:05, 29. Aug. 2014 (CEST)[Beantworten]
Finde ich gut, nur würde ich das sicherlich korrekte "überzufällig" in "mehr als zufällig" ändern. So geht's! - Kexter (Diskussion) 23:17, 6. Sep. 2014 (CEST)[Beantworten]
Das Wort "überzufällig" mag ich gar nicht. Das ist ja nur ein weiterer (ungenauer) Fachausdruck, der erklärt werden muss und nicht viel anderes bedeutet als "signifikant". In 5% der Fälle ist der Zufall selber "überzufällig". "Mehr als zufällig" hilft da auch nicht weiter, denn: von welcher Größe liegt denn hier "mehr" vor als beim Zufall?
Was ist denn schlecht am "ursächlichen Zusammenhang"? --Hob (Diskussion) 12:18, 8. Sep. 2014 (CEST)[Beantworten]
Gar nichts. Wie wär's damit:
Statistisch signifikant wird das Ergebnis statistisch ausgewerteter Studien genannt, wenn eine Korrelation wahrscheinlich nicht nur zufällig ist; dass ein ursächlicher Zusammenhang tatsächlich vorliegt, muss noch durch weitere Untersuchungen bekräftigt oder widerlegt werden.”?
Nein. "wahrscheinlich nicht nur zufällig" ist falsch. Die Wahrscheinlichkeit, dass es zufällig ist, ist unbekannt. Sie kann beliebig hoch oder beliebig niedrig sein. Das habe ich oben eigentlich oft genug erklärt. --Hob (Diskussion) 23:08, 1. Mär. 2015 (CET)[Beantworten]
Wie geht's weiter? Der Artikel ist ja noch lang! :) - Kexter (Diskussion) 23:17, 6. Sep. 2014 (CEST)[Beantworten]
+1 Bitte vereinfachen!!! Oder den Artikel zweiteilen: einen Bereich für Nicht-Statistiker, einen Bereich für Fachleute. Was ich konkret an dem Artikel schwierig finde: Es werden zu viele Fachbegriffe zur Erklärung verwendet. Natürlich lässt sich das nicht immer vermeiden (und man kann ja auch dem Link folgen und sich den anderen Fachbegriff erst mal aneignen), aber wo immer es möglich ist, sollte man darauf verzichten. Ein Nicht-Statistiker kann nichts anfangen mit Begriffen wie Heuristik, induktive Statistik, p-Wert, Nullhypothese, Verteilungsparameter (ohne Link!), Gütefunktion, Normalverteilung, Standardabweichung, randomisiert, doppelblind, Teststärke, Effektstärke. Um mir zunächst all diese Fachbegriffe anzueignen, würde ich Stunden brauchen. (Ganz abgesehen davon, dass die entsprechenden Wiki-Seiten widerum mit Fachbegriffen um sich werfen.) Es muss doch möglich sein, einem Nicht-Wissenden in wenigen Sätzen ohne Fachbegriffe zu verdeutlichen, was Signifikanz ist, ohne dabei allzu vage zu bleiben? 93.134.7.192 16:15, 16. Apr. 2015 (CEST)[Beantworten]
Für einen Versuch, ob es möglich sein kann, ist vielleicht zunächst eine allgemeiner gehaltene Einleitung mit weniger Fachbegriffen und einem erläuternden Beispiel sinnvoll, und für die fachlich weiterführenden Ausführungen dann wohl eher ein eigener Abschnitt. Gruß, --nanu *diskuss 20:09, 2. Aug. 2016 (CEST)[Beantworten]

signifikant = bedeutsam[Quelltext bearbeiten]

Der Ausdruck „(statistisch) bedeutsam“ wird ausweislich der Google-Buchsuche gleichbedeutend mit „(statistisch) signifikant“ gebraucht, und bedeutsam ist ja auch eine ziemlich wörtliche Übersetzung von lateinisch significans; demnach sind die beiden Wörter auch in der Einleitung als Synonyme anzugeben. Wenn in statistischen Lehrbüchern tatsächlich behauptet wird, „statistisch“ heiße eben gerade nicht ‚bedeutsam‘, dann kann es sich dabei nur um einen verunglückten Hinweis darauf handeln, dass „signifikant“ (aber eigentlich auch „bedeutsam“) innerhalb der Statistik nicht mit derselben Bedeutungsbreite zu verwenden ist, die „bedeutsam“ (und wohl auch „signifikant“) außerhalb der Fachsprache hat; das ist aber trivial und bedarf deshalb gar keiner Erwähnung im Artikel. --Abderitestatos (Diskussion) 20:34, 2. Aug. 2016 (CEST)[Beantworten]

Bist du sicher, dass bei den Google-Buchsuche „statistisch bedeutsam“ regelmäßig im Sinne von „statistisch signifikant“ verwendet wird? In zumindest zwei Treffern auf der ersten Seite, die ich mir angeschaut habe, geht es eindeutig um die Effektstärke. Grüße -- HilberTraum (d, m) 20:54, 2. Aug. 2016 (CEST)[Beantworten]
[3] [4] [5] [6] [7] [8] [9] … Gruß --Abderitestatos (Diskussion) 21:13, 2. Aug. 2016 (CEST)[Beantworten]
Ok, die Sprechweise kannte ich noch nicht und würde ich auch persönlich für verwirrend/didaktisch gefährlich halten, aber wenn es die Autoren so wollen, kann man halt nix machen. Grüße -- HilberTraum (d, m) 21:28, 2. Aug. 2016 (CEST)[Beantworten]
Von den 7 Referenzen sind deren 6 keine statistsche Fachveröffentlichungen oder Lehrbücher, sondern diverse Studien, die sich statistischer Auswertung bedienen. Dass in tausenden veröffentlichter Studien einige vorkommen, die einen festehenden Begriff nach Gutdünken vervielfachen, ist zwar bedauerlich, aber es führt nicht dazu, dass Wikipedia dies aufgreifen muss. --Kjalarr (Diskussion) 01:14, 26. Nov. 2016 (CET)[Beantworten]

Hoch signifikante Ergebnisse[Quelltext bearbeiten]

Auch wenn eine Quellenangabe vorhanden ist: Die Einteilung in "signifikant" (p<5%), "sehr signifikant" (p<1%) und "hoch signifikant" (p<0.1%) halte ich geradezu für gefährlich. Demnach wäre es ja akzeptabel für ein "signifikantes" Ergebnis, dass eben 5% dieser Ergebnisse durch statistische Fluktuation der Nullhypothese zustande kommen. Eine einzige größere Studie kann schnell mal 100 einzelne statistische Analysen vornehmen, d.h. diese Studie hätte dann (würde sie sich mit p<5% zufrieden geben) bereits 5 falsche Ergebnisse (vereinfacht ausgedrückt). Es mag ja sein, dass das unter Human- und Sozialwissenschaftlern üblich ist. Das sollte aber keinenfalls verallgemeintert werden. In der Physik z.B. werden grundsätzlich sehr viel strengere Kriterien angesetzt. Ein Ergebnis mit weniger als 3 Standardabweichungen (entspr. p>0.3%) würde man vielleicht als "Anomalie" oder "Spannung" zwischen den Ergebnissen bezeichnen. Zwischen 3 und 4 Standardabweichungen spricht man von "Hinweis" (engl. "evidence"), zwischen 4 und 5 von "Beobachtung" (engl. "observation") und ab 5 dann von "Nachweis" (engl. "discovery") sprechen (die englischen Ausdrücke sind mir besser geläufig, die deutschen müsste man ggf. prüfen). Hintergund ist, dass laufend irgendwelche Messungen oder Untersuchungen durchgeführt werden und man letztlich die Irrtumswahrscheinlichkeit mit der Zahl der Messungen (inkl. der unveröffentlichten) multiplizieren muss. Ich denke, dass sich im Artikel mindestens ein entsprechender Hinweis befinden sollte, würde es aber eher befürworten, die aktuellen Kategorien mit den Prozentangaben komplett zu entfernen. Ich müsste noch mal eine anständige Quelle dafür finden, aber als Diskussionsgrundlage kann schon mal dieser Blog-Eintrag dienen: https://blogs.scientificamerican.com/observations/five-sigmawhats-that/ Mhier (Diskussion) 17:49, 30. Mär. 2017 (CEST)[Beantworten]

"Demnach wäre es ja akzeptabel für ein "signifikantes" Ergebnis, dass eben 5% dieser Ergebnisse durch statistische Fluktuation der Nullhypothese zustande kommen" Nein, nicht "5% dieser Ergebnisse". Habe ich oben erklärt in Diskussion:Statistische Signifikanz#Einleitung und Diskussion:Statistische Signifikanz#"d.h. mit hoher Wahrscheinlichkeit nicht zufällig sind."
Das ist nun mal das, was die Quellen sagen. Wir sammeln das, was dort steht, und wir entscheiden nicht "dieses Wissen ist gefährlich, das lassen wir weg". --Hob (Diskussion) 00:53, 31. Mär. 2017 (CEST)[Beantworten]
Ich kann deine Argumentation anhand der Links nicht nachvollziehen, das ist zu bruchstückhaft und der zweite Link geht nicht, sorry (und unter dem Ersten finde ich in erster Linie Polemik...). Ich habe auch eine Quelle genannt, auch wenn ich sie nicht unbedingt in einem Arikel zitieren würde, ist sie durchaus als Diskusionsgrundlage vertrauenswürdig. Im Englischen Wikipedia wird ebenfalls mit unterstützung von zitierfähigen Quellen darauf verwiesen, dass in der Naturwissenschaft strengere Kriterien gelten. Ich weiß, dass meine Aussage eine Näherung ist. Diese Näherung gilt aber in den allermeisten Fällen sehr gut. So wie das hier im Artikel ohne weitere Einschränkung steht, erweckt es schlicht den falschen Eindruck. Die Quellen, die zitiert werden, mögen das vielleicht so definieren, deswegen gilt es aber noch lange nicht im Allgemeinen. Das ist das Problem mit Mathematik und Naturwissenschaften: Quellen sind nicht der oberste Richter. In diesem speziellen Fall ist es schwierig, eine saubere Quelle zu finden, die direkt der Einteilung widerspricht, ganz einfach, weil keine saubere Quelle eine solche Einteilung in allgemeiner Form vornehmen kann. Übrigens ist meine Aussage schon im Artikel enthalten im Abschnitt "Irrtumswahrscheinlichkeit und Signifikanzniveau": "In der Praxis bedeutet dieses Kriterium, dass im Schnitt eine von 20 Untersuchungen, bei denen die Nullhypothese richtig ist (z. B. ein Medikament tatsächlich wirkungslos ist), zu dem Schluss kommt, sie sei falsch (z. B. behauptet, das Medikament erhöhe die Heilungschancen)." Ich denke eben, dass dieser Aspekt stärker betont werden sollte. Mhier (Diskussion) 10:54, 31. Mär. 2017 (CEST)[Beantworten]
Diskussion:Statistische_Signifikanz#.22d.h._mit_hoher_Wahrscheinlichkeit_nicht_zuf.C3.A4llig_sind.22 - wäre eigentlich leicht zu finden gewesen, stand nämlich direkt unter dem anderen Kapitel.
Diesmal hast du es richtig gemacht:
"im Schnitt eine von 20 Untersuchungen, bei denen die Nullhypothese richtig ist, zu dem Schluss kommt, sie sei falsch"
Vorher war's falsch:
"Demnach wäre es ja akzeptabel für ein "signifikantes" Ergebnis, dass eben 5% dieser Ergebnisse durch statistische Fluktuation der Nullhypothese zustande kommen"
Das ist logisch gleichbedeutend mit
"im Schnitt bei einer von 20 Untersuchungen, die zu dem Schluss kommen, die Nullhypothese sei falsch, sie tatsächlich richtig ist"
Das ist das, was ich oben erklärt habe, und ich finde nicht, dass das hauptsächlich Polemik ist.
Zur Sache: Du kannst den Aspekt gern stärker betonen, der ist wichtig. Dass ein großer Teil der statistisch signifikanten Ergebnisse durchaus Schrott sein könnten, ist nützliches Wissen. Auch dass z.B. in der Physik alles viel genauer gemessen werden kann (und deshalb: soll) als in "weicheren" Wissenschaften, kann da gern stehen. --Hob (Diskussion) 14:57, 31. Mär. 2017 (CEST)[Beantworten]
Alles klar, danke, dann werde ich mich der Sache mal annehmen. Jetzt habe ich verstanden, was du meintest ("kleiner" Formulierungsfehler meinerseits) :-) Mhier (Diskussion) 13:46, 3. Apr. 2017 (CEST)[Beantworten]
War fast OK. Es sind nicht 5% aller Untersuchungen falsch positiv, sondern nur 5% derjenigen Untersuchungen, bei denen die Nullhypothese richtig ist. Bei diesen Formulierungen muss man höllisch aufpassen, dass nicht der falsche Bruch beschrieben wird - der Zähler (falsch positive Ergebnisse) ist immer richtig, aber der Nenner ist meistens falsch. --Hob (Diskussion) 18:05, 3. Apr. 2017 (CEST)[Beantworten]
Stimmt, das war mehrdeutig. Danke für die Korrektur! Mhier (Diskussion) 20:50, 3. Apr. 2017 (CEST)[Beantworten]

ASA’s Statement on p-Values[Quelltext bearbeiten]

Aus meiner Sicht würde es Sinn machen, im Artikel auf die Statements aus folgendem Artikel einzugehen. Der Artikel hat seit seiner Veröffentlichungen auch ausserhal der Statistik extreme Wellen geschlagen. Wasserstein, R.L. & Lazar, N.A. 2016. The ASA’s Statement on p-Values: Context, Process, and Purpose, The American Statistician, Vol. 70, No. 2, pp. 129–133. 62.44.134.193 13:08, 9. Apr. 2017 (CEST)[Beantworten]

Gute Idee. Aber gehört das in die Einleitung? Und "außerordentlich" ist unenzyklopädisch. Sonst ist das OK. --Hob (Diskussion) 14:32, 9. Apr. 2017 (CEST)[Beantworten]
Ich schlage vor den Artikel: "Misunderstandings of p-values" zu übersetzen und diese Kritik und viele andere, die auch bei p-Wert zu finden sind dort einzufügen. Grüße.--JonskiC (Diskussion) 14:55, 9. Apr. 2017 (CEST)[Beantworten]
Vielleicht ist es sinnvoller, direkt aus dem Wasserstein-&-Lazar-Artikel die Kernpunkte zu zitieren? Diese scheinen ja auch Grundlage des englischen Artikels zu sein. Gemessen an seiner Bedeutung ist der deutsche Artikel momentan sehr langatmig und kommt mathematisch noch nicht auf den Punkt. Im genannten Wasserstein-&-Lazar-Artikel sind viele Kernpunkte enthalten, die gut passen würden. Wie grenzen wir eigentlich die Artikel Statistische Signifikanz und p-Wert sauber gegeneinander ab? Oder ist das gar ein Doppeleintrag? 62.44.134.193 17:03, 9. Apr. 2017 (CEST)[Beantworten]
Stimmt, der mathematische Teil ist nicht optimal. Ist aber kein Doppeleintrag, da die Interpretation des p-Werts statistische Signifikanz induziert oder eben nicht. Grüße. --JonskiC (Diskussion) 17:21, 9. Apr. 2017 (CEST)[Beantworten]
Im Wasserstein-&-Lazar-Artikel sehe ich leider mathematisch nichts verwertbares.
Das stimmt. Was mathematisch verwertbarer ist ist vielleicht die Abbildung und die zugehörigen Erklärung in Nuzzo (2014), http://www.nature.com/news/scientific-method-statistical-errors-1.14700 62.44.134.193 18:28, 9. Apr. 2017 (CEST)[Beantworten]
Wenn du die zweite Graphik meinst dann stimme ich dir zu; die ist informativ. Die gibt es m.E. leider nicht bei Commons, deshalb kann man sie nicht in den Artikel einbauen.--JonskiC (Diskussion) 19:03, 9. Apr. 2017 (CEST)[Beantworten]
Ein Teil der Kritik des o.g. Artikels habe ich auch in dem von mir erstellten Artikel p-Hacking eingebaut.--JonskiC (Diskussion) 19:12, 9. Apr. 2017 (CEST)[Beantworten]
Sehr guter Artikel, danke! Naja, wir könnten die Grafik ja nachmalen. 62.44.134.193 19:46, 9. Apr. 2017 (CEST)[Beantworten]

Neuer Absatz bei Grundlagen[Quelltext bearbeiten]

Ich finde, der Absatz, der beginnt mit "Das Signifikanzniveau bzw. die Irrtumswahrscheinlichkeit sagt also nur, mit welcher Wahrscheinlichkeit", gehört nicht an diese Stelle. Er besteht aus ein paar Sätzen Copy-Paste aus dem Artikel Irrtumswahrscheinlichkeit, plus einem länglichen Beispiel. Copy-Paste geht gar nicht - wer wissen will, was Irrtumswahrscheinlichkeit ist, soll den LInk anklicken - und das Beispiel zerreißt den logischen Zusammenhang des Abschnittes. Als eigenen Abschnitt könnte man das vielleicht schon einbauen. --Hob (Diskussion) 08:04, 13. Jan. 2019 (CET)[Beantworten]

Im Kapitel Grundlagen wird im zweiten Absatz ein Fehler 1. Art beschrieben. Daraufhin kommt am Anfang des dritten Absatzes folgender Satz: "Sinnvollerweise wird bei der Festlegung dieser kritischen Schwelle bedacht, welche Konsequenzen der Fall hätte, dass irrtümlich angenommen wird, ein beobachteter Unterschied sei nur zufällig." Aber irrtümlich anzunehmen, ein beobachteter Unterschied sei nur zufällig, ist doch ein Fehler 2. Art. Ich finde es leicht irreführend hier den Fehler 2. Art anzusprechen, obwohl im vorherigen Absatz ja vom Fehler 1. Art die Rede war. Zudem ist ein Fehler 1. Art meist schlimmer als ein Fehler 2. Art. Ich würde vorschlagen folgende Formulierung zu wählen: "Sinnvollerweise wird bei der Festlegung dieser kritischen Schwelle bedacht, welche Konsequenzen der Fall hätte, dass irrtümlich angenommen wird, ein beobachteter Unterschied sei nicht zufällig." --Belgariath (Diskussion) 18:24, 20. Sep. 2022 (CEST)[Beantworten]

+1: Würde Deinen Vorschlag wählen. Setz ihn mal um! --2003:E4:D708:E401:55B7:5590:43E2:D971 14:18, 21. Sep. 2022 (CEST)[Beantworten]

Signifikanzniveau = Irrtumswahrscheinlichkeit ??[Quelltext bearbeiten]

In der Einleitung wird Signifikanzniveau gleich Irrtumswahrscheinlichkeit gesetzt (und mit dieser Änderung unsinnigerweise noch betont). Ich halte das nicht für richtig; besser wäre hier, von der maximal zugelassen Irrtumswahrscheinlichkeit zu sprechen. --2003:E4:D707:1900:7CC5:D5B8:3CE8:4E8F 09:38, 3. Feb. 2021 (CET)[Beantworten]

Soll eine Hypothese als richtig erwiesen werden, so ist die Wahrscheinlichkeit des Fehler 2. Art, dass die Hypothese als richtig befunden wird, obwohl sie falsch ist, umso größer je kleiner das Signifikanzniveau, also die Irrtumswahrscheinlichkeit ist. Das hat offenbar schon häufig zu manipulativen Darstellungen geführt. Josua (Diskussion) 23:31, 3. Feb. 2021 (CET)[Beantworten]
Soll eine Hypothese als richtig erwiesen werden, ...“ Wovon sprichst du? Getestet wird die Nullhypothese. Als Testresultat wird angegeben, ob diese auf dem jeweiligen Signifikanzniveau verworfen werden kann oder nicht. Die Werte der Wahrscheinlichkeitsfunktion hängen von keiner Intention ab.
Und nochmal: Das Signifikanzniveau setzt eine Obergrenze fest, nicht mehr; es ist nicht die Irrtumswahrscheinlichkeit. Signifikant heißt, dass die im Test für diese Daten festgestellte Irrtumswahrscheinlichkeit – die Wahrscheinlichkeit für einen Fehler 1. Art – geringer ist als dieses Niveau. Die maximal zulässige Irrtumswahrscheinlichkeit … wird als Signifikanzniveau α bezeichnet. (Steht schon im Artikel – und soll auch in der Einleitung so stehen.)
Was da jetzt in der Einleitung steht, ist Unsinn. --2003:E4:D712:8C00:EC39:CF5B:E265:7E05 22:44, 4. Feb. 2021 (CET)[Beantworten]
Ja es ist Unsinn und dann teilweise doch wieder nicht. Vieles in der Einleitung und im Artikel ist aus der beschränkten Sichtweise geschrieben, dass es erstens nur einfache Nullhypothesen (und damit nur eine Fehlerwahrscheinlichkeit erster Art) gäbe und dass zweitens die maximale Fehlerwahrscheinlichkeit erster Art mit dem Signifikanzniveau identisch sei. Beides kann, muss aber nicht der Fall sein. Daher kommt dann das Halbwissen: Fehlerwahrscheinlichkeit erster Art = Irrtumswahrscheinlichkeit = Signifikanzniveau. Dazu kommen unsinnig verkürzte Bezeichnungen in Statistiksoftware und falsche Bezeichnungen in von Anwendern für Anwender geschriebenen Statistikbüchern, die scheinbar leicht lesbar sind. --Sigma^2 (Diskussion) 20:13, 1. Feb. 2023 (CET)[Beantworten]