Diskussion:Varianz

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 5 Monaten von Mbasti01 in Abschnitt Einleitung sollte nochmals verbessert werden
Zur Navigation springen Zur Suche springen

Ergänzungen (2011)[Quelltext bearbeiten]

evtl.

--Zulu55 08:05, 18. Mai 2011 (CEST)Beantworten

Besteht da wirklich erhebliche Verwechselungsgefahr (siehe auch Wikipedia:Begriffsklärung#Der_Abschnitt_.E2.80.9ESiehe_auch.E2.80.9C)? --Sigbert 19:33, 18. Mai 2011 (CEST)Beantworten

Die Seite Varianz wird neu gestaltet[Quelltext bearbeiten]

Siehe die Redundanzdiskussion: Wie dort besprochen, wird die Seite "Varianz" in Kürze neu gestaltet:

  • Der Baustein Begriffsklärung wird entfernt
  • Die Seite wird mit Inhalt ergänzt.
  • Redundanzen im Umfeld von "Varianz" werden reduziert

Weitere Ideen dazu sind auf der Seite Redundanzdiskussion willkommen. (Ursprünglich begann die Diskussion auf der Seite "Empirische Varianz".) --Mbasti01 (Diskussion) 21:32, 11. Feb. 2022 (CET)Beantworten

Die Neugestaltung ist erfolgt. Ich habe geplant noch ein paar Diagramme hinzuzufügen ... aber erst in ein paar Wochen.
Die Seiten Empirische Varianz und Stichprobenvarianz (Schätzfunktion) sind in diesem Zug stillgelegt worden und leiten auf die Seite Varianz weiter.
Input über fehlende Inhalte auf der Seite Varianz sind willkommen. --Mbasti01 (Diskussion) 17:25, 21. Feb. 2022 (CET)Beantworten
@Mbasti01: Hallo, nach der Neufassung des Artikels werden auf Benutzer:Krdbot/RedirectDeeplink folgende Weiterleitungen ausgewiesen, die jetzt ohne Ziel sind:
Was könnte man dort als neues Ziel nehmen? Danke für Deine Mithilfe. Freundl Grüsse --Nordprinz (Diskussion) 12:29, 23. Feb. 2022 (CET)Beantworten
@Nordprinz, Danke, die meisten habe ich gerade erledigt. 2 mach ich heute Abend. Grüße zurück ... --Mbasti01 (Diskussion) 14:03, 23. Feb. 2022 (CET)Beantworten
Obwohl ich die Initiative zur Abschaffung der Redundanz grundsätzlich für eine sehr gute Idee halte, ist die Situation jetzt allerdings noch unbefriedigender, da jetzt zwei Artikel Varianz und Varianz (Stochastik) existieren, die noch weniger voneinander abgrenzbar sind. Beide Artikel behandeln die Varianz im Sinne der Stochastik. Stochastik ist der Oberbegriff von Wahrscheinlichkeitsrechnung und Statistik. Das kleinere Übel wäre hier der Titel empirische Varianz, auch wenn ich letztendlich einen einzigen Artikel Varianz am besten fände. In der Englischen Wikipedia gibt es diese Unterscheidung auch nicht. Das gleiche gilt auch für die Kovarianz.
Davon abgesehen wirkt dieser Artikel hier erstens sehr laienhaft auf mich und zweitens ist der Titel Varianz sehr irreführend, da er eine höhere Allgemeinheit verspricht als der Begriff Varianz (Stochastik), obwohl genau das Gegenteil der Fall ist.--Physikinger (Diskussion) 20:04, 9. Mär. 2022 (CET)Beantworten
Ja, das war bereits ein Thema in der vorausgegangenen Redundanzdiskussion. Wir hatten ursprünglich die 3 Seiten Stichprobenvarianz, Empirische Varianz, Varianz (Stochastik). Jetzt haben wir nur noch 2 Seiten. Bei Gelegenheit sollten diese Seite "Varianz" und die Seite "Varianz (Stochastik)" ebenfalls zusammengeführt werden. Es wurde bereits darauf geachtet, dass die inhaltliche Überlappung sich in Grenzen hält.
Du hast recht: der Artikel "Varianz" sollte eigentlich der allgemeinere Artikel sein. Aber wir wollten nicht zu viel auf Einmal ändern. Wie gesagt ... nach dem nächsten Schritt gibt es nur noch das Lemma "Varianz". Der neue Artikel "Varianz" würde dann als Ausgangspunkt "Varianz (Stochastik)" verwenden und die Inhalte von der aktuellen Seite werden zu einem Unter-Kapitel im zukünftigen Artikel "Varianz".
Das wäre jedenfalls der Plan. Ich könnte mich demnächst darum kümmern, aber wenn es jemand anders machen möchte ist mir das ebenfalls recht. --Mbasti01 (Diskussion) 22:03, 9. Mär. 2022 (CET)Beantworten
Bitte bei den Artikeln Varianz, Empirische Varianz und Stichprobenvarianz (Schätzfunktion) den Ursprungszustand vom 5. Jan. 2022‎ wiederherstellen. Es ist überhaupt nicht sinnvoll alle Konzepte in einem Artikel zusammenzuführen. Wikidata ist in keinem Fall ein Argument. Dass es keine Wikidata-Einträge in anderen Sprachen gibt, dürfte daran liegen dass 90% aller Sprachversionen einfache Übersetzungen der enWP sind die keine sinnvolle Einteilung Aufteilung vorgenommen hat. In der deWP dagegen ist die Aufteilung sehr durchdacht; die Aufteilung in Empirische Varianz und Stichprobenvarianz (Schätzfunktion) hat der Mathematiker Benutzer:NikelsenH vorgenommen. Konzepte aus der Stochastik werden in der Literatur IMHO nirgends zusammen mit den statistischen zusammen abgehandelt, siehe z. B. das Grundlagenbuch Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. Springer, Berlin 2009, ISBN 3-642-01938-2., dass im Kapitel 2 "Empirische Varianz" behandelt und im Kapitel 6 Varianz im stochastischen Sinne. Was für einen Sinn ergibt es einen ellenlangen Artikel zu erstellen, der die Stichprobenkonzepte mit den stochastischen vermengt? Zudem ist das Lemma irreführend, weil dieser Artikel thematisch nicht allgemeiner ist als Varianz (Stochastik). Eine "Zusammenführung" kann ich ebenso nicht erkennen. Wo sind die Inhalte aus Empirische Varianz und Stichprobenvarianz (Schätzfunktion) geblieben? Sollen die einfach gelöscht werden?--Jonski (Diskussion) 12:55, 10. Mär. 2022 (CET)Beantworten
Wenn unbedingt etwas zusammengeführt werden soll (wozu ich keine Notwendigkeit sehe) dann könnten es höchstens die ursprünglichen Artikel Empirische Varianz und Stichprobenvarianz (Schätzfunktion) sein, die unter dem Lemma "Stichprobenvarianz" subsumiert werden könnten. Einen sehr professionellen Ansatz habe ich bei Benutzer:Sigbert [1] gefunden. Da er inaktiv zu sein scheint weiß ich nicht, ob man dies gemäß UR einfach übernehmen kann/sollte/darf. Müsste man zunächst in Erfahrung bringen.--Jonski (Diskussion) 13:09, 10. Mär. 2022 (CET)Beantworten
Die vorhergehende Redundanzdiskussion kam zum Schluss, dass die viele Inhalte der ursprünglichen Artikel Empirische Varianz und Stichprobenvarianz redundant waren, wobei der theoretische Teil der beiden Artikel in "Varianz (Stochastik)" ebenfalls und sogar besser enthalten war. Was jedoch fehlte war eine anwendergerechte Zusammenstellung der verschiedenen Berechnungsformeln. --Mbasti01 (Diskussion) 15:54, 10. Mär. 2022 (CET)Beantworten
Der Schluss, dass Redundanz vorliegt entspricht m. E. nicht der Realität. Wo liegt denn genau Redundanz vor? Kannst du das vielleicht konkreter beschreiben welcher Passus und welche Formel genau? Die Inhalte unter Stichprobenvarianz (Schätzfunktion)#Eigenschaften finde ich in diesem Artikel nicht wieder auch nicht die des Artikels Empirische Varianz. In der jetzigen Form intergiert der Artikel "Varianz" diese nicht sondern fungiert nur als eine Art Überblicksartikel wie man allgemein Varianzen berechnet und ist daher eine Art Mischung aus BKL und inhaltlichem (entspricht aber nicht den Richtlinien für eine BKL). Der Artikel versucht Lehrbuch- und Essayartig einen Überblick zum Thema zu geben. Dafür ist Wikipedia aber nicht da, siehe WP:WWNI Punkt 9. Wikipediaartikel erklären Begrifflichkeiten und "Empirische Varianz" und "Stichprobenvarianz" sind feststehende Begrifflichkeiten, bei denen es also gerechtfertigt ist dass es für sie ein eigenes Lemma gibt. Im Artikel empirische Varianz gab es den Hinweis: Die Begriffe „Varianz“, „Stichprobenvarianz“ und „empirische Varianz“ werden in der Literatur nicht einheitlich verwendet. Im Allgemeinen muss unterschieden werden zwischen der
Die Erklärung ist doch leicht verständlich und eindeutig, wieso muss das alles zwanghaft zusammengeführt werden (was ja nebenbei auch nicht geschehen ist)?
--Jonski (Diskussion) 18:47, 10. Mär. 2022 (CET)Beantworten
Ich fände es bei solchen mathematischen Größen immer gut, wenn man die Formel zur Berechnung möglichst direkt unter dem Hauptbegriff findet. Bei Varianz suchen 95% der Leser die Formel zu Berechnung der Varianz. Das ging mir neulich so bei Kovarianz, wo ich ewig suchen musste, bis ich die Formel fand. Daher habe ich in den letzten Tagen mir den Artikel mal vorgeknöpft und den Abschnitt Kovarianz (Stochastik)#Berechnung ergänzt, wo man sofort die wichtigste Formel finden, gefolgt von der zweitwichtigsten, usw. Auch hier gibt es einen entsprechenden den Artikel Stichprobenkovarianz. Da kann können dann Leser nachlesen, die mehr Details oder mehr Prosa suchen, auch wenn ich finde, dass dort absolut nichts wichtiges zu finden ist, was nicht schon im Hauptartikel steht. Zumindest wäre das auch ein Modell für Varianz, die ja ein Spezialfall der Kovarianz ist.--Physikinger (Diskussion) 23:23, 10. Mär. 2022 (CET)Beantworten
Ich verstehe, dass man die Formel nicht auf anhieb findet wenn man lediglich "Kovarianz" in die Suche eingibt und dann auf die BKL umgeleitet wird. Das Problem lässt sich aber mE nicht so einfach lösen, da "Kovarianz" oft umgangssprachlich für Stichprobenkovarianz verwendet wird. Ich finde nicht, dass es eine befriedigende Lösung ist, wenn man dann die Berechnung der Kovarianz aus einer Datenreihe in den Artikel unterbringt, in dem es um Zufallsvariablen geht. Siehe auch den Kommentar von Benutzer:HilberTraum hier. --Jonski (Diskussion) 00:16, 11. Mär. 2022 (CET)Beantworten
Der Artikel Stichprobenvarianz hat zumindest einen Mehrwert im Vergleich zur Stichprobenkovarianz, z.B. durch den Beweis der Erwartungstreue. Aber die Behauptung, Kovarianz bzw. Varianz würde irgendetwas ausschließen, halte ich für sehr gewagt. Das ist so als würde der Begriff "Länge" die Begriffe "geschätze Länge" oder "gemessene Länge" ausschließen. Die Unterteilung ist nur zu rechtfertigen, wenn der Artikel sonst unübersichtlich lang wird weil der Unterbegriff einen sehr langen Unterabschnitt hätte.--Physikinger (Diskussion) 22:16, 11. Mär. 2022 (CET)Beantworten
Mit dem Begriff "Varianz" meint man im Allgemeinen die Kenngröße einer Wahrscheinlichkeitsverteilung, was also unter Varianz (Stochastik) abgehandelt wird. Die Stichprobenvarianz wird umgangssprachlich auch als Varianz bezeichnet ist aber streng genommen keine im zuvor genannten Sinne. Dass das Thema "Stichprobenvarianz" hier unter Varianz abgehandelt wird, halte ich daher für falsch. Zudem hast du meine Frage nicht beantwortet, wo die Inhalte von den Artikeln Empirische Varianz und Stichprobenvarianz (Schätzfunktion) vom Zeitraum 2017–2022‎ sind. Hast du die einfach überschrieben?--Jonski (Diskussion) 19:00, 10. Mär. 2022 (CET)Beantworten
Du magst manches für falsch halten, aber es ist belegt. Der bisherige Stand wurde auch mit anderen diskutiert.
Die ursprünglichen Artikel der beiden anderen Seiten sind noch einsehbar. Es wurde im Moment nur eine Weiterleitung hinzugefügt. Mit Absicht. Damit sind die ursprünglichen Artikel leicht einsichtig und für eine Diskussion zugänglich. Es kann natürlich sein, dass da noch etwas verwendet werden sollte, weil es im neuen Artikel oder in Varianz (Stochastik) noch nachgeführt werden sollte.
Mit der Bitte um etwas freundlichere Zusammenarbeit ... --Mbasti01 (Diskussion) 10:32, 11. Mär. 2022 (CET)Beantworten
Jetzt erklärt mir doch mal den Unterschied bitte! Varianz (Stochastik) beschreibt vom Begriff her doch nur, welcher mathematische Teilbereich gemeint ist. Empirische Varianz beschreibt, auf was für Daten ein Wert ermittelt wird. Stichprobenvarianz beschreibt den Umfang der Daten. Der Begriff Schätzfunktion beschreibt die Verwendung des ganzen. Aber jetzt begründet mir doch mal, warum das nicht alles unterschiedliche Sichten auf ein und das selbe sein sollen! --Vollbracht (Diskussion) 14:48, 11. Mär. 2022 (CET)Beantworten
Ach und bitte: Dann muss ja auch zumindest ein einziges Fachbuch existieren, in dem die Begriffe in anderer Weise von einander abgegrenzt werden. Ohne einen solchen Beleg ist ohnehin diese Diskussion wohl hinfällig. --Vollbracht (Diskussion) 14:57, 11. Mär. 2022 (CET)Beantworten
Okay ich erkläre den Unterschied. Im Artikel Varianz (Stochastik) heißt es: "Mathematisch wird sie definiert als die mittlere quadratische Abweichung einer reellen Zufallsvariablen von ihrem Erwartungswert. Sie ist das zentrale Moment zweiter Ordnung einer Zufallsvariablen." Der ganze Artikel bezieht sich also auf Stochastik, da er ausschließlich Varianz als Kenngröße einer Verteilung in Hinblick auf Zufallsvariablen thematisiert. Man kann also nicht einfach den Inhalt von Empirische Varianz hier integrieren, ohne den Artikel vollständig umzuschreiben, da alles was im Artikel "empirische Varianz" behandelt wird ein Thema der deskriptiven Statistik ist. Siehe zum Beispiel [1]: […] soll mit der Varianz eine zu erwartende Streuung (Variation) in den Ausgängen bewertet werden. Dazu definiert man in Analogie zur empirischen Varianz aus der deskriptiven Statistik die Varianz der Zufallsvariablen wie folgt […]. Lothar Sachs grenzt hier also klar die Varianz der Zufallsvariablen von der empirischen Varianz aus der deskriptiven Statistik ab. Sie auch die andere Literaturstelle, die ich zuvor genannt habe.--Jonski (Diskussion) 16:46, 11. Mär. 2022 (CET)Beantworten
Die Aussage von Sachs kann auch so gelesen werden: Varianzen sind analog zu betrachten, ob sie nun auf empirisch ermittelten Werten (in der deskriptiven Statistik), oder auf erwarteten Werten einer Zufallsfunktion basieren. Eine Abgrenzung liegt hier definitiv nicht vor - ganz im Gegenteil. Aber vielleicht findest Du ja noch ein Beispiel. --Vollbracht (Diskussion) 17:19, 11. Mär. 2022 (CET)Beantworten
Nein es ist genau so gemeint wie es da steht. Die Analogie besteht in der Berechnung als Mittlere Quadratische Abweichung. Die Unterscheidung von "theoretischer Varianz" und Stichprobenvarianz ist absolutes Grundlagenwissen und findet sich in jedem Lehrbuch. Siehe z. B. im Glossar bei Wooldridge:
  • Sample Variance: An unbiased, consistent estimator of the population variance.
  • Variance: A measure of spread in the distribution of a random variable.
Nur weil Amateure diese Unterscheidung nicht kennen bzw. umgangssprachlich oft zu "Stichprobenvarianz" lediglich verkürzt "Varianz" gesagt wird, müssen wir nicht beides zusammenführen und irreführend mit "Varianz" labeln.--Jonski (Diskussion) 19:56, 11. Mär. 2022 (CET)Beantworten
Woher genau nimmst du deine Gewissheit, was Varianz nicht beinhaltet? Varianz ist für mich ganz klar der Oberbegriff oder Gattungsbegriff über all die speziell berechneten Varianzen. Ich glaube eher, dass du mit "Stichprobenvarianz" die "Stichprobenvarianzfunktion" meinst, also den Rechenweg, mit dem man die Varianz ermitteln kann. Aber das Ergebnis ist immer die Varianz, und davon gibt es nur eine. Das ist so wie es auch nur eine Länge als Gattungsbegriff gibt, egal ob man die Länge schätzt, misst oder berechnet und dabei unterschiedliche Werte erhält. Also ich bin nicht gegen den Unterartikel Stichprobenvarianz, sofern man dort spezielle Details finden kann. Aber es gehört alles in einem Hauptartikel erwähnt und zusammengefasst.--Physikinger (Diskussion) 22:39, 11. Mär. 2022 (CET)Beantworten
In der Mathematik ist alles irgendwo ein Spezialfall von irgendwas. Du kannst auch den Artikel Reelle Zahlen in den Artikel Komplexe Zahlen integrieren und behaupten Komplexe Zahlen wäre der Oberbegriff. Aber wäre das sinnvoll? Nein, und in wissenschaftlicher Fachliteratur wird eindeutig unterschieden zwischen "Stichprobenvarianz" und "Varianz". Fakt ist "empirische Varianz/Stichprobenvarianz" sind etablierte Konzepte und Begrifflichkeiten. In Lehrbüchern für Fortschgeschrittene wird stets auf diese Terminologie geachtet und unter "Varianz" versteht man ausschließlich die Kenngröße eine Wahrscheinlichkeitsverteilung (wie bei Wooldrige siehe oben) also die im stochastischen Sinne (Varianz (Stochastik)). Für alle anderen Artikel im Bereich Statistik/Stochastik gibt es jeweils einen Artikel für die empirische Variante und einen Artikel für die theoretische Variante, siehe z. B. Quantil (Wahrscheinlichkeitstheorie)Empirisches Quantil; Median (Stochastik)Median; Lagemaß (Stochastik)Lageparameter (deskriptive Statistik); Modus (Stochastik)Modus (Statistik); StichprobenmittelArithmetisches Mittel; Kovarianz (Stochastik)Stichprobenkovarianz; VerteilungsfunktionEmpirische Verteilungsfunktion; Dispersionsmaß (Stochastik)Streuungsmaß (Statistik) etc. Wieso willst du gerade hier bei Varianz (Stochastik)Empirische Varianz das Schema durchbrechen? In einen Hauptartikel können die unterschiedlichen Varianz-Artikel nur zusammengefasst werden, wenn es eine übergeordnete Definition gibt. Da die Größen hier auf unterschiedlicher Basis definiert werden (empirische Werte und Zufallsvariablen) können sie auch nicht in einem Hauptartikel zusammengefasst werden, bei dem beide Größen in der Einleitung unterschiedlich definiert werden. Dies entspräche dann einer Begriffsklärungsseite und für die gibt es genaue Richtlinien. Genau aus diesem Grund bestand hier auch regelkonform eine Begriffsklärungsseite.--Jonski (Diskussion) 00:16, 12. Mär. 2022 (CET)Beantworten
Komplexe Zahlen sind kein Beispiel für ein Gattungsbegriff zu dem Reelle Zahlen gehören. Der Gattungsbegriff wäre hier Zahl und dort findest du sowohl reelle als auch komplexe Zahlen in einem Abschnitt erklärt. Da nicht alle Aspekte in den Unterabschnitten untergebracht werden konnten, gibt es zusätzlich noch jeweils einen eigenen Artikel dazu.
Du verstehst unter Varianz offenbar die Varianz (Wahrscheinlichkeitstheorie), aber Varianz (Stochastik) enthält auch thematisch die empirische Varianz. Die Stochastik ist der Oberbegriff zu Wahrscheinlichkeitstheorie und Statistik. Statistik beschreibt die empirische Erhebung von Wahrscheinlichkeiten. Wenn du in der mathemtischen Literatur Varianz findest, dann ist vielleicht immer das Ideal der Varianz gemeint, da Mathematik als exakte Wissenschaft sich grundsätzlich für exakte Größen interessiert, aber das ist nicht allgemeingültig für alle Disziplinen. Die Wikipedia ist keine Mathematiklehrbuch mit allen dortigen Gepflogenheiten.--Physikinger (Diskussion) 01:04, 12. Mär. 2022 (CET)Beantworten
Wie schon oben erklärt; empirische Varianz ist kein Spezialfall von Varianz (Stochastik). Die Wahrscheinlichkeit, dass die empirische Varianz der theoretischen Varianz entspricht ist Null (fast unmöglich). Siehe Rencher (2002) The sample variance is generally never equal to the population variance (the probability of such an occurrence is zero), but it is an unbiased estimator for . Wieso willst du eine Größe dort integrieren, die niemals der theoretischen Varianz entspricht? Ich habe jetzt sehr viele Bücher durchgesehen und in keinem einzigen wird "empirische Varianz" und "Varianz im stochastischen Sinn" unter der allgemeinen Bezeichnung "Varianz" subsumiert. In allen wird zwischen sample variance und variance unterschieden, die sich in vollständig unterschiedlichen Kapiteln befinden. --Jonski (Diskussion) 01:14, 12. Mär. 2022 (CET)Beantworten
Wie schon oben erklärt? Da ist aber nichts erklärt bzw. ich habe doch in meinem vorigen Kommentar begründet, warum das nicht stimmt. Die theoretische Varianz ist auch wieder nur eine spezielle Varianz. Und das was du hier zitierst, widerlegt dich doch auch. Hier wird von population variance gesprochen und nicht von Varianz im allgemeinen. Die Varianz ist ein Gattungsbegriff, und die Unterarten sind spezielle Varianzen bzw. Methoden, um Varianzen zu schätzen oder Strategien, um zu Varianzen zu gelangen. Ich weiß nicht, in welchen Büchern du schaust, aber bei allen, die ich gesehen habe, war die Kapitelüberschrift Varianz.--Physikinger (Diskussion) 01:57, 12. Mär. 2022 (CET)Beantworten
Z. B. in [2][3]. Ich glaube die Konfusion kommt zustande, da sprachliche und mathematische Eigenschaften vermischt werden. In sprachlicher Hinsicht hast du natürlich Recht und man kann sagen, dass "empirische Varianz" und "theoretische Varianz" beides Varianzen sind und daher unter dem Gattungsbegriff "Varianz" subsumiert werden können. Aber in mathematischer Hinsicht versteht man unter "empirisch" immer die "Stichprobenwerte", siehe auch Empirische Verteilungsfunktion, Empirisches Quantil etc. Daher ergibt es keinen Sinn die stochastische und die Sichtweise der deskriptiven Statistik zusammenzuführen. Sonst müssten wir ja auch bei Quantil (Wahrscheinlichkeitstheorie)Empirisches Quantil; Median (Stochastik)Median; Lagemaß (Stochastik)Lageparameter (deskriptive Statistik); Modus (Stochastik)Modus (Statistik); StichprobenmittelArithmetisches Mittel; Kovarianz (Stochastik)Stichprobenkovarianz; VerteilungsfunktionEmpirische Verteilungsfunktion; Dispersionsmaß (Stochastik)Streuungsmaß (Statistik) jeweils Überblicksartikel schaffen, was überhaupt nicht sinnvoll ist.--Jonski (Diskussion) 02:11, 12. Mär. 2022 (CET)Beantworten
Du begründest hier nicht, warum "Varianz (Stochastik)" nicht alles zum Thema umfassen sollte, inklusive der Berechnung der Varianz aus Datenreihen. Wenn jemand von "der Varianz" spricht, meint er im allgemeinen Sinn die Varianz aus dem Gebiet der Stochastik und nicht irgendeine spezielle, die irgendwas nicht umfasst. Deine anderen Beispiele sind nicht konsequent und zum Teil ist da auch viel mathematische Schaumschlägerei dabei. Das Problem ist doch, dass ein Leser der Wikipedia zunächst eine Übersicht über die Varianz braucht, um überhaupt zu verstehen, was die Unterarten bedeuten, und warum die unterschieden werden müssen. Daher sollte "Varianz (Stochastik)" eine Art Hauptartikel darstellen, der thematisch alles abdecken sollte und "Stichprobenvarianz" kann noch weitere Details zur Schätzung liefern. Ob der Hauptartikel "Varianz" oder "Varianz (Stochastik)" heißt, ist mir dabei egal.--Physikinger (Diskussion) 10:57, 12. Mär. 2022 (CET)Beantworten
Ich habe es doch schon so oft begründet. Es gibt keine "die Varianz" unter der man alles subsumieren kann und die man allgemein definieren kann. Es gibt je nach Kontext unterschiedliche Varianzen, die unterschiedlich definiert sind und sogar unterschiedliche Namen tragen. Lies doch mal was zum Beispiel bei Modus (Stochastik)#Abgrenzung steht: Der Modus (im Sinne der Wahrscheinlichkeitstheorie) ist eine Kennzahl einer Wahrscheinlichkeitsverteilung. Diese ist eine Abbildung, welche speziellen Mengen eine Zahl zuordnet und ist damit von einer Stichprobe zu unterscheiden. Die beiden Modus-Begriffe sind also verschieden, insbesondere da sie andersartigen mathematische Konstrukten Zahlen zuordnen: Einmal der Stichprobe, einmal der Wahrscheinlichkeitsverteilung. Genau diese Abgrenzung gilt auch für Varianz (Stochastik) und Empirische Varianz. Ich finde wir sollten uns nicht nach unserem Sprachgefühl richten, sondern nach Fachliteratur und wie ich oben bereits schrieb wird dort unterschieden in: Sample Variance: An unbiased, consistent estimator of the population variance. und Variance: A measure of spread in the distribution of a random variable. Man kann nicht Sample Variance und Variance unter Variance zusammenfassen. Sry das ergibt einfach keinen Sinn. Definition im obigen Applied Statistical Inference Buch:
  • Variance: The variance of a random variable X is defined as
  • The sample variance:

im obigen Rancher-Buch

  • The sample variance is defined as:

Oder in Judge (1981) The rth moment about the mean of is If , is called the variance of the distribution of , or just the variance of . oder Rencher (2008)

  • The variance of a random variable is defined as . This is the population variance. Later (beginning in Chapter 5), we also use the sample variance of y, obtained from a random sample of n observed values of y. Wie kannst du da also sagen variance und sample variance wären das eigentlich das gleiche?

--Jonski (Diskussion) 13:06, 12. Mär. 2022 (CET)Beantworten

Du bemühst dich scheinbar überhaupt nicht, meine Argumente zu verstehen, wenn du behauptest, ich hätte variance und sample variance als das Gleiche bezeichnet. Das eine (sample variance) ist eine Approximation des anderen (variance) bzw. eine Schätzung. Genau das ist die wesentliche Information, die ein Leser hier umittelbar finden sollte. Die verschiedenen Begriffe stellen eine Hilfe dar, um diesen Zusammenhang einfacher auszudrücken und man kann keine Vorschriften daraus ableiten, wie ein Artikel strukturiert sein muss. Sinn der Wikipedia ist ja gerade, dass man nicht ein Mathematiklehrbuch von vorn bis hinten durchlesen muss, bis man ein Gesamtbild bekommt, sondern dass man hier vereinfacht in allgemeinverständlicher Sprache die wichtigsten Punkte kompakt erklärt bekommt. Mathematiker kommen trotzdem auf ihre Kosten, wenn sie den Artikel komplett durchlesen. Aber es orientiert sich hier nicht alles an Mathematiklehrbücher, sondern die Varianz nutzen auch viele andere, die nur schnell die richtige Formel finden wollen. Außerdem steht in keinem Lehrbuch, was du hier darstellst, nämlich dass die Stichprobenvarianz keine Varianz sei, also demnach auch keine Schätzung oder Näherung der Varianz, sondern angeblich was ganz anderes.--Physikinger (Diskussion) 19:17, 12. Mär. 2022 (CET)Beantworten
Dass die Stichprobenvarianz im stochastischen Sinn eine Schätzung der Varianz ist steht längst seit Jahren im Artikel Varianz (Varianz (Stochastik)#Stichprobenvarianz als Schätzer für die Varianz) mit Verlinkung auf den Artikel Stichprobenvarianz (Schätzfunktion). Was ist jetzt genau dein Problem? Mir ging hauptsächlich darum den Artikel Empirische Varianz nicht in den Artikel Varianz (Stochastik) zu überführen. Auch eine Integration von Stichprobenvarianz (Schätzfunktion) in Varianz (Stochastik) lehne ich ab, da der Artikel Stichprobenvarianz (Schätzfunktion) sehr lang ist, keine Redundanz besteht und dort sehr viel nützliches steht.--Jonski (Diskussion) 19:32, 12. Mär. 2022 (CET)Beantworten
Dass die Stichprobenvarianz/ empirische Varianz im Sinne der deskriptiven Statistik eigentlich keine Varianz ist wurde hier schon längst von unterschiedlichsten Nutzern festgestellt, siehe z. B. [2]--Jonski (Diskussion) 20:13, 12. Mär. 2022 (CET)Beantworten
Mein Problem ist, dass laut dir im Artikel Varianz (Stochastik) keine Erklärung zu finden sein darf, wie man die Varianz anhand einer Stichprobe schätzt, weil die Varianz, die man schätzen will, angeblich keine Varianz sei, was mit nicht einleuchtet. Und wie nun die deskriptiven Statistik die Varianz sieht, scheint mir hier auch in diesem Zusammenhang keine hohe Relevanz zu haben. Habe ich auch noch nie von gehört, zugegeben.--Physikinger (Diskussion) 23:17, 12. Mär. 2022 (CET)Beantworten

@Mbasti01: Grundsätzlich finde ich dein Verhalten hier nicht in Ordnung, die langjährige Arbeit vieler Wikipedia-Autoren praktisch verschwinden zu lassen, und deinen offensichtlich noch lange nicht fertigen und nicht als Status Quo akzeptierten Artikel den Lesern zuzumuten. Bitte mache das wieder rückgängig, solange bis eine Einigung erzielt wurde. Der alte Stand war akzeptiert, auch wenn ein Änderungsbedarf erkannt wurde, aber dein neuer Stand ist noch weit von einer Verbesserung entfernt. Du kannst offline daran arbeiten oder eine Entwurfsseite anlegen.--Physikinger (Diskussion) 01:29, 12. Mär. 2022 (CET)Beantworten

@Physikinger : Grundsätzlich finde ich Dein Verhalten ebenfalls nicht in Ordnung. Ich verstehe jetzt warum Du es schon auf 6 Sperrungen gebracht hast. Du stellst Deine private Meinung im Moment über das Ergebnis einer ordentlich geführten und dokumentierten Redundanzdiskussion.
Aber zur Sache:
In der Literatur werden die Begriffe "Empirische Varianz" und "Stichprobenvarianz" nicht einheitlich verwendet und haben überlappende Bedeutungen. Diesen Zustand kann Wikipedia nicht reparieren sondern nur zusammenfassen. D.h. Deine private Meinung mag begründet sein, sie ist aber kein Standard in allen Quellen. Worin sich die Leute aber einig sind ist die Bedeutung der Sichtweisen z.B. dass man bei Varianz im Sinne der Schätzung der Varianz einer Grundgesamtheit den Summen-Term durch n-1 multiplizieren muss. Siehe auch: FernUni Hagen 2020 – Empirische vs Stichprobenvarianz (YouTube).
Wikipedia sollte an die Anwender denken: Der Benutzer ist nicht unbedingt ein Spezialist, der bereits tief in der Sache drinsteckt. Beim Thema Varianz gibt es Benutzer die eher aus der Mathematik kommen und sich für Zufallsvariablen und die stochastischen Hintergründe interessieren. Diese Benutzer sind natürlich wichtig. Aber es gibt vermutlich auch viele Anwender aus Medizin, Biologie, Technik, Wirtschaft, die nur wissen wollen, wann man welche Formel verwendet. Für den 2ten Aspekt sind die Inhalte der bestehenden Artikel "Empirische Varianz" und "Stichprobenvarianz" redundant, und teilweise auch widersprüchlich. Und sie enthalten darüberhinaus Darstellung von theoretischem Background, der eher in Varianz (Stochastik) beheimatet sein sollte.
Nun ist es sehr schwer in einer großen Änderung alles mit einem Schlag zu verbessern und alle Seiten parallel zu modifizieren. Der vorgeschlagene Weg ist es schrittweise vorzugehen. Ein Kompromiss über das weitere Vorgehen sollte sich finden lassen. --Mbasti01 (Diskussion) 11:45, 12. Mär. 2022 (CET)Beantworten
@Mbasti01: Die Redundanzentfernung sollte aus meiner Sicht ersmal nur die Vereinigung der Artikel Stichprobenvarianz_(Schätzfunktion) und Empirische_Varianz bedeuten, da die Unterscheidung etwas künstlich ist. Z.B. gibt es zum Teil gleichen Inhalt, wie Empirische Standardabweichung#Empirische Standardabweichung und Stichprobenvarianz_(Schätzfunktion)#Stichprobenstandardabweichung. Es ist aber nicht so, dass man einen davon direkt löschen kann, da beide auch unterschiedliche gute Informationen enthalten. Da Empirische Varianz allgemeiner ist, sollte dort der Inhalt von Stichprobenvarianz (Schätzfunktion) integriert werden. Später könnte man vielleicht auch in Varianz (Stochastik) die wichtigesten Formeln kompakt und übersichtlich unterbringen, die von den meisten Lesern gesucht werden. Es ist über die Zeit ein umheimlicher Wildwuchs entstanden, weil jeder Autor, der was zum Thema gefunden und verstanden hat, es irgenwo unterbringt. Dadurch verwässert der Artikel und die wichtige und wesentliche Information geht völlig unter. Ich stimme dir zu, dass die Situation unschön ist, dass man die wichtigen Formeln wie die Nadel im Heuhaufen sicht.
Die neue Version bringt zwar wieder deutlich mehr Ordnung rein und konzentriert sich aufs Wesentliche, allerdings geht dabei bisher noch viel Information verloren und und es könnte auch noch deutlich kompakter formuliert werden. Mir ist da noch zuviel Prosa-Text dabei. Der Stil mit rhetorischen Fragen klingt zum Teil eher nach einer Hausarbeit eines Studenden, als nach einer kompakten lexikalischen Definition oder nach einem Lehrbuch. Da kann man noch einges verbessern und vor allem kürzer schreiben. Weniger ist hier mehr.
Ich weiß die neue Übersicht irgendwie auch zu schätzen, aber jetzt findet man die anderen Artikel gar nicht mehr, was irgendwie nicht ok ist. Die sollten solange auffindbar sein, bis die wichtigen Inhalte irgendwo anders integriert wurden. Wenn ich jetzt "Varianz" in das Wikipedia-Suchfeld eingebe, sehe ich nur noch die Artikel "Varianz" mit dem Zusatz "Begriffserklärung", also diese Seite, und "Varianz (Stochastik)". Die anderen findet man nicht mehr. Wenn du wirklich diese Mamutprojekt umsetzen willst und alles zum Thema in einem Artikel vereinen willst, solltest du es so machen, dass man vorübergehend noch alle andere Information findet. Die Wikipedia ist für meisten Menschen das einzige Lexikon, da sollten nicht wegen Bauarbeiten bestimmte Inhalte vorübergehend unauffindbar sein. Die Platzierung unter "Varianz" ist außerdem, wie schon gesagt sehr fraglich, solange Varianz (Stochastik) koexisitert. Was hälts du davon, deinen Artikel mit Empirische_Varianz zu vereinen, also das neue Kapitel "Berechnung" ganz oben und die schon vorhandenen danach? Und dann machen wir "Varianz" wieder zur Begriffserklärungsseite, wie gehabt. Dann geht auf jedenfall keine Information verloren. Und eine weitere Vereinigung oder die Löschung von Stichprobenvarianz (Schätzfunktion) kann man dann später vornehmen.--Physikinger (Diskussion) 12:17, 12. Mär. 2022 (CET)Beantworten
Einverstanden. Das kommt der Idee eines schrittweisen Vorgehens entgegen. Dein Vorschlag für die Reihenfolge ist für mich ok:
  1. Aktuellen Inhalt verwenden um die bestehende Seite Empirische Varianz zu verbessern. (Und diese Seite hier bekommt sofort Links auf Empirische Varianz sowie Stichprobenvarianz (Schätzfunktion) , so dass diese beiden Seiten leichter zugänglich werden bis alles erledigt ist.)
  2. Varianz wird wieder eine Begriffsklärungsseite
  3. Vereinigung / Löschung der Stichprobenvarianz (Schätzfunktion)
  4. Varianz (Stochastik) gegebenfalls anpassen
Es kann natürlich sein, dass bei einer Änderung auf der Seite Empirische Varianz parallel auch Änderungen auf anderen Seiten erfolgen sollten, um Widersprüche zu vermeiden oder weil Inhaltsbausteine verschoben werden bzw. durch Verlinkung ersetzt werden. Aber die Basis des Vorgehens ist die obige Reihenfolge.
Die Diskussion führen wir auf dieser Seite hier fort ... damit die Diskussion sich nicht auf alle 3 beteiligten Seiten verteilt.
Ich werde langsam vorgehen (alle 1-3 Tage ein Schritt), so dass eine begleitende Diskussion und Zusammenarbeit mit Dir und gegebenenfalls weiteren Autoren möglich ist.
Danke auch für die Anregungen zum Schreibstil. Das Ziel ist es - insbesondere in Einführungskapiteln - den Einstieg ins Thema leicht zu machen und eine Übersicht zu bieten. Aber das ist immer eine Gratwanderung. Zu viel Prosa ist auch nicht gut. Da hilft es wenn weitere Meinungen einfließen.
Weiterer Input - auch von anderen Autoren - ist willkommen. --Mbasti01 (Diskussion) 17:58, 12. Mär. 2022 (CET)Beantworten
Das Vorgehen fände ich völlig in Ordnung und es führt am Ende zum gleichen Ziel. Vorübergehend erhöht es zwar die Redundanz, aber am Ende kann dann ein Artikel gelöscht werden. Währendessen kann man Stück für Stück die Informationen übertragen, bis alles Wesentliche und Wichtige untergebracht ist.--Physikinger (Diskussion) 18:34, 12. Mär. 2022 (CET)Beantworten
Wenn Empirische Varianz und Stichprobenvarianz (Schätzfunktion) professionell zusammengeführt werden ohne dass Information verloren geht, dann wäre ich dafür. Ein schrittweises Vorgehen lehne ich ab. Bitte dafür eine eigene Unterseite erstellen und den fertigen Artikel zur Diskussion stellen. Wie eine professionelle Zusammenführung aussehen kann ist in diesem unfertigen Artikel [3] skizziert.--Jonski (Diskussion) 19:34, 12. Mär. 2022 (CET)Beantworten
Wer bist Du, dass Du so einfach ablehnen kannst?
Wie auch immer, auch dieser Artikel-Entwurf von 2011 enthält gute Ideen. Ich kann eine Unterseite anlegen. Ich würde trotzdem nicht alle Ideen auf einmal umsetzen, sondern Stück für Stück. Und wenn das niemandem gefällt, dann darf jemand anders sich an der Sache versuchen. Inkrementelles Vorgehensmodell, Agile Arbeitsweise, ... das sind die Zauberwörter von moderner Zusammenarbeit in Wikis. Alles andere dauert zu lange. Die Gefahr dass ein weiterer Artikelentwurf versandet ist ebenfalls zu groß. Das Thema ist zu vielgestaltig um es monolithisch anzugehen. --Mbasti01 (Diskussion) 20:52, 12. Mär. 2022 (CET)Beantworten
Also Stückweise soll heißen, dass jeder Schritt zu einem validen Artikel führt und nicht zwischenzeitlich eine Art Baustelle vorzufinden ist. Das hätte den Vorteil, dass nicht in einem Hinterzimmer ein Artikel geschmiedet wird und am Ende alle vom Ergebnis überrascht werden. So könnten alle in irgendeiner Form mitarbeiten bzw. andere Sichtweisen frühzeitig äußern. Aber es hat auch Vorteile, wenn jemand zunächst in einer Entwurfsseite arbeitet, um dann ungestört, frei und flexibel an der Umgestalltung arbeiten zu können, bis es eine gute Form annimmt. Also da gibt es keine Vorschriften, wie an Artikeln gearbeitet werden soll, wenn das Ergebnis stimmt.--Physikinger (Diskussion) 22:53, 12. Mär. 2022 (CET)Beantworten
Genau, alle können Mitarbeiten. Das wäre das Ziel. Und auch Nutzer können damit unmittelbar auf Änderungen reagieren.
Größere Änderungen sollten natürlich in einer Entwurfsseite vorbereitet werden.
Nachteil allerdings: Wenn in dieser Entwurfsseite mehrere Autoren beteiligt sind ... am Ende wird kopiert und in der Artikel-Versionsgeschichte ist dann nur noch der Nutzer sichtbar, der kopiert hat. Daher ist eine Entwurfsseite nur dann die beste Lösung wenn es sich wirklich um größere Änderungen dreht.
Ich habe jedenfalls die Hoffnung, dass man in vielen Punkten auch inkrementell vorwärts kommt. Ausnahme könnten die ersten Absätze und das gegebenenfalls neue Übersichtskapitel der Seite Empirische Varianz sein. Da könnte eine Entwurfsseite zur Abstimmung hilfreich sein. Aber das wird man sehen wie es sich entwickelt.
Baustellencharakter sollte natürlich weit möglichst vermieden werden. Nur das Thema "Redundanz" bleibt uns eine längere Weile ... das kann man nicht in einem Schlag auflösen. --Mbasti01 (Diskussion) 09:16, 13. Mär. 2022 (CET)Beantworten
Der Vorschlag mit der Unterseite ist besser. Erstes ist nicht immer jeder aktiv und kann immer alle Änderungen kommentieren. Zweitens ist ja nicht nur eine Diskussion zwischen uns, sondern über viele Jahre hinweg haben unterschiedlichste Benutzer an den verschiedenen Varianz-Artikeln gearbeitet, die inzwischen nicht mehr aktiv oder temporär nicht mehr aktiv sind. Die neue Version wird dann nur zwischen 2 Nutzern ggf. 3 konsertiert sein. Ich kann mir vorstellen, dass die verärgert sein werden, wenn sie zurückkehren und einfach alles vollständig geändert wurde ohne deren Zustimmung. Ist ja auch verständlich, wenn einfach ohne nähere Begründung 5 Jahre Arbeit einfach ohne Begründung gelöscht werden soll. Die beiden Artikel Empirische Varianz und Stichprobenvarianz (Schätzfunktion) sind historisch gewachsen und offensichtlich bestand seit Jahren ein Konsens zwischen diesen Nutzern. Und es ist keineswegs so wie oben falsch dargestellt wurde, dass sich da einfach irrelevantes Zeug gesammelt hat, sondern die Artikel sind sehr durchdacht und alles ist korrekt dargestellt. Wenn jetzt beide Artikel zusammengeführt werden sehe ich außerdem Gefahr, dass sich irgendein Nutzer beschwert, dass der Artikel dann zu lang ist und als Konsequenz den Artikel wieder aufteilt. Dann war alles umsonst. Ich habe ja oben nach dem Sinn der Zusammenführung gefragt, der sich mir nicht ganz erschließt, aber ihr habt euch ja dazu entschlossen diese Frage konsequent zu ignorieren.--Jonski (Diskussion) 00:51, 14. Mär. 2022 (CET)Beantworten
Ob man jetzt zusammenführt oder nicht, besteht ein klares Bedürfnis nach besserer Übersicht, besserer Auffindbarkeit von Anwenderwissen, ein zusammenhängender Abschnitt, der eine Einführung in die Formeln der Varianz gibt, ohne Abschweifungen mit komplizierten Begriffen zu einem abstrakten theoretischen Überbau, der höchstens für Mathematikstudenten interessant ist, denen ich aber ohnehin echte Lehrbücher empfehlen würde. Siehe auch mein Kommentar zu Diskussion:Kovarianz_(Stochastik)#Berechnung.--Physikinger (Diskussion) 23:21, 14. Mär. 2022 (CET)Beantworten

Diskussion zu Details des weiteren Vorgehens[Quelltext bearbeiten]

Ist die Tabelle mit den Formelzeichen auf der Seite "Varianz" ok? Dann würde ich als erstes die selbe Tabelle auf der Seite Empirische Varianz als Ausgangspunkt verwenden und gegebenenfalls ein paar Formelbuchstaben im Text anpassen und die Tabelle je nach Erfordernis erweitern/kürzen.--Mbasti01 (Diskussion) 20:08, 13. Mär. 2022 (CET)Beantworten

Ich finde es unglücklich, dass eine Zufallsvariable mit einem Kleinbuchstaben gekennzeichnet wird. Zufallsvariablen werden normalerweise stets mit Großbuchstaben abgekürzt was in Artikel Stichprobenvarianz (Schätzfunktion) ja auch konsequent umgesetzt ist. Dementsprechend würde ich die erste Zeile weglassen. Dass die Tilde allgemein einen Schätzwert kennzeichnet finde ich auch nicht gut. Eine Schätzfunktion die erwartungstreu für einen unbekannten Parameter ist, wird normalerweise mit gekennzeichnet und welche die verzerrt sind mit . So sollte man es auch umsetzen; allerdings würde ich alles was mit Schätzung zutun hat auf Schätzfunktionen beziehen und nicht auf die Schätzwerte. Darum sollte man sich also später erst kümmern, wenn der Artikel Stichprobenvarianz (Schätzfunktion) integriert ist, der die Sicht der induktiven Statistik einnimmt. Die Begründungen für den Korrekturfaktor etc. lassen sich auch vollständig nicht induktiv begründen. Der Abschnitt "Varianzberechnung basierend auf einer statistischen Verteilungsfunktion" würde mE überhaupt nicht in solch einen Artikel gehören, sondern in Varianz (Stochastik) wo es ja auch schon steht. Dementsprechend bräuchte man die Zeile 10 auch nicht. Auch die Zeile 11 ist mE missverständlich, da die Bezeichnung "Varianz von Varianz" sehr unglücklich ist. Im der verlinkten Seite der HU Berlin ist es doch richtig beschrieben: es handelt sich um die Varianz der Stichprobenvarianz im induktiven Sinne und nicht die der Grundgesamtheit. Ich schlage daher vor die Tabelle vorerst auf folgendes zu reduzieren:
Formelzeichen
Anzahl der gegebenen Werte
(einfache) Zufallsstichprobe
beobachtete Werte dieser Zufallsvariablen
Varianz der Grundgesamtheit
Mittelwert der Grundgesamtheit

Wenn der Artikel Stichprobenvarianz (Schätzfunktion) integriert ist, dann kann man weitere Symbole erklären. Dann könnte die Inforbox erweitert werden auf

Formelzeichen
Anzahl der gegebenen Werte
(einfache) Zufallsstichprobe
beobachtete Werte dieser Zufallsvariablen
Varianz der Grundgesamtheit
Mittelwert der Grundgesamtheit
Stichprobenvarianz (Schätzfunktion)
korrigierte Stichprobenvarianz (Schätzfunktion)
Stichprobenvarianz
korrigierte Stichprobenvarianz

Zudem sollte der Artikel zum Schluss unter "Stichprobenvarianz" zu finden sein, wie der Artikel-Entwurf von 2011. Der Grund ist, dass in der Literatur und Derivate als "empirische Varianz" und "Stichprobenvarianz" bezeichnet werden, und Derivate (Stichprobenvarianz (Schätzfunktion)) jedoch nur als "Stichprobenvarianz".--Jonski (Diskussion) 21:31, 13. Mär. 2022 (CET)Beantworten

Da waren viele verschiedene Punkte in Deiner Antwort. Gut. Ich separiere mal:
  • Eine Schätzfunktion die erwartungstreu für einen unbekannten Parameter ist, wird normalerweise mit gekennzeichnet und welche die verzerrt sind mit . >>> OK
  • Zufallsstichprobe / beobachtete Werte dieser Zufallsstichprobe Formelzeichen >>> ok
  • Der Abschnitt "Varianzberechnung basierend auf einer statistischen Verteilungsfunktion" würde in Varianz (Stochastik) gehören >>> OK
  • Varianz der Stichprobenvarianz im induktiven Sinne ... >> OK
Schwierigkeiten habe ich mit der Separierung von Empirische Varianz und Stichprobenvarianz. Ich sehe das so:
  • Empirie ist ... "eine methodisch systematische Sammlung von Daten".
  • "Empirische Varianz" = Berechnete Varianz basierend auf empirisch erhobenen Daten aus einer Population/Gesamtheit
  • Empirische Daten sind empirisch erhoben und beruhen häufig auf einer Stichprobe. Ausnahmsweise auch auf den Daten der gesamte Population. D.h. "Daten aus Stichproben" ist eine mögliche Datenquelle bei der Berechnung der "Empirischen Varianz". "Empirische Varianz" ist allgemeiner als "Stichprobenvarianz"
  • "Empirische Varianz" soll eine Aussage über die Population/Gesamtheit machen. Da kommt man am Thema "Schätzung" nicht vorbei.
  • Im idealen Fall ist die Stichprobe eine "Zufallsstichprobe"
  • Aus praktischen Gründen kann es auch andere Strategien geben um zu einer Stichprobe zu kommen
  • Der Unterschied in den Formeln (n vs n-1) hängt nicht an den Begriffen "Empirie" oder "Stichprobe". Sondern er hängt an der Frage, ob der Mittelwert der Population bekannt ist, oder ob der Mittelwert ebenfalls geschätzt werden muss. --Mbasti01 (Diskussion) 10:53, 14. Mär. 2022 (CET)Beantworten
Es ist so: In der deskriptiven Statistik bezeichnet man mit die Stichprobenvarianz oder empirische Varianz (das wird nicht einheitlich verwendet). Natürlich wird die Größe auch als Stichprobenvarianz bezeichnet weil sie den Spezialfall umfasst "Stichprobe ist eine Zufallsstichprobe". Trotzdem sind und grundverschiedene Größen die gänzlich unterschiedliche Eigenschaften haben. Z. B. ist erwartungstreu für sieh auch (Stichprobenvarianz (Schätzfunktion)#Eigenschaften). Für gilt dies nicht, da ein konkreter Wert ist, der Erwartungswert ist also immer Null. Auch nur die Größe besitzt eine Verteilung, da sie im Gegensatz zu eine Zufallsvariable ist. Die Begründungen für den Korrekturfaktor sind je nach Sichtweise (deskriptive Statistik oder Stochastik) auch unterschiedliche:
Empirische Varianz/Stichprobenvarianz (deskriptive Statistik) Begründung für den Korrekturfaktor Aufgrund der Schwerpunkteigenschaft des empirischen Mittels ist die letzte Abweichung bereits durch die ersten bestimmt. Folglich variieren nur Abweichungen frei und man mittelt deshalb, indem man durch die Anzahl der Freiheitsgrade dividiert.
Stichprobenvarianz (induktive Statistik/Stochastik) Begründung für den Korrekturfaktor Da durch die Schätzung des Erwartungswertes von durch ein Freiheitsgrad verloren geht, liegt die Anzahl der Freiheitsgrade bei .

Alles was mit Schätzung zutun hat sollte sich immer auf die Varianz im Sinne der Stochastik beziehen. Also sollte man bei Empirische Varianz/Stichprobenvarianz (deskriptive Statistik) alles mit Schätzung rausnehmen, da es sich nur um Schätzwerte nicht um Schätzungen handelt. Das Argument, dass aufgrund der Schätzung ein Freiheitsgrad verbraucht gilt ist nur für so anwendbar.--Jonski (Diskussion) 16:32, 14. Mär. 2022 (CET)Beantworten

Ich darf noch mal darauf hinweisen, dass empirische Varianz selbstverständlich das gleiche sein muss, wie die Varianz einer Zufallsvariablen (so weit es um Zahlen geht). Der Varianz muss es ja völlig egal sein, ob sie über dem Produkt aus Wert und dessen absoluter Häufigkeit pro Gesamtzahl, oder über dem aus Wert und dessen rechnerischer Wahrscheinlichkeit gebildet wird. Die Darstellung in der Definition mag sich unterscheiden. Das Ergebnis darf sich nicht unterscheiden - egal, ob ich mit dem Protokoll von 20.000 Würfen mit zwei Würfeln arbeite und die Anzahl tatsächlich gewürfelter siebenen durch 20.000 teile, oder ob ich die 6 Möglichkeiten, eine 7 zu würfeln, durch 36 teile. Natürlich unterscheidet sich der übliche Rechenweg, weil in den Wahrscheinlichkeiten (pi) die Gesamtzahl (der Möglichkeiten) bereits drin steckt. Und weil deutsch hier besser ist als englisch ein mal noch mal aus dem Bronstein-Semendjajew:

So! Und wenn nun weil wir die Möglichkeiten, z. B. eine 7 zu würfeln, einzeln betrachten und natürlich alle 6 gleich wahrscheinlich sind, dann gilt . Nun sollte eigentlich nur noch gezeigt werden, dass
Da kann mir mal jemand helfen. --Vollbracht (Diskussion) 16:33, 14. Mär. 2022 (CET)Beantworten

@Jonski: Deine Erklärung ist korrekt, aber die Konvention ist für den Eimer. Wenn ich "zufällig" mit zwei Würfeln genau 36 mal würfele und "zufällig" jede mögliche Kombination genau 1x "erwürfele", müssten DX und S² theoretisch genau übereinstimmen. Das tun sie aber nicht, weil nach dieser dummen Konvention der Divisor nicht n, sondern (n-1) ist. Kannst Du noch mal darauf eingehen? --Vollbracht (Diskussion) 17:07, 14. Mär. 2022 (CET)Beantworten
Die Varianz entspricht eben nur unter bestimmten Voraussetzungen der Stichprobenvarianz ohne Korrekturfakor. Die korrigierte Stichprobenvarianz lässt sich mE durch obige Überlegung nicht Herleiten, aber dadurch dass bei der Schätzung des Erwartungswertes ein Freiheitsgrad verbraucht wird also . Bei Wiederholungen liegen und nah beieinander. , und sind aber trotzdem unterschiedliche mathematische Objekte.--Jonski (Diskussion) 19:41, 14. Mär. 2022 (CET)Beantworten
Das ist doch eben der Punkt: die Definition von Varianz und Stichprobenvarianz sind nicht gleich, sondern nur bei Annahme einer Gleichverteilung. Das steht doch auch schon längst im Artikel (siehe Varianz (Stochastik)#Varianz als mittlere quadratische Abweichung vom Mittelwert):

Im Falle einer diskreten Zufallsvariable mit abzählbar endlichem Träger ergibt sich die Varianz der Zufallsvariable als

.

Hierbei ist die Wahrscheinlichkeit, dass den Wert annimmt. Diese Varianz kann als eine gewichtete Summe der Werte gewichtet mit den Wahrscheinlichkeiten interpretiert werden.

Falls gleichverteilt auf ist (), gilt für den Erwartungswert, dass er gleich dem arithmetischen Mittel ist (siehe Gewichtetes arithmetisches Mittel als Erwartungswert):

Folglich wird die Varianz zum arithmetischen Mittel der Werte :

.

D. h., die Varianz ist bei Gleichverteilung gerade die mittlere quadratische Abweichung vom Mittelwert bzw. die Stichprobenvarianz .

--Jonski (Diskussion) 16:44, 14. Mär. 2022 (CET)Beantworten

Ja, aber bei Annahme der Gleichverteilung passt das ja eben nicht! (Siehe Beispiel mit 36 Pseudozufällen) --Vollbracht (Diskussion) 17:10, 14. Mär. 2022 (CET)Beantworten

Ich finde die Diskussion und das Gesagte nützlich und hilfreich. Mein Anliegen für den Artikel "Empirische Varianz" ist es, dass wir die Leser, die ja verschiedenen Background mitbringen (technisch, biologisch, wirtschaftlich, ...) nicht bereits im Einführungskapitel abhängen und dass der Inhalt auch für diese Zielgruppe "nützlich" ist. Empirische Varianz ist ein Grundbegriff, der von vielen verwendet wird - nicht nur von Mathematikern. Wir müssen darauf achten, dass der Artikel im Einklang mit dem mathematischen Sprachgebrauch und den mathematischen Definitionen ist - und gleichzeitig nicht zu tief geht und zu hohe Voraussetzungen an den Leser stellt. Ich freue mich über weitere Beiträge. Ich selbst brauche jetzt 2-3 Tage zum sortieren ...--Mbasti01 (Diskussion) 10:12, 15. Mär. 2022 (CET)Beantworten

Wenn die einfachsten Formeln unbedingt unter dem Lemma "Varianz" gefunden werden sollte, dann könnte man vielleicht auch so vorgehen: man belässt die anderen Varianz-Artikel zum Großteil so wie sie sind und beschreibt dann gleich in der Einleitung dieses Artikels hier, dass es unterschiedliche Definitionen von Varianz gibt bzw. versucht die Essenz dieser Definitionen knapp zusammenzufassen. Dann präsentiert man in diesem Artikel nur die wichtigsten Formeln zu den unterschiedlichen Perspektiven sprich deskriptive Statistik/Induktive Statistik/Stochastik und liefert nur kurze Beispiele, weil alles weitere dann in den verlinkten Artikeln zu finden ist. "Varianz" würde sowohl die wichtigsten Formeln liefern als auch auf Empirische Varianz, Stichprobenvarianz (Schätzfunktion) und Varianz (Stochastik) verweisen (man müsste dann Empirische Varianz und Stichprobenvarianz (Schätzfunktion) auch nicht mehr zusammenfassen). Dann hätte man allerdings vier Artikel zur Varianz, wobei ich nicht weiß, ob das gewünscht ist. Dieser Artikel wäre dann wie er jetzt schon eigentlich ist eine Art Begriffsklärungsseite mit kurzen Definitionen.--Jonski (Diskussion) 20:03, 15. Mär. 2022 (CET)Beantworten

Ich habe mir mal erlaubt, die Einleitung zu bearbeiten und die Links zu den anderen Artikeln eingefügt, da es mich wirklich stört, dass diese sonst zeitweilig nicht auffindbar sind. Das ist nur vorübergehend, solange bis die geplanten Verbesserungen und/oder Zusammenlegungen vollzogen sind.--Physikinger (Diskussion) 22:25, 16. Mär. 2022 (CET)Beantworten

Gut! --Mbasti01 (Diskussion) 10:46, 17. Mär. 2022 (CET)Beantworten

Zwischenergebnis[Quelltext bearbeiten]

Formelzeichen
Mittelwert der Grundgesamtheit
Varianz der Grundgesamtheit
Anzahl der gegebenen Werte
Zufallsvariablen (Zufallsgrößen)
Stichprobe: beobachtete Werte der Zufallsvariablen
Stichprobenmittel / empirischer Mittelwert von
Stichprobenvarianz / empirische Varianz von
Stichprobenmittel (als Funktion der Zufallsvariablen)
Stichprobenvarianz (als Funktion der Zufallsvariablen)

Der erste Fokus, den wir uns vorgenommen haben ist ja die Seite "Empirische Varianz". Danach die anderen Seiten: "Varianz", "Stichprobenvarianz (Schätzfunktion), "Varianz (Stochastik)".

Ich habe aus obiger Diskussion verstanden, dass die "empirische Varianz (basierend auf konkreten Werten)" und die "theoretische Varianz (basierend auf Zufallsgrößen)" auseinandergehalten werden muss. D.h. die verwendeten Begriffe/Formelzeichen müssen an einigen Stellen sauberer werden.

Das war der Anlass um nochmals die Literatur sichten, und dann den Vorschlag zur InfoBox von Jonski weiter zu führen. Das Ergebnis ist in: Benutzer:Mbasti01/Konzept 02

  • Falls es weitere relevante Literatur gibt, die unbedingt für die Diskussion der InfoBox berücksichtigt werden sollte, bitte ich direkt im obigen Link die entsprechenden Zitate einzufügen.

Die InfoBox ist sicher auch noch nicht vollständig, aber wenn wir uns auf diese wenigen Begriffe schon mal einigen können wäre das schön. Die letzten beiden Zeilen sind für die Seite "Empirische Varianz" vermutlich nicht erforderlich. Daher stehen sie am Ende.

Gegebenenfalls bitte einfach die InfoBox rechts editieren um sie zu verbessern.

Ich würde demnächst die InfoBox auf der Seite "Empirische Varianz" und auch "Varianz" anwenden. Und ausserdem ein paar Verbesserungen am Artikel "Varianz" erledigen, die in der Diskussion angesprochen wurden. Wir können aber nach dieser ausführlichen Diskussion auch parallel arbeiten. ... D.h. wenn ein anderer Autor Änderungsbedarf hat (auch in Stil-Fragen) bitte gerne einfach mit machen.

Genauso - falls dieses Zwischenergebnis ergänzt werden sollte - bitte um entsprechende Anmerkung.

--Mbasti01 (Diskussion) 11:34, 17. Mär. 2022 (CET)Beantworten

In der Infobox ist mE alles soweit gut und auch in deiner Unterseite ist mE soweit alles richtig dargestellt. Ich finde die Idee eines Varianz-Überblicksartikels wie im Fall deiner Unterseite die du angelegt hast bzw. dem jetzigen Artikel "Varianz" eigentlich gar nicht so schlecht. Ich würde daher vorschlagen eher den jetzigen Artikel Varianz zu verbessern und zum Überblicksartikel umzugestalten wie du beispielsweise schon auf deiner Unterseite angefangen hast. Der Leser würde dann die einfachste Formel beim eingeben von "Varianz" in die Suchleiste direkt auffinden und für tiefere Informationen über die unterschiedlichen Sichtweisen dann einfach den verlinkten Artikel folgen.--Jonski (Diskussion) 16:41, 18. Mär. 2022 (CET)Beantworten
Meine kritische Anmerkung oben zum Stil bezog sich z.B. auf auf diese Stelle: "Was bedeutet "näherungsweise" in diesem Fall? Wie genau ist diese Schätzung? Das hängt von der Streuung der Datenwerte und von der Anzahl der Datenwerte ab.". Das kann man auch z.B. kompakt in einem Satz ausdrücken: "Die Genauigkeit dieser Schätzung hängt dabei von der Anzahl der Datenwerte ab.". Also besser weniger im Stil eines Tutorials, sondern mehr als kompakte Formelsammlung. Da gibt es noch ein paar solche Stellen, wo man Text einsparen könnte, um die Informationsdichte im Artikel zu erhöhen.
Ich stimme Jonski zu, dass nicht unbedingt dieser Artikel in die anderen eingearbeitet werden sollte, wie ich ursprünglich vorgeschlagen habe. Solange die leichte Auffindbarkeit der anderen Artikel zu jeder Zeit sichergestellt ist, spielt es letztlich keine Rolle.--Physikinger (Diskussion) 22:51, 18. Mär. 2022 (CET)Beantworten
Vielen Dank für das Feedback. Dann machen wir das so. Wir fangen mit diesem Artikel "Varianz" an.
Wenn etwas nicht gefällt was ich ändere ... gerne direkt verbessern ... oder wir diskutieren hier. --Mbasti01 (Diskussion) 20:29, 19. Mär. 2022 (CET)Beantworten
Auf jeden Fall ist das jetzt schon eine sehr nützliche Übersicht mit deutlichem Mehrwert, die viele Leser zu schätzen werden wissen.--Physikinger (Diskussion) 22:51, 19. Mär. 2022 (CET)Beantworten
Die anschließenden Änderungen von Jonski empfinde ich als Schritt vorwärts (Genauigkeit der Formulierungen, Berücksichtigung der induktiven Statistik) aber auch als Schritt rückwärts (Lesbarkeit durch Personen, die noch keine Insider sind). Für mich ok und besser als früher.
Schade, dass die "Varianz der Stichprobenvarianz" wieder verschwunden ist. Die Formulierungen waren sicher noch nicht ideal, aber das Thema finde ich wichtig. Die Frage ob die Anzahl Stichprobenwerte ausreichend ist um die Varianz mit einer angemessenen Genauigkeit zu schätzen kommt immer wieder. Erfahrung: Man braucht mehr Werte als man intuitiv erwartet. --Mbasti01 (Diskussion) 09:30, 20. Mär. 2022 (CET)Beantworten
Wir können diesen Punkt ja wieder einfügen. Ich dachte nur dass das zu speziell für einen Überblicksartikel ist aber wenn du den Punkt wichtig findest dann wieder rein damit:) Ansonsten können wir ja überlegen was man noch einfacher formulieren kann...war ja erstmal nur ein Vorschlag.--Jonski (Diskussion) 13:49, 20. Mär. 2022 (CET)Beantworten
Ok, "Varianz der Stichprobenvarianz" ... vielleicht in die Unterseiten. In den nächsten Tagen. Mal sehen. Du kannst dann aber gerne wieder verbessern.
Auf alle Fälle - nicht falsch verstehen - der Stand der Dinge ist schon ok. Mit der Zeit kommen aber sicher noch ein paar Ideen und Inhalte.
Ich habe gesehen: Auf den Seiten "Empirische Varianz" und "Stichprobenvarianz (Schätzfunktion)" warst Du auch schon unterwegs! ... Gut ... es kommt auf den Weg. Ich muss es mir aber nochmal in Ruhe ansehen. --Mbasti01 (Diskussion) 16:54, 20. Mär. 2022 (CET)Beantworten
Warum benötigt man die Formeln (6) (7) (8) basierend auf Zufallsvariablen im Übersichtsartikel? Die Überschrift dazu beinhaltet das Wort "Zufallsstichprobe".
Könnte nicht (1) (2) (3) ebenfalls auf einer Zufallstichprobe beruhen?
Jedenfalls: Im Abschnitt "Empirische Varianz" würde ich konkrete reelle Werte erwarten und keine abstrakteren Zufallsvariablen .
Oder verstehe ich das nicht? --Mbasti01 (Diskussion) 17:08, 20. Mär. 2022 (CET)Beantworten
Der Abschnitt "Stichprobe ist eine Zufallsstichprobe" ist ja nur ein Spezialfall der allgemeinen Definition einer empirischen Varianz wenn durch ersetzt also wie du sagst, der Spezialfall dass (1)–(3) auf einer Zufallstichprobe beruht. Die unterschiedlichen Sichtweisen mit und ohne Zufallvariablen finden sich im Abschnitt "Stichprobenvarianz" (es gibt keinen Abschnitt "empirische Varianz"). Ich fand die Überschrift "Stichprobe ist keine Zufallsstichprobe" nur etwas sperrig, deshalb habe ich sie weggelassen aber vielleicht hilft sie ja.--Jonski (Diskussion) 18:11, 20. Mär. 2022 (CET)Beantworten
Sorry, ich verstehe es immer noch nicht. Den x in Formel (1) bis (3) ist es doch egal wie die Probe genommen wurde. Empirische Probennahme mit irgendeiner Systematik. Aber auch "Zufall" wäre doch eine gute Strategie.
Und: Welchen Mehrwert bieten die Formeln (6) bis (8) für den Leser im Überblicksartikel? --Mbasti01 (Diskussion) 18:43, 20. Mär. 2022 (CET)Beantworten
Hmm...vielleicht hast du recht und man sollte besser allgemeiner von "konkrete Stichprobe" und "mathematische Stichprobe" sprechen. Auf die Formeln (6) bis (8) wird sich im Artikel öfter bezogen; auch im Hinblick auf die Anzahl der Freiheitsgrade. Ich finde sie daher für das Verständnis sinnvoll.--Jonski (Diskussion) 18:56, 20. Mär. 2022 (CET)Beantworten
Jetzt gefällt es mir besser. Ich habe noch 1 Satz hinzugefügt. Der Begriff "Zufallsvariable" ist immer eine Hürde - daher habe ich eine kurze Erklärung in den Text eingefügt. --Mbasti01 (Diskussion) 10:48, 21. Mär. 2022 (CET)Beantworten
[Edit: Tut mit leid, mein Kommentar hier war etwas unfreundlich. Ich habe es wieder entfernt. Wir haben hier einfach sehr verschiedene Vorstellungen. Ich werde hier nicht weiter kommentieren].--Physikinger (Diskussion) 23:12, 23. Mär. 2022 (CET)Beantworten
Inhaltlich sind die Seiten "Varianz", "Empirische Varianz", "Stichprobenvarianz (Schätzfunktion)" einen großen Schritt weiter. Sprachlich ist noch Optimierungsbedarf. Aber da sollten wir uns mit der Zeit ebenfalls annähern können.
Ich habe mal auf der Konzept-Seite Konzept02 das erste Kapitel für bekannte Varianten der Einleitung reserviert. Wenn Ihr wollt können wir da eine neue bessere Version vorbereiten. Wer möchte beginnen?
Die Einleitung sollte sprachlich am einfachsten sein. Im Artikel kann man sich dann im Begriffs-Niveau steigern. Ich persönlich finde die Version 1.0 als Ausgangspunkt tauglich. Aber wenn es Ideen für eine Version 3.0 gibt ... von mir aus gerne.
Oder wir ändern direkt im Artikel und nicht auf der Konzept-Seite. Geht auch. --Mbasti01 (Diskussion) 22:41, 21. Mär. 2022 (CET)Beantworten
Danke für deine sachlichen und sinnvollen Beiträge lieber Mbasti01. Dass die Einleitung zu kompliziert formuliert ist habe ich auch gemerkt. Ich finde deine Version eigentlich gut, nur würde ich den Bezug auf "numerische Werte" weglassen ja die Varianz hier ja allgemein definiert wird und es in Kapitel 2 und 3 ja gar nicht um numerische Werte geht. Beispiele gehören eigentlich nicht in die Einleitung aber das was du geschrieben hast kann man gut im Artikel unterbringen.--Jonski (Diskussion) 23:48, 21. Mär. 2022 (CET)Beantworten
Gerne --Mbasti01 (Diskussion) 21:58, 22. Mär. 2022 (CET)Beantworten
Neuer Versuch - Version 3.0 - und gleich im Artikel ausprobiert. Bitte bei Bedarf weiter ändern. --Mbasti01 (Diskussion) 22:45, 22. Mär. 2022 (CET)Beantworten
@Physikinger ... ich fände es schade, wenn Du Dich aus dem Thema zurückziehst. Grüße --Mbasti01 (Diskussion) 19:58, 24. Mär. 2022 (CET)Beantworten
Es ist halt schwierig, wenn sich die Köche nicht einig sind: Soll es ein Büffet werden, wo alle Gäste mit unteschiedlichen Bedürfnissen etwas passendes finden? Oder sollen alle Gäste das gleiche vollständige Mehrgängemenü vorgesetzt bekommen und wem etwas nicht passt, der muss es wieder ausspuken und an den Tellerand schieben was er nicht mag. Ich sehe die Wikipedia als übersichtliches Büffet, wo man von vornherein selektiv Wissen finden können sollte, ohne sich durch unnötiges spezielles Wissen lesen zu müssen. Begriffe wie deskriptive oder induktive Statistik sind z.B. Worte, die die meisten Leser wieder unverdaut ausspuken, während andere wiederum Leckerbissen wie z.B. die Varianz der Varianz oder den Beweis der Erwartungstreue vergeblich suchen.
Übrigens kann ich die beiden ausklappbaren Kästen nicht ausklappen mit meiner Wikipedia-Oberflächeneinstellung "MinervaNeue".--Physikinger (Diskussion) 13:18, 30. Mär. 2022 (CEST)Beantworten
... oder sollten die Köche voneinander lernen? Ist halt anstrengend!
Mir hat die aktuelle kontroverse Diskussion und Dein Input jedenfalls geholfen. (Die vorausgegangene Redundanzdiskussion ging nicht so stark in die Tiefe.)
Meine Idee ist es jetzt zunächst den erreichten Stand zu konsoldieren (Lesbarkeit, Übersichtlichkeit, Konsistenz, Redundanz ... bei den Seiten Varianz, Empirische Varianz, Stichprobenvarianz (Schätzfunktion). Vermutlich werden ein paar Inhalte auch von der Seite Varianz (die ja nur einen Überblick bieten soll) in die beiden anderen Seiten wandern. Aber Schritt für Schritt ... So dass Du (und andere) einschreiten kannst, mit editieren kannst, ... . D.h. bitte sag Bescheid wenn so ein Schritt in die falsche Richtung geht.
Und sobald die Richtung steht kommen die anderen "Leckerbissen" wieder. Und noch ein paar mehr hoffe ich.
Das "Kasten ausklappen" ist nicht ideal gelöst. Wenn Du auf einer anderen Wikipedia Seite ein Beispiel siehst, wie man es machen könnte dann poste bitte den Link. --Mbasti01 (Diskussion) 20:29, 30. Mär. 2022 (CEST)Beantworten
Die Unterhaltung von Gestern habe ich zum Anlass genommen mich sofort dem Thema "Übersichtlichkeit" anzunehmen: Umstellung der Inhalte, Zwischenüberschriften, InfoBox ... möglichst ohne den Inhalt zu verändern. --Mbasti01 (Diskussion) 09:45, 31. Mär. 2022 (CEST)Beantworten
Ok, ich danke dir trotzdem, dass du dieses Thema hier so ausführlich bearbeitest und ich bin selbst auch etwas beschämt, dass ich hier nur kritisiere und mangels Zeit nicht wirklich mitarbeite. Ich bin sicher, dass du den Artikel in eine gute Richtung bringst und das Thema am Ende deutlich besser dargestellt sein wird.
Was diese Kästen angeht, habe ich leider keine Erfahrung und wäre da auch vorsichtiger mit zu viel HTML-Zauber. Die von der Wikipedia-Foundation versprochene Überarbeitung der Optik in der deutschsprachigen Wikipedia ist schon längst überfällig und ich kann das altmodische Erscheinungsbild echt nicht mehr sehen und habe es daher für mich umgestellt. Ob das das neue Layout wird, weiß ich nicht. Es hat noch ein paar andere Probleme.--Physikinger (Diskussion) 15:53, 4. Apr. 2022 (CEST)Beantworten

Änderungen in "Empirische Varianz"[Quelltext bearbeiten]

Wegen der umfangreichen Änderungen in der Seite "Varianz" muss auch die Seite "Empirische Varianz" angepasst werden. Ziele: Reduzierung von Redundanz, sowie Vermeidung von Widersprüchen mit der Seite "Varianz".

1) Zunächst sollte die Definition angepasst werden: Ich habe mal auf der Konzept-Seite Konzept02 das erste Kapitel verwendet um eine Neufassung der Definition zu versuchen. Änderungen, Ergänzungen, weitere Versionen dazu sind willkommen.

2) Dann: das Unterkapitel "Beziehung der Varianzbegriffe" in "Empirische Varianz" wird so wie ich es sehe nicht mehr benötigt.

Ich plane beides relativ bald zu erledigen. --Mbasti01 (Diskussion) 08:54, 25. Mär. 2022 (CET)Beantworten

Ist erledigt.
Der nächste Schritt ist es dann, die Inhalte von der Seite "Varianz" auch in der Seite "Empirische Varianz" anzuwenden. Das wird vorübergehend zu einer gewissen Erhöhung der Redundanz zwischen diesen beiden Seiten führen.
Und die selbe Maßnahme ist auch für die Seite "Stichprobenvarianz (Schätzfunktion)" erforderlich.
Die Änderungen plane ich langsam, Schritt für Schritt in den nächsten Wochen durchzuführen--Mbasti01 (Diskussion) 12:16, 28. Mär. 2022 (CEST)Beantworten
@JonskiC: Bist Du einverstanden, das Beispiel für Formeln 1-3 von der Seite "Varianz" in die Seite "Empirische Varianz" zu verschieben? Und dort würde ich dafür ein Unterkapitel vorsehen. (Und ich hoffe, Du bist auch mit den anderen Änderungen der letzten Woche soweit zufrieden). Grüße --Mbasti01 (Diskussion) 08:30, 21. Apr. 2022 (CEST)Beantworten

Änderungen in "Stichprobenvarianz (Schätzfunktion)"[Quelltext bearbeiten]

Die InfoBox der wichtigsten Formelzeichen ist dort jetzt die selbe wie in den Seiten "Varianz" und "Empirische Varianz". Die Notation im Text passe ich in den nächsten Tagen an. D.h. folgende Formelzeichen werden auf dieser Seite ersetzt, falls kein Widerspruch erfolgt:

--Mbasti01 (Diskussion) 19:58, 30. Mär. 2022 (CEST)Beantworten
Erledigt. --Mbasti01 (Diskussion) 14:29, 2. Apr. 2022 (CEST)Beantworten

Gliederung[Quelltext bearbeiten]

@Mbasti01: Inhaltlich bin ich mit allem einverstanden was du eingefügt hast. Bei der neuen Gliederung finde ich allerdings dass sie wieder ein bisschen unübersichtlicher geworden ist. Findest du die neuen Zwischenüberschriften „Stichprobe ist eine konkrete Stichprobe, Mittelwert der Grundgesamtheit ist unbekannt“ und „Stichprobe ist eine konkrete Stichprobe, Mittelwert der Grundgesamtheit ist bekannt“, „Stichprobenvarianz (Schätzfunktion) und "Erwartungstreue“ wirklich notwendig? Jemand der sich gerade frisch mit dem Thema Varianz beschäftigt weiß wohlmöglich gar nicht was ein „Mittelwert der Grundgesamtheit“ eine Schätzfunktion oder Erwartungstreue ist. Er wird dies über die Verlinkungen erfahren, daher finde ich verwirren diese Begriffe in den Zwischenüberschriften möglicherweise Neulinge. Auch die Zwischenüberschriften „korrigierte Stichprobenvarianz“, „unkorrigierte Stichprobenvarianz“ und „Verwendung des Begriffs "Empirische Varianz“ finde ich eigentlich unnötig, da der Absatz jeweils sehr kurz ist und vorher mE übersichtlicher war. Zudem ist jetzt durch die Zwischenüberschriften das Beispiel getrennt von den beiden ersten Formeln wo es eigentlich hingehört.--Jonski (Diskussion) 00:55, 1. Apr. 2022 (CEST)Beantworten

@JonskiC: Ich persönlich bin ein Freund von Zwischenüberschriften und Absätzen. Allerdings sollten die Zwischenüberschriften aussagefähig sein. Vielleicht bin ich etwas über das Ziel hinaus geschossen ... Aber ohne Zwischenüberschriften muss man die wesentlichen Punkte eben im Text suchen. Ein Leser, der etwas Bestimmtes sucht, der sucht dann länger.
Die Idee mit dem Beispiel war, dass auch Formel 3 im Beispiel vorkommen könnte. Dann steht das Beispiel jetzt an der richtigen Stelle.
Ich werde im Hinblick auf Deine Anregungen jetzt gleich noch ein paar Anpassungen in der Gliederung und im Rechen-Beispiel machen und hoffe, dass sie dann mehr in Deine Richtung geht. Wir werden schon einen guten Kompromiss finden.
Dann mach ich ca. 8 Tage Pause für kleinen Urlaub. Bis demnächst ...
Grüße --Mbasti01 (Diskussion) 21:31, 1. Apr. 2022 (CEST)Beantworten
@Mbasti01: Ich bin grundsätzlich auch ein Freund von Absätzen aber mE haben sie etwas überhand genommen und die Absätze wurden manchmal auch an Stellen gesetzt wo Dinge thematisch zueinander gehört haben. In diesem Fall finde ich es dann eher schwierig den Überblick zu behalten. Ja, einen Kompromiss sollten wir eigentlich finden:) Ich finde eigentlich dass zu viele Zwischenüberschriften eher kontraproduktiv sind und nur unnötig verwirren aber auch in diesem Punkt sollten wir einen Kompromiss finden. Ich hatte auch noch ein paar Anmerkungen zu deinen Änderungen im Artikel Stichprobenvarianz (Schätzfunktion) aber wenn du demnächst im Urlaub bist kann das ja erstmal warten. In der Zeit kann ich mich ja um die oben angesprochenen fehlenden Leckerbissen kümmern...Ich wünsche dir auf jeden Fall einen erholsamen Urlaub und viele Grüße.--Jonski (Diskussion) 00:56, 4. Apr. 2022 (CEST)Beantworten
Ich sehe Überschriften grundsätzlich als wichtige "Sprungmarken" bzw. "Einstiegstellen" für den Leser. Demnach sollte die Überschrift verraten, welche Information dort zu finden ist. Die Überschriften "Stichprobe ist eine konkrete Stichprobe", "Stichprobe ist eine Vollerhebung" und "Stichprobe ist eine mathematische Stichprobe" lassen kaum erahnen, was der jeweilige Abschnitt genau beschreibt. Man ist hier praktisch gezwungen den Abschnitt vollständig zu lesen und muss für sich selbst zusammenfassen, was dort überhaupt drin steht, um dann eventuell festzustellen, dass man das diese Information gar nicht gesucht hat. Idealerweise sollte die Gliederung anhand des Inhaltsverzeichnises jedem sofot klar werden, noch bevor man sich in das Thema eingelesen hat. Neue Spezialbegriffe wie Vollerhebung würde ich dabei in Überschriften besonders vermeiden.--Physikinger (Diskussion) 16:15, 4. Apr. 2022 (CEST)Beantworten
Ja, einverstanden. Ich habe Vorschlag bezüglich der Überschriften eingearbeitet. --Mbasti01 (Diskussion) 21:47, 13. Apr. 2022 (CEST)Beantworten

Weshalb Varianz und Varianz (Stochastik)?[Quelltext bearbeiten]

Ich finde die gewählten Namen nicht richtig. Die Varianz im Artikel Varianz (Stochastik) beinhaltet auch die empirische Varianz, da die empirische Varianz auch die Varianz einer Verteilung ist (die Varianz der empirischen Verteilung, diese ist aber nicht mehr deterministisch sondern zufällig). Deshalb ist diese Unterscheidung nicht richtig. --Tensorproduct (Diskussion) 15:01, 1. Mai 2022 (CEST)Beantworten

Hier stimmt so einiges nicht. Mathematisch sehr unsauber. Die Unterscheidung zwischen "Stichprobenvarianz" als Schätzer und als Schätzung in zwei Artikeln ist auch komisch. Im übrigen sind auch Zufallsvariablen nur "Werte".
Edit: Auch empfehle ich richtige Statistik-Bücher (d. h. solche die sich nur mit Statistik/Stochastik beschäftigen) als Quellen zu verwenden und keine allgemeinen Mathematik-Bücher, die auch noch ein Kapitel über deskriptive Statistik haben. --Tensorproduct (Diskussion) 21:26, 1. Mai 2022 (CEST)Beantworten
Hallo @Mbasti01:, weshalb hast du meine Änderungen rückgängig gemacht? Vieles im Artikel ist einfach komplett falsch, was du geschrieben hast. Ich bin studierter Mathematiker. Und ein Artikel über Statistik sollte mathematisch korrekt sein, so dass die Leute, die ihn lesen (Mathematiker, Statistiker, Biostatistiker, Data-Scientists, ...) keine falschen Dinge lesen. Aus dem Artikel geht heraus, dass nicht mal die Grundlagen wie Zufallsvariablen und Verteilungen korrekt verstanden worden sind. --Tensorproduct (Diskussion) 13:14, 2. Mai 2022 (CEST)Beantworten
Hallo @Tensorproduct, es würde mich wundern wenn vieles falsch ist. Ich bin Diplom.-Ingenieur. Einige der Passagen die Du geändert hast wurden erst vor kurzem mit @JonskiC, @Physikinger, @Tiha, @Vollbracht ausdiskutiert bzw. von den Kollegen eingebracht. Siehe oben. Und ich habe die entsprechenden Literaturstellen, die z.Tl. von anderen Autoren verwendet wurden, ebenfalls vorliegen. Natürlich kann es sein, dass sich trotzdem Fehler eingeschlichen haben und da bin ich bei Mitwirkung dankbar. Aber was ich gesehen habe war ein neuer Artikelaufbau. Es ist ja noch alles in der Versionshistorie verfügbar. D.h. wir können das Stück für Stück auch ansehen.
Dann, ich hatte den Eindruck: Du schreibst für eine andere Zielgruppe. "Varianz" ist so ein allgemeines Thema, dass man keinen Artikel von "Spezialist" für andere "Spezialisten" schreiben sollte. Die Zielgruppe dieser Übersichtsseite sind für mich vor allem diejenigen, die nicht Mathematik studiert haben, sondern das Thema anwenden wollen und auch etwas Einblick in die Hintergründe benötigen. D.h. gerade beim Einstieg in den Artikel sollte man die Anwender nicht sofort komplett abhängen. Weiter hinten im Artikel oder in Spezialseiten kann man natürlich abtauchen. Es gibt ja auch noch die Seiten Varianz (Stochastik) und Stichprobenvarianz (Schätzfunktion) für Personen, die den mathematischen Hintergrund im Detail haben möchten.
D.h. wenn etwas wirklich falsch ist, dann sollte das in der Überblicksseite Varianz natürlich korrigiert werden. Andererseits ist die dort zitierte Literatur durchaus nicht zu verachten und kommt mit Absicht aus verschiedenen Bereichen: Bronstein ist mathematisch, Hartung ist statistisch, anderes ist eher datenanalytisch von der Herangehensweise. D.h. ich vermute: Du meintest an manchen Stellen nicht "falsch" sondern "nicht präzise genug für einen Mathematiker". "Falsch" wäre für mich z.B., wenn die Quellen nicht richtig zitiert werden. Oder wenn wichtige Gesichtspunkte fehlen, so dass der Sinn verfälscht ist.
Aber natürlich - es ist nicht leicht allen möglichen Sichtweisen gerecht zu werden.
Wie auch immer: Dem aktuellen Text ging eine längere Diskussion voraus ... und vieles ist nicht von mir ... und wenn etwas krumm ist, dann ist es schön, wenn Du mitmachst und das gerade biegst. Aber bitte Stück für Stück.
Zum Thema Zufallsvariablen: Das sind tatsächlich keine Werte. Sondern das ist bereits eine mathematische Abstraktion. In vielen der Literaturstellen (und auch in der entsprechenden Wikipedia Seite) steht das genau so. Daher haben Zufallsvariablen auch Großbuchstaben und Platzhalter für Werte nur Kleinbuchstaben. Zitat vom Bronstein: Zufallsgröße / Zufallsveränderliche: "Größe, die unter Zufallsbedingungen reelle Werte annehmen kann." D.h. die Werte sind nur konkrete "Realisierungen" von Zufallsvariablen. Das war einer der wichtigen Punkte in obiger Diskussion, dass man hier sehr genau unterscheiden muss über was man spricht.
Andererseits sind wir einer Meinung: Es ist fragwürdig, ob man auf längere Sicht wirklich 4 Seiten benötigt: Varianz , Varianz (Stochastik) und Stichprobenvarianz (Schätzfunktion) und Empirische Varianz. Die Idee aus obiger Diskussion war, dass man die Redundanz/Überlappung dieser 4 Seiten zunächst in Kauf nimmt. Die dem vorhergehende Diskussion (Redundanzdiskussion von Februar) wollte sofort aufräumen. Aber das hat sich als zu schwierig erwiesen, da das Thema doch sehr viele Facetten hat. Wenn die Inhalte stehen, dann kann man als nächstes die Redundanzen reduzieren und gegebenenfalls auch die Anzahl Seiten wieder reduzieren.
Viele Grüße --Mbasti01 (Diskussion) 18:01, 2. Mai 2022 (CEST)Beantworten
Nein, ich meine mit falsch: falsch. Schau, ich bin mir der Problematik bewusst, dass manche Konzepte schwierig für Leute sind, die keine Mathematik/Physik studiert haben. Aber der Punkt ist, als Mathematiker hat man eben auch allgemeine Fälle im Hinterkopf, für die die Aussagen eben auch gelten müssen. Und wenn dann im Artikel etwas anderes steht, dann wird hier falsches Wissen vermittelt. Ein paar Beispiele der vielen Fehler: 1) Eine Zufallsvariable kann haben, aber trotzdem verschiedene Werte annehmen. Damit man das aber versteht, muss man eben auch wissen, was eine Zufallsvariable ist. Stichwort: Maßtheorie. 2) Laut deiner Definition der Varianz sind alle stetigen Zufallsvariablen über , das ist Falsch. 3) Laut deiner Definition besitzen alle stetigen Zufallsvariablen eine Dichte. Falsch 4) Laut deiner Definition hat eine Zufallsvariable eine Varianz, wenn eine Dichte existiert. Falsch 5) Eine Zufallsvariable ist eine Funktion und besitzt genauso Werte . In der Stochastik spricht man aber von Realisierung zur Unterscheidung zwischen und . 6) Verteilung und Verteilungsfunktion sind nicht das Gleiche. 7) Es stimmt nicht, dass man in der schließenden Statistik eine andere Definition der Varianz hat, als in der Stochastik. Die Statistik ist ein Teilgebiet der Stochastik. Statistiker sind Mathematiker. (Der Begriff schließende Statistik heisst eigentlich mathematische Statistik). 8) Es stimmt nicht, dass man im allgemeinen die erwartungstreue Schätzfunktionen nehmen sollte bzw. dass das immer besser ist, das ist schlichtweg falsch. Das sind auch nicht die einzigen Schätzfunktionen, die existieren. Wenn das wirklich so in deinen Quellen steht, dann sind das keine guten Quellen. --Tensorproduct (Diskussion) 19:28, 2. Mai 2022 (CEST)Beantworten
Ok, bitte Bedenke, daß Du mit manchen Deiner Antworten auch mich abhängst. Vielleicht muss man auch fokussieren: Welche Feinheiten sind in einem Überblicksartikel relevant? Und was gehört in Spezialkapitel? Ich melde mich morgen nochmals zu Deinen Punkten. Dann können wir vielleicht an ein paar Punkten in die Tiefe gehen.
Auf die Schnelle: Gleich Punkt 1). Kannst Du den bitte etwas erläutern?
Grüße --Mbasti01 (Diskussion) 20:13, 2. Mai 2022 (CEST)Beantworten
Alle diese Dinge, die ich gesagt habe, lernt man in einem richtigen Statistik-Grundkurs (nicht nur Mathematiker, sondern auch Biostatistiker, Data-Scientists, Physiker...). Deshalb ist es völlig falsch von "Spezialkapitel" zu reden. Auch ist Wikipedia eine Enzyklopädie und nicht ein "Einführungskurs in die Statistik für Psychologen". Der Weg in die Statistik geht eben über die Stochastik und über die Maßtheorie. Wenn man nicht versteht, was eine messbare Funktion und ein Maß ist, dann versteht man weder die Grundlagen der Stochastik noch der Statistik. (Hier: Zufallsvariable#Definition) Es gibt auch nicht mehrere Begriffe der Varianz, es gibt nur eine Varianz. Die Stichprobenvarianz ist ein Spezialfall der Varianz (die Varianz der sogenannten empirischen Verteilung). Das störte mich am Artikel am meisten, weil der Leser jetzt denkt, es handelt sich um verschiedene Dinge, was überhaupt nicht der Fall ist. Punkt 1) hat mit dem Begriff der Nullmenge zutun. Ich schlage dir vor, du arbeitest ein richtiges Einführungsbuch in die Statistik durch (welches den Begriff des Maßes braucht). Z.B "Hans-Otto Georgii - Stochastik: Einführung in die Wahrscheinlichkeitstheorie und Statistik". Das ist auf Deutsch. --Tensorproduct (Diskussion) 00:12, 3. Mai 2022 (CEST)Beantworten
Wenn etwas tatsächlich falsch ist, sollte es natürlich besser formuliert werden. Wenn falsch aber eher "nicht allgemein genug" bedeutet, dann sollte die Didaktik auch nicht unter der Pedanterie leiden. Die meisten Leser werden sich eher nicht für die Maßtheorie dahinter und für exotische Zahlenkörper interessieren, sondern für den Normalfall und für die passende Formel dazu. Um den Artikel für eine breite Leserschaft zu schreiben, sollte man Hintergrundtheorien, die nur der mathematischen Begründing aber nicht dem Anwenderverständnis dienen, möglichst gesondert behandeln. Der Artikel darf nicht jedem Leser das gesamte Detailwissen eines Mathematikers aufzwängen. Das wäre nicht sinnvoll. Das unterscheidet ja gerade eine Enzyklopädie von einem Fachlehrbuch.--Physikinger (Diskussion) 00:44, 3. Mai 2022 (CEST)Beantworten
Das hat doch nichts mit exotischen Zahlenkörpern zutun, dass nicht alle Verteilungen über sind. Eine der wichtigsten Verteilungen: "die Exponentialverteilung" ist nicht über (oder auch die -, Weibull-, Rayleigh-, F-Verteilung etc.). Auch sage ich nicht, dass der Leser die ganze Maßtheorie kennen muss, aber der Text sollte so sein, dass er richtig ist. Und damit der Text richtig ist, muss man eben auch ein paar Begriffe der Maßtheorie kennen, sonst passieren eben Fehler, wie jetzt im Artikel stehen. Das hat absolut nichts mit "gesamtes Detailwissen von Mathematikern zu kennen" zutun. Diese Dinge, die ich gesagt habe, sind nicht nur für Mathematiker relevant, sondern für alle, die etwas mit echter Statistik zutun haben: Biostatistiker, Wirtschaftswissenschaftler (die sich mit Ökonometrie beschäftigen), Informatiker (die sich mit Machine Learning beschäftigen), Data-Scientists etc. So wie der Artikel jetzt ist, besitzt er nicht nur grobe Fehler, sondern er richtet sich nur an Psychologen, Soziologen etc. aber nicht an naturwissenschaftliche/technische Studiengänge, die einen richtigen Statistik-Kurs besuchen. Schau, mir ist das zu mühsam, dass zu diskutieren, besonders wenn meine Überarbeitung einfach rückgängig gemacht wird. Allerdings stört es mich, dass der Artikel vorgaukelt, es gäbe verschiedene Begriffe der Varianz. Das ist falsch. Die richtige Varianz ist im Artikel "Varianz (Stochastik)" beschrieben und das sollte im Artikel so genannt werden. --Tensorproduct (Diskussion) 10:02, 3. Mai 2022 (CEST)Beantworten
@Tensorproduct: So, jetzt mit detaillierteren Fragen zu einigen von Deinen Punkten:
A) Zu Deinem Punkt: 1) Eine Zufallsvariable kann haben, aber trotzdem verschiedene Werte annehmen.
Das verstehe ich noch nicht. (Die Links auf Maßtheorie etc. haben mir noch nicht geholfen.)
Kannst Du da bitte ein Beispiel nennen?
B) Zu Deinem Punkt: 2) Laut deiner Definition der Varianz sind alle stetigen Zufallsvariablen über , ...
Wo hast Du das im aktuellen Text gelesen?
C) Zu Deinen Punkten: 3), 4) betr Dichte:
Wo hast Du das im aktuellen Text gelesen?
Und dann noch eine Bemerkung zur Diskussion mit @Physikinger:
Du schreibst: "...vorgaukelt, dass es verschiedene Varianzbegriffe gibt" ...
In der Einleitung des Artikels steht etwas von "allgemeinerer Behandlung" in der Stochastik. Vielleicht ist das nicht ausreichend so?
Tatsächlich sind oft 2 Kapitel in den Büchern: "Deskriptive Statistik" und "Induktive Statistik". In beiden kommt die Varianz (in unterschiedlicher Weise) vor. Wäre das falsch?
Natürlich gibt es verschiedene Begriffe in verschiedenen Anwendungsbereichen. Manche Begriffe sind Verallgemeinerungen, manche Begriffe dienen zur Unterscheidung, mache Begriffe sind schlicht spezifisch für eine bestimmte Wissensdomäne. Nicht alles ist konsistent in der Sprache. Das unterscheidet Sprache (Begriffe) von der Mathematik (Definitionen).
Und dann noch eine zweite Bemerkung zur Diskussion mit @Physikinger:
Fakt ist, dass der Leser nicht unbedingt ein studierter Mathematiker ist. Ich sehe da folgende Hierarchie:
- Leser, der einfach die Varianzformel auf gegebene Zahlenwerte anwenden möchte und etwas Hintergrund benötigt. Ziel: z.B. Vergleich von Streuungen, aber mit welcher Formel?
- Leser, der darüberhinaus das Ergebnis besser interpretieren möchte. Ziel: Einfache Verteilungen.
- Leser, der plausibel verstehen möchte, wo das ganze herkommt, ohne dafür gleich tiefer in die Mathematik abzutauchen (Zufallsvariablen, Erwartungswert, ...)
- Leser, der auch ein paar einfache Herleitungen nachvollziehen möchte
- ... usw
Jedenfalls muss man bei einer so heterogenen Leserschaft die Reihenfolge im Artikel so aufbauen, dass man nicht die Hälfte der Leser gleich am Anfang abhängt. (Anders wäre das bei einem Artikel über ein mathematisches Spezialgebiet, das so speziell ist, dass die Leser ohnehin nur Mathematiker sind. Dann hat man dieses Problem nicht.) --Mbasti01 (Diskussion) 13:41, 3. Mai 2022 (CEST)Beantworten
Ich gehe nicht auf jeden Punkt ein. A) Sei und , dann ist aber ist offensichtlich nicht immer . B) Wenn du das Integral beim Erwartungswert über machst, dann musst du explizit schreiben, dass es sich um eine reelle Zufallsvariable handelt, sonst ist das nicht korrekt. Die korrekte Definition des Erwartungswert ist , weil in dieser Defintion der Erwartungswert über den Ergebnisraum definiert wird. Das hat den Vorteil, dass die Definition nun auch für nicht reelle Zufallsvariablen gilt, also zum Beispiel für Zufallsvariablen auf , , oder ) C) Bezüglich Varianz. In den Statistik-Büchern d.h. Bücher über "Induktive Statistik" (!) wirst du nicht zwei Definition der Varianz finden. Vielleicht wird das in "Statistik für Ingenieure"-Büchern so gemacht, aber nicht in richtigen Statistik-Büchern. Nochmals: die Stichprobenvarianz ist ein Spezialfall der Varianz (die Varianz der sogenannten empirischen Verteilung). Die Definition der Varianz lässt sich auch auf die Stichprobenvarianz übertragen, der einzige Unterschied ist, dass es sich nicht mehr um eine deterministische Wahrscheinlichkeitsverteilung handelt, sondern um ein zufälliges Maß. Ich habe keine Lust alles zu erklären und mich zu wiederholen, insbesondere wenn meine Korrekturen einfach rückgängig gemacht werden. Wenn ihr das mathematisch falsch haben wollt - so wie man es in der Statistik nicht macht - dann soll es halt so sein. --Tensorproduct (Diskussion) 17:04, 3. Mai 2022 (CEST)Beantworten
Vielen Dank für Deine Antworten. Einiges verstehe ich jetzt besser ... manches dauert noch. Sorry dafür, dass ich Deine Änderungen erstmal verworfen habe. Es war zu viel aufs Mal, insbesondere was den Einstieg angeht. Ich verstehe Deinen Ansatz, aber bitte verstehe auch das Ansinnen den Leserkreis (die Zielgruppe) nicht zu klein zu fassen. "Falsch" ist natürlich schlecht. "Leser abhängen" ist ebenso schlecht. Synergie ist schwierig und dauert.
Es wäre schön, wenn Du das Thema mit weiter begleiten könntest, bzw. wenn ich weiter mit Fragen kommen darf. Zu einer Synergie zu kommen ist leider zumindest zu Beginn einer Zusammenarbeit etwas kommunikationsaufwändig, insbesondere wenn man verschiedenen fachlichen Hintergrund hat.
Ein paar Deiner Änderungen würde ich gerne sofort übernehmen - wenn ich mich in der Historie bedienen darf -, aber ein paar Andere erstmal noch nicht. Schritt für Schritt. --Mbasti01 (Diskussion) 17:58, 3. Mai 2022 (CEST)Beantworten
@Tensorproduct: Ok, ich hatte vermutet, dass du bei der Null-Varianz an spezielle Distanznormen gedacht hast, etwa komplexe Zahlen und eine radiale Distanznorm bei einer kreisförmigen Verteilung. Aber deine Verteilung mit der Nullmenge aus rationalen Zahlen ist auch ziemlich exotisch. Trotzdem hast du recht, dass man das so nicht schreiben kann, dass dann alle Zahlen gleich sind. Ich stimme dir auch völlig zu, dass es keine verschiedenen Begriffe der Varianz gibt.--Physikinger (Diskussion) 22:32, 3. Mai 2022 (CEST)Beantworten
@Tensorproduct: Etwas schlecht an deiner Änderung fand ich die Abschnitts-Einleitung mit dem Satz: "Sei ein Wahrscheinlichkeitsraum ...". Das wieder so eine sehr spezielle Mathematik-Lehrbuchsprache, die hier nicht notwendig ist und nur viele abschreckt. Die Notation ist hier auch völlig unmotiviert, P und Omega werden nicht definiert und Sigma kommt überhaupt nicht mehr vor. Man müsste hier erst dem Link folgen, nur um die Grundlegende Definition des Artikels lesen zu können. Der Artikel zu so einem relativ elementaren Begriff sollte möglichst eigenständig lesbar sein. Es sollte für jede Einführung eines neuen Begriffs oder einer neuen Notation einen konkreten didaktischen Zweck geben und die Erklärung dazu sollte nicht länger sein als eine Umschreibung.
Zu deinem neuen Abschnitt zur Multivariaten Varianz fehlt mir auch etwas eine Erläuterung oder Motivation dieser Größe. Wenn ich das richtig sehe ist das ja auch nur eine skalare Varianz, also im Grunde könnte man sagen, dass man die verschiedenen Dimensionen einfach aufdröselt und als einzelne Messwerte quadratisch aufsummiert. Wenn dagegen der erste anstatt dem zweiten Vektor transponiert wäre, dann bekäme man ja eine Kovarianzmatrix.--Physikinger (Diskussion) 00:24, 4. Mai 2022 (CEST)Beantworten
@Physikinger 1) Das Beispiel mit ist vielleicht exotisch, aber andere Nullmengen trifft man durchaus an. Es geht mir darum: Der Artikel ist wie eine Anleitung für eine ganz spezifische Zielgruppe geschrieben. Trotzdem suggeriert er aber das Bild, dass das der allgemeine Fall ist, wie man Dinge berechnet und handhabt. Ich verstehe nicht, warum der Artikel überhaupt voller solcher allgemeinen Aussagen wie "wenn die Varianz 0 ist, dann bedeutet das..." oder "....daher wird immer verwendet, wenn geschätzt werden muss" ist. Es gibt durchaus Gründe warum man nützen sollte, es ist nämlich der ML-Estimator der Normalverteilung. Ob ich die Bessel-Korrektur nütze oder nicht, hängt auch von der Sample-Grösse ab. Deshalb haben solche allgemeinen Aussagen nichts im Artikel verloren, weil sie eben nicht richtig sind. Man sollte vorsichtig sein, wenn man so was formuliert. Das Argument, dass es für die meisten Leser irrelevant ist, halte ich für ungültig, dann könnte man auf Wikipedia ja auch definieren, für die meisten Leser werden die Kommastellen irrelevant sein, ändert aber nichts daran, dass es falsch ist. Und hier wird es ja wohl auch Statistiker geben, die mitlesen 2) Ich halte die Notation des Wahrscheinlichkeitsraumes jetzt nicht für "so abschreckend", aber wenn du darauf verzichten willst, dann sollte wenigstens stehen, dass es sich bei der jetzigen Formel des Erwartungswertes, um eine reelle Zufallsvariable mit Dichte handelt. Man könnte ja auch beide Fälle behandeln? 3) Ich habe bei der multivariaten Varianz eigentlich auch die Kovarianzmatrix gemeint. Das kommt halt drauf an, was du als Zeilenvektor definierst, allerdings war meine Variante die geläufige Version des sample covariance estimators. --Tensorproduct (Diskussion) 10:06, 4. Mai 2022 (CEST)Beantworten
Ja, in einigen Aussagen muss man vorsichtiger werden. Das stimmt. Das habe ich aus der Diskussion gelernt. Die Mathematikbücher für Ingenieure gehen alle nur von reellen Daten aus (Messwerte, Beobachtungen etc.). Aber für einen Anwender (ob Ingenieur/Techniker/Wirtschaftler/Mediziner ...) geht es eben immer um die praktische Sicht auf die Dinge. Entsprechende Hinweise auf mathematische Verallgemeinerungen sollten also dazugehören und ergänzt werden um das Bild abzurunden und auch die mathematische Sicht zu würdigen.
Jetzt habe ich wieder 2 Fragen:
1) Praktisch stellt sich mir die Frage: Gibt es ein Beispiel warum man den ML-Estimator (Divison durch n) in der Praxis nützen sollte, wenn man mit Stichproben umgeht? Für mich spielt die Größe von n erstmal keine Rolle. Erwartungstreue bekommt man nur mit Bessel-Korrektur. (Und es steht auch beim ML-Estimator dabei, dass das eine verzerrte Schätzung ist). Vielleicht hast Du auch ein praktisches Beispiel, das nicht auf Stichproben basiert und daher anders zu behandeln wäre.
2) Du hast in deiner Fassung den Satz: "Nicht jede Wahrscheinlichkeitsverteilung besitzt eine Varianz." Ich kann mir das einerseits durchaus vorstellen, andererseits fehlt mir auch hier ein Beispiel. Kannst Du eines geben?
Grüße, --Mbasti01 (Diskussion) 18:23, 4. Mai 2022 (CEST)Beantworten
Zu deiner Frage 2) Es gibt divergente Wahrscheinlichkeitsverteilungen, z.B. ist die Fläche unter 1/|x| unendlich, weil die Stammfunktion ln(x) ist, daher ist auch die Varianz unendlich.--Physikinger (Diskussion) 23:25, 4. Mai 2022 (CEST)Beantworten
@Tensorproduct: Damit du mich richtig verstehst: Ich verteidige nicht den Artikel, wie er aktuell ist. Ich will nur dem entgegenwirken, dass der Artikel für einen sehr schmalbandigen Leserkreis optimiert wird. Es gibt Artikel, die fast nur von Mathematikern gelesen werden, wie z.B. "Maßtheorie" oder manche nur von Ingenieuren, wie "Kalman-Filter", aber "Varianz" wird von Schülern, BWLern, Ingenieuren, Physikern bis Mathematikern gelesen. Daher muss man diesen Artikel etwas anders schreiben, als andere mathematische Themen. Jedes Jahr lernen hundertausende deutschsprachige Schüler, was die Varianz ist, ohne dass dabei die Maßtheorie gelehrt wird, und die müssen ja auch eine Chance bekommen, hier eine Erklärung zu finden. Die Definition von Varianz, die Lehrer an Gymnasien unterrichten, ist ja auch nicht falsch. Der Kontext ist hier nur etwas anders.
In deinem Beispiel wäre es natürlich falsch, Pi als 3 zu definieren. Wenn man dagegen schreibt "Pi := 3.14159...", dann sieht man durch die Punkte, dass es hier noch weiter geht, aber muss sich trotzdem nicht mit unendlichen Summen und Folgen beschäftigen, nur um die ersten drei Stellen zu erfahren. Kompromisse sind immer möglich, aber erfordern mehr Nachdenken. Man muss die komplizierten Details ja nicht weglassen, aber muss auch anfängerfreundliche Definitionen isoliert bestehen lassen. Momentan bin ich nicht sehr glücklich über die inzwischen 4 verschiedenen Artikel zum Thema Varianz, wo kein Mensch das ganze Durcheinander versteht. Du wolltest es wiederum mehr Richtung Uni-Niveau bringen, was das Chaos aber auch nicht unbedingt löst.
Zu 3) Ja, hier hatte ich in der Tat die falsche Konvention der Spaltenvektoren im Kopf. Aber dass es die Kovarianzmatrix ist, müsste man dann aber schon erwähnen.--Physikinger (Diskussion) 23:25, 4. Mai 2022 (CEST)Beantworten
@Mbasti01 2) Die Varianz kann tatsächlich annehmen. Es gibt aber Wahrscheinlichkeitsverteilungen, die weder Varianz noch Erwartungswert besitzen, wie zum Beispiel die Cauchy-Verteilung. Diese Verteilung ist auch kein pathologisches Beispiel, man braucht sie in der Physik, in der Finanzmathematik und in der Bayesschen Statistik. 1) Es ist nicht so, dass du einfach einen Schätzer verbessern kannst, ohne dabei etwas anderes "opfern" zu müssen. Der ML-Estimator hat natürlich andere Eigenschaften als andere Schätzer (deshalb der Name). Für die Normalverteilung hat der ML-Estimator zwar einen höheren Bias, aber dafür eine kleinere mittlere quadratische Abweichung als der korrigierte Schätzer. Ich gehe nicht auf Details ein, aber das Ganze hat mit der Kurtosis zutun. Der Punkt ist, es gibt nicht nur diese beiden Schätzer für die Varianz! Deshalb ist diese Aussage falsch, dass man immer die korrigiert Variante benützen soll und sollte nicht im Artikel stehen. So ich habe keine Lust mehr weiterzudiskutieren. Ich hoffe, ihr ändert die allgemeinen Aussagen und ansonsten ist es mir eigentlich auch egal. @Physikinger Ich verstehe die Problematik schon, aber es sollte halt trotzdem für alle korrekt sein, so dass Studenten nicht etwas falsches lernen. Deshalb sollten die allgemeingültigen Aussagen verschwinden (wie "man nützt immmer diesen Schätzer" oder "das ist die Formel die man verwendet") Man kann ja ruhig schreiben, das diese Formel des Erwartungswertes für eine reelle ZV mit Dichte gilt und sagen, für den allgemeinen Fall sollte man im Artikel Varianz (Stochastik) nachschauen. --Tensorproduct (Diskussion) 09:45, 5. Mai 2022 (CEST)Beantworten
Super, der Hinweis auf die "kleinere quadratische Abweichung" wegen der "Kurtoisis" war sehr gut. Über diesen Aspekt habe ich noch nicht nachgedacht und er steht auch nicht explizit in meinen Büchern. Da wird nur auf den Bias (Verzerrung) verwiesen - den ich immer in praktischen Themen wichtig fand. Z.B. dass sich der Bias der unkorrigierten Varianz ändert, wenn man n ändert, das ist lästig. Ich sehe mir den neuen Aspekt an - aber ehrlich gesagt zweifle ich noch, bis ich wirklich ein nachvollziehbares praktisches Beispiel gefunden habe.
Sorry dass wir Dich mit den Fragen offenbar nerven, aber Du hast einen anderen Background. Jeder hat einen anderen Background - und das ist auch das spannende.
Ich würde vorschlagen mit den gesammelten Infos + Deinem Textvorschlag Schritt für Schritt langsam weiterzumachen.
Und wenn Du wieder einschreitest und/oder mitmachst freu ich mich. --Mbasti01 (Diskussion) 12:29, 5. Mai 2022 (CEST)Beantworten
Betr. ML-Estimator: Ja, das war ein guter Hinweis von Dir. Ich habe noch 2 entsprechende Seiten im Internet gefunden:
Estimating population variance
Maximum Likelihood Estimation -- why it is used despite being biased in many cases --Mbasti01 (Diskussion) 08:40, 6. Mai 2022 (CEST)Beantworten

Änderungen nach obiger Diskussion[Quelltext bearbeiten]

Die Definition wurde entsprechend obiger Diskussion verbessert. Vielen Dank an alle Beitragenden. Weitere entsprechende Änderungen im Text sind in den nächsten Tagen geplant. Bitte um Rückmeldung (oder Editierung) falls weitere Optimierung erforderlich. Grüße --Mbasti01 (Diskussion) 08:29, 8. Mai 2022 (CEST)Beantworten

Erledigt: @JonskiC, @Physikinger, @Tiha, @Vollbracht, @Tensorproduct

  • Zusammenführung aus bestehendem Artikel + Vorschlag von Tensorproduct vom 2.Mai aus Versionsgeschichte + Ergebnisse aus obiger Diskussion
  • Auf das Wesentliche reduziert, da es ja entsprechende Hauptartikel gibt
  • Vereinfachte Gliederung, die besser zu den entsprechenden Hauptartikeln passt
  • Der Einstieg ist tauglich für Leser/Anwender ohne tiefere mathematische Vorkenntnisse
  • Mathematische Bezeichungen/Formeln/Definitionen sauberer

Ich hoffe, das war jetzt ein Schritt in die richtige Richtung. Bitte um Rückmeldung wie Ihr das seht - auch wenn es ok ist, aber vor allem wenn es noch Verbesserungspotential gibt. Grüße --Mbasti01 (Diskussion) 09:46, 9. Mai 2022 (CEST)Beantworten

Ich habe noch in der Varianz-Formel mit dem Integral die Menge mit einer anderen Variable ausgetauscht. Weil in der jetzigen Defintion ist (wobei für eine beliebige Menge steht) und man sollte eine andere Variable als nehmen (Ich habe vermutlich vergessen zu schreiben). Da eine Zufallsvariable eine Funktion ist, kann man natürlich sowohl über als auch integrieren, allerdings ist die Formel dann ein bisschen anders. Wenn ich die Formel mit der Dichte nehme, dann muss ich über integrieren.--Tensorproduct (Diskussion) 10:51, 9. Mai 2022 (CEST)Beantworten
Edit: Ich habe eine kleine Korrektur noch in der Definition der Zufallsvariable gemacht. Wenn es heisst "auf einen Raum" und ist, dann meint man damit den Zielraum . So ist es hoffentlich verständlicher, was genau gemeint ist. --Tensorproduct (Diskussion) 11:02, 9. Mai 2022 (CEST)Beantworten

Literatur und Einzelnachweise[Quelltext bearbeiten]

Einleitung sollte nochmals verbessert werden[Quelltext bearbeiten]

Habe QS gestartet bezüglich Einleitung: die Einleitung zum Artikel gefällt mir immer noch nicht. Die Idee hinter dem Artikel war es, die empirische Varianz von dem allgemeinen Varianzbegriff separat zu behandeln. Kann ich nachvollziehen, allerdings sollte man auch so mit der Einleitung beginnen und nicht zuerst die empirische Varianz beschreiben. Mathematisch gesehen handelt es sich bei der Varianz um , auch wenn man die empirische Varianz betrachtet.

Mein Vorschlag wäre es zu Beginn zu schreiben, dass man unter dem Begriff "Varianz" zwei miteinander verwandte Konzepte versteht:

  • die empirische Varianz einer Stichprobe
  • die Varianz

Der Artikel ist jetzt so geschrieben, wie wenn die empirische Varianz das Hauptthema wäre, allerdings ist dies nur ein Spezialfall der Statistik. Das verwirrt doch alle Leser, die eigentlich über die Varianz einer allgemeinen Verteilung lesen möchten und nicht die empirische Varianz.--Tensorproduct 09:28, 2. Nov. 2023 (CET)Beantworten

Ich möchte mit einem Zitat von @Physikinger (oben aus der Diskussion) antworten: "Es gibt Artikel, die fast nur von Mathematikern gelesen werden, wie z.B. "Maßtheorie" oder manche nur von Ingenieuren, wie "Kalman-Filter", aber "Varianz" wird von Schülern, BWLern, Ingenieuren, Physikern bis Mathematikern gelesen. Daher muss man diesen Artikel etwas anders schreiben, als andere rein mathematische Themen."
Dieser Artikel hat eine heterogene Leserschaft. Er muss vom "Einfachen" zum "Allgemeinen" fortschreiten. Die Sicht der Schüler, Gymnasiasten, Erst-Semester muss am Anfang stehen. Die abstrakte Sicht der Mathematiker am Ende. Man kann die weniger ausgebildeten Leser nicht gleich in der ersten Zeile abhängen. Aber man muss ihnen durchaus zeigen, dass abstraktere Sichtweisen existieren.
Ich bitte darum den QS Baustein im Artikel wieder zu entfernen.
Grüße Mbasti01 (Diskussion) 15:54, 2. Nov. 2023 (CET)Beantworten
Entschuldige bitte, aber Du gehst nicht auf Tensorprodukt ein. Wenn es einen Unterschied zwischen empirischer Varianz und Varianz gibt, dann darf die empirische Varianz hier nur mit Hinweis auf den Hauptartikel beschrieben werden. Wenn die Einleitung ohne diesen Hinweis primär die empirische Varianz beschreibt, dann muss sie überarbeitet werden.
Ich muss jedoch noch mal die Frage aufwerfen: Inwiefern ist der Begriff der Varianz überhaupt mathematisch davon abhängig, woher die Daten kommen, die damit beschrieben werden? Eine solche Abhängigkeit erscheint mir absolut widersinnig. Ob ich eine Varianz für einen vollständigen Datensatz oder über eine Stichprobe, aus empirischen Daten oder aus einer numerischen Folge oder woher auch immer berechne, darf doch nicht für die Rechenvorschrift und mithin nicht für den Begriff erheblich sein. --Vollbracht (Diskussion) 16:21, 2. Nov. 2023 (CET)Beantworten
@Vollbracht Exakt. Aus mathematischer Sicht ist die empirische Varianz einfach ein Spezialfall der normalen Varianz, da man ja nicht mehr die ganze Population betrachtet, sondern eine Stichprobe.
Wenn du die empirische Verteilungsfunktion der Stichprobe betrachtest, dann beschreibt diese eine Verteilung (es ist ja eine Verteilungsfunktion). Und diese Verteilung hat als Varianz die empirische Varianz.
Mir geht es nicht darum, die ganze Einleitung umzuschreiben. Es sollte nur am Anfang klar stehen, dass man unter Varianz manchmal die empirische Varianz meint und in den meisten Fällen aber die allgemeine Definition--Tensorproduct 18:22, 2. Nov. 2023 (CET)Beantworten
(Überschneidung) --Vollbracht (Diskussion) 18:23, 2. Nov. 2023 (CET)Beantworten
Dann stellt sich aber die Frage der Lemmafähigkeit von empirische Varianz. --Vollbracht (Diskussion) 18:26, 2. Nov. 2023 (CET)Beantworten
Manchmal wird eben auch die empirische Varianz nur als Varianz bezeichnet, insbesondere in nicht-technischen Studiengängen, deshalb ist der Artikel meines Erachtens berechtigt.--Tensorproduct 18:52, 2. Nov. 2023 (CET)Beantworten
@Mbasti01 Was hat das mit meinem Vorschlag zutun? Bitte lies nochmals, was ich geschrieben habe. Ich sage nur, dass man die Einleitung etwas um schreiben soll, so dass es klar wird, dass man unter Varianz nicht zwingend die empirische Varianz meint.--Tensorproduct 18:06, 2. Nov. 2023 (CET)Beantworten
Darauf hatte ich ihn ja bereits in meiner Antwort hingewiesen. Aber bis jetzt steht hier die Behauptung im Raum, dass es zum Basiswissen in der Mathematik gehöre, dass ein Unterschied zwischen Varianz und empirischer Varianz bestehe. Mein Bronstein gibt das aber nicht her. Er verwendet den Begriff der empirischen Varianz einer Stichprobe zur Beschreibung der "Realisierung" einer Varianzberechnung im Bereich von Stichprobenfunktionen. --Vollbracht (Diskussion) 18:22, 2. Nov. 2023 (CET)Beantworten
OK, Deinen Beitrag habe ich offenbar falsch interpretiert. Allerdings meine ich, dass man aus der Einleitung bereits sieht, dass es sowohl die "beschreibende Statistik" als auch die "Stochastik" gibt. Zitat aus der Einleitung: "... die empirische Varianz ist also nur ein Spezialfall ..."
Wenn man das aber noch verbessern kann, gerne. Grüße, Mbasti01 (Diskussion) 18:26, 2. Nov. 2023 (CET)Beantworten
@Mbasti01 1) Das mit dem Spezialfall steht aber erst weit unten und verwirrt. Was stört dich denn an meinem Vorschlag gleich zu Beginn zu sagen, dass unter dem Begriff Varianz man zwei verschiedene Konzepte versteht (die aber miteinander verwandt sind): die empirische Varianz (oder Varianz einer Stichprobe/Datenmenge) und die Varianz? Dann kann man von mir aus schon zuerst auf die empirische Varianz eingehen. So wäre es für den Leser viel klarer.

(* Ich bin zwar kein Admin, aber PA und off-topic-Streitereien stören hier. --Vollbracht (Diskussion) 18:41, 3. Nov. 2023 (CET)*)Beantworten

Ich optimiere Artikel so, dass sie Wissen transportieren. Wie ein einzelner Begriff genau definiert ist, ist für die Wissensvermittlung des Sachverhalts nicht so wesentlich entscheidend, wenn er innerhalb des Textes einheitlich verwendet wird. Die Leute sollen hier "die Musik" hinter der Mathematik verstehen und nicht an didaktisch schlechten Fachsprachen scheitern, die in der Praxis keine Relevanz haben. Bitte unterstelle mir nicht, ich würde mich nicht an Quellen halten, ich hatte nur eine andere Quelle als du und die habe ich auch genannt. --Physikinger (Diskussion) 18:22, 3. Nov. 2023 (CET)Beantworten
Die Einleitung sollte jetzt nahe am Optimum sein. Bitte prüft doch noch mal, ob die Einschränkung, "in der beschreibenden Statistik" nicht noch ersatzlos gestrichen werden kann.
Ich habe im Wesentlichen nur ein paar Infos verschoben. Guckt noch mal 'drüber. Ich denke, ich habe hiermit die Grundlage für weitere Optimierungen gelegt. --Vollbracht (Diskussion) 18:42, 2. Nov. 2023 (CET)Beantworten
@Vollbracht 1) Ok, den Text in einen eigenen Abschnitt auslagern finde ich eine gute Idee, so bleibt die Einleitung schön übersichtlich. Die Einschränkung "beschreibende Statistik" ist nicht nötigt, besser wäre "Statistik und Wahrscheinlichkeitstheorie", da es in der ganzen Statistik nur 1 Varianz gibt.
2) Allerdings würde ich in der Einleitung trotzdem darauf hinweisen, dass man mit Varianz häufig die empirische Varianz meint. Also in etwa so was: der Begriff Varianz wird häufig für zwei verwandte Konzepte verwendet: "die Varianz einer Stichprobe" und "die Varianz". Ersteres wird auch empirische Varianz genannt und letzteres ist ein allgemeines Konzept einer Wahrscheinlichkeitsverteilung.'
Oder was ähnliches.--Tensorproduct 19:17, 2. Nov. 2023 (CET)Beantworten
Kürzere Einleitung ist auch gut. Du kannst Sie ja noch ein wenig erweitern ... Oder wir machen sie noch kürzer:
"Die Varianz ein Maß für die Streuung von reellen Werten um ihren Mittelwert."
Ob die Anzahl auch unendlich sein kann, ob es um Verteilungen geht ... das steht später im Text.
Mbasti01 (Diskussion) 19:41, 2. Nov. 2023 (CET)Beantworten
Das ist doch sehr gut. Kann diese Formulierung weiterhin als durch die drei genannten EN belegt gelten? --Vollbracht (Diskussion) 22:04, 2. Nov. 2023 (CET)Beantworten
Zwei Dinge sind noch falsch:
  • Die Aussage: "endlichen Anzahl"
Das bezieht sich wieder nur auf eine endliche Stichprobe.
  • Die Aussage "Maß für die Streuung ... um ihren Mittelwert"
Das ist wieder nur in der empirischen Varianz der Fall. Die Varianz ist eine Streuung um den Erwartungswert, dieser gewichtet die Elemente bezüglich ihrer Wahrscheinlichkeiten. Bei einer empirischen Varianz wählt man einfach die gleiche Wahrscheinlichkeit für alle Werte und deshalb entsteht der arithmetische Mittelwert. Außerdem hat man im stetigen Fall der Varianz ein Integral und keine Summe.. Ein paar Vorschläge wie man es sonst formulieren könnte:
1. "... ein Maß für die Streuung von Werten entweder um ihren Erwartungswert (wenn man eine Wahrscheinlichkeitsverteilung betrachtet) oder um ihren Mittelwert (wenn man eine Stichprobe betrachtet)."
oder
2. "... ein Maß für die Streuung von Werten um ihren Erwartungswert. Im Falle einer Stichprobe ist die Varianz ein Maß für die Streuung von Werten um ihren Mittelwert."
Eine bessere Formulierung fällt mir spontan nicht ein.--Tensorproduct 10:10, 3. Nov. 2023 (CET)Beantworten
Neuer Vorschlag:
"Die Varianz ist ein Maß für die Streuung von reellen Werten um eine Bezugsgröße. Abweichungen von der Bezugsgröße werden quadratisch gewichtet. Bei der Wahl der Bezugsgröße sind zwei Fälle zu unterscheiden:
  • Bei den Werten handelt es sich eine endliche Anzahl bekannter Werte, also um eine Stichprobe. Dann ist die Bezugsgröße der Mittelwert dieser Werte. (Beschreibende Statistik, Empirische Varianz)
  • Es ist die Wahrscheinlichkeit bekannt mit der Werte in einer bestimmten Größenordnung liegen. Die Werte ergeben sich also aus einer Verteilungsfunktion. Dann ist die Bezugsgröße der Erwartungswert, also der Schwerpunkt dieser Verteilungsfunktion. (Stochastik, Theoretische Varianz)"
Ist das besser?
Mbasti01 (Diskussion) 11:52, 3. Nov. 2023 (CET)Beantworten
Finde ich nicht gut, weil 1) bläht es die Einleitung wieder auf 2) ist das Wort "Bezugsgröße" ungenau und sogar irreführend, weil es suggeriert, dass es mehrere Bezugsgrößen gibt. Allerdings ist die Bezugsgröße nur der Erwartungswert, welche halt bei der empirischen Verteilung gerade der arithmetische Mittelwert ist. Es ist aber einfach nur ein Spezialfall.
Was stört dich denn an
  • "... ein Maß für die Streuung von reellen Werten entweder um ihren Erwartungswert (wenn man eine Wahrscheinlichkeitsverteilung betrachtet) oder um ihren Mittelwert (wenn man eine Stichprobe betrachtet)."
Der Leser sieht direkt durch das Wort "entweder", dass man hier zwei Fälle unterscheidet. Ich verstehe auch deine Intention nicht, warum man zuerst unbedingt die empirische Varianz in der Einleitung behandeln sollte (Ich rede jetzt nur von dem Einleitungssatz). Ich bin überzeugt, dass die meisten Leser über die Varianz einer Wahrscheinlichkeitsverteilung lesen wollen und nicht über eine Stichprobe, dazu zählen: Informatiker, Ökonomen, Mathematiker, Physiker, Biologen etc. Kann sein dass das bei Psychologen, BWLern anders ist, aber zumindest bei Ökonomen, die sich mit Finance oder Ökonometrie beschäftigen, wird es eher die Varianz einer Wahrscheinlichkeitsverteilung sein. (Wobei ich denke, dass auch Psychologen über die Varianz der Normalverteilung was lesen. Weiß ich allerdings nicht). Edit: Ich verstehe auch nicht, warum es so schwierig ist sich in der deutschen Wikipedia an genaue Definitionen zu halten. In der englischen wird es auch so getan, die Varianz wird nicht als empirische Varianz definiert, das ist halt einfach ein ganz spezieller Fall. --Tensorproduct 13:42, 3. Nov. 2023 (CET)Beantworten
@Mbasti01 Für das Protokoll, der Physikinger schreibt solche Dinge in die Wikipedia rein wie "ein stochastischer Prozess ist dasselbe wie eine Wahrscheinlichkeitsverteilung". Also ein Prozess (etwas was sich zeitlich bewegt) soll dasselbe sein wie z.B. die Gauß-Kurve/Normalverteilung. Selbst wenn man ihm dann sagt, dass es nicht so ist, wiederspricht er einem auch noch mehrmals und fängt an zu beleidigen. Der User hat offensichtlich keinen Kurs in Statistik oder Stochastik absolviert.--Tensorproduct 16:57, 3. Nov. 2023 (CET)Beantworten
Machen wir es so, wie Du sagst:
  • "... ein Maß für die Streuung von reellen Werten entweder um ihren Erwartungswert (wenn man eine Wahrscheinlichkeitsverteilung betrachtet) oder um ihren Mittelwert (wenn man eine Stichprobe betrachtet)."
... wobei ich immer noch für die andere Reihenfolge plädieren würde. Die Frage ist einfach, wie sich der Haupt-Leserkreis zusammensetzt. Meine Meinung ist, dass es vor allem Neulinge in diesem Thema sind. Eine Wahrscheinlichkeitsverteilung ist abstrakter als eine Stichprobe und benötigt mehr Vorwissen. Daher ist die Reihenfolge für mich: Zuerst die Stichprobe.
Möchtest Du umsetzen? Oder soll ich? Mbasti01 (Diskussion) 17:04, 3. Nov. 2023 (CET)Beantworten
@Mbasti01 Ok, wenn du es unbedingt anders rum haben willst, dann erwähne halt den Mittelwert zuerst
"... ein Maß für die Streuung von reellen Werten entweder um ihren Mittelwert (wenn man eine Stichprobe betrachtet) oder um ihren Erwartungswert (wenn man eine Wahrscheinlichkeitsverteilung betrachtet)."
das spielt ja eigentlich keine Rolle, weil beide Fälle werden im selben Satz behandelt. Der Leser wird jawohl den Satz zu Ende lesen. Mir ging es im Prinzip nur darum, dass beide Varianten gleich zu Beginn genannt werden. Für mich ist das ok, kannst du gerne machen.--Tensorproduct 17:15, 3. Nov. 2023 (CET)Beantworten
ok, morgen! Warten wir zuerst mal ab, ob noch eine Meinung kommt.
Und wenn ich dann dabei bin: Den Absatz mit der "Standardabweichung" der jetzt im Kapitel: "Quellen der untersuchten Werte" gelandet ist, den fände ich in der Einleitung besser. Er passt nicht in dieses Kapitel. Und Standardabweichung ist ja auch eine Begriffsdefinition im Zusammenhang mit der Varianz.
Mbasti01 (Diskussion) 17:23, 3. Nov. 2023 (CET)Beantworten
Für mich hätte sich dann das Thema erledigt. Und ja den Absatz sollte man m. E. auch wieder in die Einleitung schieben (zusammen mit dem letzten Satz "Die Bezeichnung Varianz leitet....")--Tensorproduct 17:28, 3. Nov. 2023 (CET)Beantworten
Ich wäre Euch dankbar, wenn der erste Einleitungssatz für diesen grundlegenden Begriff wirklich kurz bliebe. Auch klammern mag ich darin nicht so gerne. Ich plädiere für:
"Die Varianz ist ein Maß für die Streuung reeller Werte um einen Mittel-, bzw. Erwartungswert. Im allgemeineren Fall einer Wahrscheinlichkeitsverteilungen handelt es sich dabei um die Streuung um einen Erwartungswert. Der Spezialfall einer Streuung um ein arithmetisches Mittel gemessener Werte wird als empirische Varianz bezeichnet."
Und damit sollte auch die komplette Einleitung abgeschlossen sein. Können wir uns darauf einigen? --Vollbracht (Diskussion) 19:02, 3. Nov. 2023 (CET)Beantworten
Oder besser:
"Die Varianz ist ein Maß für die Streuung reeller Werte um einen Mittel-, bzw. Erwartungswert. Im allgemeineren Fall einer Wahrscheinlichkeitsverteilungen handelt es sich dabei um die Streuung um einen Erwartungswert. Der Spezialfall einer Streuung gemessener Werte um ihr arithmetisches Mittel wird als empirische Varianz bezeichnet." --Vollbracht (Diskussion) 19:20, 3. Nov. 2023 (CET)Beantworten
Noch etwas optimiert:
"Die Varianz ist ein Maß für die Streuung reeller Werte um den Mittel-, bzw. Erwartungswert:
Wenn die Werte eine Stichprobe darstellen, dann handelt es sich bei der Varianz um die Streuung um das arithmetisches Mittel, die auch als empirische Varianz bezeichnet wird.
Im mathematisch allgemeineren Fall ist die Wahrscheinlichkeitsverteilung der Werte gegeben und die Varianz ist dann ein Maß für die Streuung um den Erwartungswert."
Ich finde es so leichter lesbar und es sind hoffe ich alle genannten Aspekte berücksichtigt.
Mbasti01 (Diskussion) 22:46, 3. Nov. 2023 (CET)Beantworten
Was mich hier immer noch stört, ist, dass wir für die Erklärung eines Begriffes, unter dem sich normalsterbliche noch etwas vorstellen können, einen Begriff verwenden, für den das nicht gilt. Können wir auf den Begriff der Wahrscheinlichkeitsverteilung verzichten, wenn wir den allgemeineren Fall beschreiben wollen? Vorschlag (vor allem auch ohne wenn-dann):
"Die Varianz ist ein Begriff der Wahrscheinlichkeitsrechnung. Sie ist ein Maß für die Streuung reeller Werte um einen Mittel-, bzw. Erwartungswert. Die Streuung um einen Erwartungswert stellt dabei die allgemeinere Betrachtungsweise dar. Diejenige gemessener Werte um ihr arithmetisches Mittel ist dem gegenüber ein Spezialfall. Das Maß wird hier als empirische Varianz bezeichnet."
Dieser Vorschlag sollte jetzt so formuliert sein, dass alles korrekt, aber auch für Laien verständlich ist. Insbesondere ist mir wichtig, dass das Verhältnis von Varianz (allgemein) und empirischer Varianz (Spezialfall) sofort richtig erfasst wird. Wenn hier kein lauter Aufschrei kommt, werde ich diese Formulierung kurzfristig in den Artikel übernehmen.
P. S.: Mein alter Mathelehrer hat sich immer mokiert, wenn eine Definition schief gelaufen ist: "Seife ist, wenn man keine hat, nimmt man Bimsstein." --Vollbracht (Diskussion) 00:17, 4. Nov. 2023 (CET)Beantworten
Das Wort "gemessen" stört mich noch. Nicht alle konkreten Werte sind "gemessen". Und auch "Diejenige" ist nicht schön. Vorschlag:
Ersetze "Diejenige gemessener Werte ..." durch
"Die Streuung konkreter Werte ..."
Grüße Mbasti01 (Diskussion) 08:51, 4. Nov. 2023 (CET)Beantworten
Den Einleitungssatz finde ich gut, allerdings sollten die Wörter ausgeschrieben sein: "...um den Mittelwert beziehungsweise Erwartungswert" oder "...um den Mittelwert bzw. Erwartungswert" damit man sie auch gut anklicken kann.
1) Könnte man statt
Diejenige gemessener Werte um ihr arithmetisches Mittel ist dem gegenüber ein Spezialfall.
einfach
Die Varianz einer Stichprobe ist die Streuung um ihr arithmetisches Mittel und ein Spezialfall.
wählen?
2) Außerdem sollte es anstatt
"Das Maß wird hier als empirische Varianz bezeichnet.
lieber
"Das Streuungsmaß wird in diesem Fall als empirische Varianz bezeichnet.
heißen. Der Begriff Maß hat in der Mathematik eine zweite Bedeutung, welche in der Stochastik/Statistik fundamental ist (die Wahrscheinlichkeitsverteilungen sind gerade Maße (Mathematik)). Wenn man jetzt von Maß spricht, dann ist das nicht ganz klar, was man eigentlich meint. Lieber man spricht vom Streumaß oder Streuungsmaß. Im Einleitungssatz ist der Kontext klar, weil man ja vom "Maß für die Streuung" spricht.--Tensorproduct 09:38, 4. Nov. 2023 (CET)Beantworten
Entschuldigt, da ist mir ein Fehler passiert. Habs korrigiert.--Tensorproduct 10:07, 4. Nov. 2023 (CET)Beantworten
ok Mbasti01 (Diskussion) 12:21, 4. Nov. 2023 (CET)Beantworten
Ich darf kurz begründen:
Mittelwert wird im ersten Auftauchen nicht verlinkt, weil das Linkziel direkt darunter vollständig ausgeschrieben ist. Einen Satz, der aus aufeinanderfolgenden Links besteht, sollten wir vermeiden. Die Abkürzung, "Mittel-, bzw. Erwartungswert" werte ich als besonders unproblematisch, weil "Mittel" und "Mittelwert" derart synonym sind, dass die Kurzform sogar im Lemma steht. Das neben gemessenen Werten noch andere empirisch ermittelte Werte existieren, wird durch die Einleitung in dieser Form in keiner Weise eingeschränkt, ist aber so speziell, dass es garantiert nicht in diese Einleitung und vielleicht nicht einmal in eine Einleitung für die Beschreibung der empirischen Varianz gehört. --Vollbracht (Diskussion) 22:19, 4. Nov. 2023 (CET)Beantworten
Ok, ja für mich ist das auch gut. --Tensorproduct 23:50, 4. Nov. 2023 (CET)Beantworten
Also, mach mal ... der aktuelle Stand sollte bald weg.
Die Anmerkung mit "gemessen" habe ich nicht ganz verstanden. Ich finde "konkrete Werte" besser, da man sich da nicht auf das "Messen" festlegt.
Mbasti01 (Diskussion) 09:27, 5. Nov. 2023 (CET)Beantworten
Macht ihr die genaue Formulierung, wie ihr sie möchtet. Ich habe mal den QS entfernt. Allerdings bin ich auch eher für gemessene Werte, weil man auch bei einer Wahrscheinlichkeitsverteilung "konkrete Werte" hat, man hat einfach alle Werte. Aber das ist ein Detail. Mir scheint bei dir Mbasti01, dass du vielleicht die Intuition hinter der Varianz noch nicht ganz verstehst. Man betrachtet zwar Zufallsvariablen, aber der Punkt bei der Varianz ist, dass man eben alle Werte berücksichtigt und dadurch das "zufällige" verschwindet. Das heißt, wir wissen a priori welche Werte die Zufallsvariable annehmen wird. Dadurch ist die Bezeichnung "konkrete Werte" für beide Fälle zutreffend, "gemessene Werte" verdeutlicht jedoch, dass man eine Stichprobe betrachtet. Wie gesagt, aus mathematischer Sicht ist die empirische Varianz einfach die Varianz aus der Stochastik für die empirische Verteilung, dass sind nicht unterschiedliche Konzepte. Das sollte halt im Artikel richtig sein, damit die Leser verstehen, dass da ein Zusammenhang ist.--Tensorproduct 12:22, 5. Nov. 2023 (CET)Beantworten
Ich habe als Ingenieur einfach eine andere Sicht auf die Dinge als ein Mathematiker. Für mich ist eine "Messung" einfach eine "Messung" und z. B. kein Euro-Betrag auf einem Preisschild. Jeder hat so seine Empfindlichkeiten. Daher gefällt mir "Messung" an dieser Stelle in der Definition nicht.
Natürlich basiert auch eine Verteilung auf konkreten Werten (die man halt nicht alle explizit kennt). Das ist übrigens bei analogen Messungen ebenfalls so. Man kennt die Werte nur an den Abtastzeitpunkten. Die dazwischenliegenden Werte sind ebenso Messungen, aber man kennt sie nicht. (Manchmal kann man aber Annahmen über deren Verteilung treffen).
Wie wäre es mit folgendem Vorschlag:
Ersetze "Diejenige gemessener Werte ..." durch
"Die Streuung vorliegender bekannter Werte ..." oder
"Die Streuung einer endlichen Zahl bekannter Werte ..."
Ansonsten vielen Dank für Deine Geduld. Interdisziplinäre Argumentationen bei Wikipedia sind immer anstrengend, aber auch interessant.
Und wenn das das einzige verbleibende Problem ist, dann sind wir trotzdem in der Diskussion weit genug gekommen um die Einleitung wieder zu verbessern.
Grüße Mbasti01 (Diskussion) 16:29, 5. Nov. 2023 (CET)Beantworten
@Mbasti01 Ich glaube nicht, dass das Thema mit "Mathematiker oder Ingenieur sein" zutun hat. Ich habe das Gefühl, dass es hier eher ein Verständnisproblem ist, denn die Aussage:
Natürlich basiert auch eine Verteilung auf konkreten Werten (die man halt nicht alle explizit kennt).
stimmt nicht, man kennt alle Werte einer Verteilung. Lass es mich nochmals versuchen zu erklären, aber mit Hilfe eines konkreten Beispieles. Wenn du eine Stichprobe mit Würfelwürfen hast, dann impliziert diese Stichprobe eine Wahrscheinlichkeitsverteilung! Man sieht offensichtlich, dass die Zahl dreimal häufiger vorkommt als die . Intuitiv würd man denken, die Zahl ist wahrscheinlicher. Das Experiment impliziert eine Verteilung , aber wenn der Würfel fair ist, dann beschreibt sie nicht die Verteilung des Würfels . Wir können eine Zufallsvariable definieren, welche der Verteilung folgt durch und wird nur die Werte annehmen, das ist kein Problem. Es ist aber nicht die Verteilung des Würfels. Wenn wir jetzt 1'200'000 Mal würfeln, dann wird in der Stichprobe jede der Zahlen in etwa gleichhäufig vorkommen. Diese neue Stichprobe beschreibt wieder eine Verteilung, diese wird nun aber in etwa wie die Verteilung des Würfels sein .
Es geht also nicht darum, dass es unterschiedliche Konzepte sind oder eben unterschiedliche Begriffe der Varianzen. Der Unterschied ist, dass wir zwei verschiedene Wahrscheinlichkeitsverteilungen betrachten, die eine repräsentiert den Würfel, die andere repräsentiert die Stichprobe. Je grösser aber die Stichprobe sein wird, desto mehr wird sie sich der wahren Verteilung des Würfel annähern.--Tensorproduct 17:25, 5. Nov. 2023 (CET)Beantworten
Ja, ich kann Dir folgen, :)
Grüße Mbasti01 (Diskussion) 17:41, 5. Nov. 2023 (CET)Beantworten
@Mbasti01 PS: Ich hoffe, du trennst dich von der Vorstellung, dass Mathematiker, Ingenieure oder Physiker unterschiedliche Sichtweisen auf die Dinge haben. Damit sagst du indirekt, dass die Mathematiker zu realitätsfern sind, um die Dinge zu erklären, dem ist aber nicht so. Ein Mathematiker, der das Konzept verstanden hat, der kann es auch gut erklären. Das Problem ist nur, dass die Mathematik halt einfach komplex/schwer ist und man eben genau sein muss. Auch Ingenieure und Physiker sind mathematisch genau, wenn sie die Konzepte verstanden haben. Wenn sie ungenau sind, dann haben sie das Konzept nicht verstanden. Wenn man sagt, dass die "Varianz die empirische Varianz ist", dann ist das halt so, als würde man sagen "die Funktion ist die Cosinus-Funktion". Es ist eine ungenaue/falsche Definition und deshalb sollte man auch lieber immer von der empirischen Varianz sprechen und nicht von der Varianz. Leider machen genau das aber viele Lehrpersonen und Lehrbücher eben nicht.--Tensorproduct 11:02, 12. Nov. 2023 (CET)Beantworten
@Tensorproduct Ich wollte Dich nicht als realitätsfern einstufen. Und ich habe vermutlich auch nie gesagt, dass die "Varianz die empirische Varianz ist". Wenn, dann war es ein Versehen. Meine berufliche Erfahrung ist jedoch, dass verschiedene Fachbereiche gerne aneinander vorbeireden. Ich habe das erlebt zwischen Maschinenbauern, Elektrotechnikern, Chemikern, Wirtschaftlern und auch Mathematikern.
Mich stört z. B. aus meiner Sicht in der Einleitung noch der Begriff "... gemessene Werte ...". Das empfinde ich als falsch (weil einschränkend) und ungenau. Jeder Fachbereich hat seine Empfindlichkeiten. Und jeder überdehnt die Sprache an einer anderen Stelle.
Jedenfalls schätze ich Deine Inputs, weil sachlich, präzise und konstruktiv.
Mbasti01 (Diskussion) 13:49, 12. Nov. 2023 (CET)Beantworten
"Diejenige erfasster Werte um ihr arithmetisches Mittel ..." liest sich übrigens auch etwas schwer für eine Einleitung. Kann man den Satz vielleicht doch nochmal anders formulieren? Sowas wie "Die Streuung zufällig ausgewählter Werte um ihr arithmetisches Mittel ..." oder so ähnlich?--Physikinger (Diskussion)
Stimmt:) Mbasti01 (Diskussion) 08:28, 16. Nov. 2023 (CET)Beantworten
QS hätte ich drin gelassen, da die Folgeabschnitte für meinen Geschmack sprachlich noch sehr unfertig wirken. Aber wir können den Artikel natürlich auch ohne QS-Papperl weiter entwickeln. Bis hierhin jedenfalls vielen Dank Euch beiden! --Vollbracht (Diskussion) 19:45, 5. Nov. 2023 (CET)Beantworten
@Vollbracht Danke auch Dir für Deinen Input! --Tensorproduct 20:56, 6. Nov. 2023 (CET)Beantworten
  1. Lothar Sachs, Jürgen Hedderich: Angewandte Statistik: Methodensammlung mit R. 16., überarb. und erg. Auflage. Springer Spektrum, Berlin / Heidelberg 2018, ISBN 978-3-662-56656-5. S.210.
  2. Leonhard Held und Daniel Sabanés Bové: Applied Statistical Inference: Likelihood and Bayes. Springer Heidelberg New York Dordrecht London (2014). ISBN 978-3-642-37886-7
  3. Alvin C. Rencher: Methods of multivariate analysis. Vol. 492. John Wiley & Sons, 2003