Diskussion:Lageparameter (deskriptive Statistik)

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 6 Jahren von Karl24042017 in Abschnitt Arithmetisches Mittel
Zur Navigation springen Zur Suche springen

Arithmetisches Mittel[Quelltext bearbeiten]

Hallo Benutzer Diskussion:Karl24042017 m.E. ist auf den ersten Blick nicht korrekt, da utnerschiedliche Definitionen des arithmetischen Mittels gleich gesetzt werden. Gruß.--JonskiC (Diskussion) 01:33, 7. Dez. 2017 (CET)Beantworten

Begreife doch bitte, bitte, bitte werter Jonsci, daß es sich hier mitnichten um "unterschiedliche" Definitionen handelt:

mit gilt durch ausklammern bzw. ausmultiplizieren.

Nicht mehr und nicht weniger. --Karl24042017 (Diskussion) 01:41, 7. Dez. 2017 (CET)Beantworten

Ja das ist mir schon bewusst, aber es kann auch sein dass eine Urliste vorliegt bei der jeder Wert nur einmal vorkommt deswegen sollte man unterscheiden zwischen dem arithmetischen Mittel bei Häufigkeitsdaten und dem einfachen arithmetischen Mittel. Grüße.--JonskiC (Diskussion) 14:05, 7. Dez. 2017 (CET)Beantworten

Das "einfache" arithmetische Mittel ist, sollte nicht der Sonderfall vorliegen, den du ansprichst, ist sowieso Unfug. Man trifft das immer wieder an, aber es ist schlicht Quatsch. Für den Fall, den du ansprichst, ist schlicht m = n und somit gelten beide Formeln immer noch und sind auch immer noch äquivalent. --Karl24042017 (Diskussion) 16:41, 7. Dez. 2017 (CET)Beantworten

Aber man kann doch nicht überall die gleiche Bezeichnung verwenden. Da mir außerdem die Formeln für diesen Überblicksartikel nicht wichtig genug erscheinen, habe ich die Änderung jetzt rückgängig gemacht. -- HilberTraum (d, m) 19:39, 7. Dez. 2017 (CET)Beantworten
Doch, die Variable bezeichnet die jeweilige Merkmalsausprägung, die entweder - mit Wiederholungen - über bis oder, wenn der Index auf den Ergebnisraum bezogen wird, über bis läuft. Genau so stehts auch im Speziellen Artikel. Das kann nicht nur sein, in beiden Fällen, das muß sogar sein. Zur Frage, ob das dort überflüssig ist oder nicht hatte ich im Hinblick auf die Länge des Spezialartikels und die Unsinnigkeit der Formel, die du hast stehen lassen, bereits begründet. Ich werde das also wieder korrigieren müssen und würde dich in der Folge bitten, dich entweder "schlau" zu machen oder den Artikel in Frieden zu lassen! --Karl24042017 (Diskussion) 19:51, 7. Dez. 2017 (CET)Beantworten
Aber die gleiche Variable kann doch nicht in der gleichen Formel verschiedene Sachen bezeichnen. Einmal ist der erste beobachtete Wert und einmal die erste Merkmalsausprägung. Das geht nicht. Der Artikel Arithmetisches Mittel verwendet dafür doch auch und , wie es auch richtig ist. -- HilberTraum (d, m) 20:06, 7. Dez. 2017 (CET)Beantworten
Jetzt muß ich wohl mal "grobb" werden: Mach doch bitte die Augen auf: die Variable heißt , die einzelnen Ausprägungen heißen, wenn Wiederholungen mehrfach aufgeführt sind (wie z.B. in einer Urliste) , wenn diese bereits als Häufigkeit aggregiert sind . Entsprechend heißen sie auch in Jonsci's Artikel , und nicht, wie du behauptest . Bitte, bitte, bitte und "meinetwegen noch mit Sahnehäubchen oben drauf" (Zitat Harvey K. in pulp fiction, falls du's nicht einordnen kannst): Erst lesen, und zwar richtig, sorgfältig und aufmerksam, dann schreiben! --Karl24042017 (Diskussion) 20:23, 7. Dez. 2017 (CET)Beantworten
Was meinst du mit: „wie du behauptest “? Egal, ich erkläre es dir: und sind nur Indizes, die für natürliche Zahlen stehen. Ein Beispiel: Sagen wir man beobachtee die vier Werte 6, 6, 8, 8, also sind und . Dann sind die Ausprägungen und und die absoluten Häufigkeiten . Damit ergibt sich das arithmetische Mittel . Nach „deiner“ Formel würde rauskommen. Ist es jetzt klar geworden? -- HilberTraum (d, m) 20:54, 7. Dez. 2017 (CET)Beantworten

Schau mal, ich will hier wirklich nicht unfreundlich werden, aber du erklärst mir hier Dinge, die du selbst vielleicht verstehen solltest. Was ich oben schrieb - insofern hast du recht, du schriebst nicht , sondern - bezog sich auf deinen Satz oben:

"Aber man kann doch nicht überall die gleiche Bezeichnung verwenden."

Dazu nochmal: Ja, man kann, wenn man den Index jeweils richtig setzt - so wie ich es getan und in der Legende verdeutlicht habe und wie du es dir selbst oben nochmal erklärt hast. Im Detail:

(worin n die Größe der Stichprobe, i den Index über alle Merkmalsträger, j den Index über die möglichen Merkmalsausprägungen (Ergebnisraum), F die absolute und f die relative Häufigkeit bezeichnen).

Dies war mein Wortlaut, und so entspricht es korrekter Notation, ist korrekt, entspricht üblicherweise verwendeten Formeln und im übrigen - was hier aber am allerwenigsten relevant ist - deinem Abschnitt oben, mit dem du es dir nochmal selbst erklärt hast. Daß du dort wieder i und j verwechselst - wie vorher auch und beinahe durchgängig, ist auch eher belanglos, aber typisch. Also nochmal: Bitte lesen, dann motzen! --Karl24042017 (Diskussion) 21:04, 7. Dez. 2017 (CET)Beantworten

Ich denke du hast dich hier total in etwas verrannt, kann jedem mal passieren, kein Problem. Rechne einfach in Ruhe mein Zahlenbeispiel oben durch und alles wird wieder gut. Nochmal genauer erklärt: Wenn ist, dann ist . Wenn ist, dann ist , also genau dieselbe Zahl wie . Welchen Buchstaben man als Index verwendet, spielt gar keine Rolle. -- HilberTraum (d, m) 21:16, 7. Dez. 2017 (CET)Beantworten

Komm einfach von deinem hohen Roß herunter und ließ das folgende, was ich während des Bearbeitungskonflikts schrieb: P.S.: Damit du es aber verstehst und in der Hoffnung, mir damit nicht nur noch weitere Arbeit gemacht zu haben (das ist jetzt schon viel mehr als ich es mir angesichts wichtigerer Vorbereitungsarbeit bspw. für meine nächst Statistik-Vorlesung leisten kann - andererseits schauen auch meine Studenten öfters in die WP und sollen dort nichts falsches finden), sondern die zum Verständnis zu verhelfen:

Lies die Legende, dann siehst du deinen Fehler: "Nach „deiner“ Formel würde rauskommen," schreibst du. Eben nicht, weil und eben nicht für die beiden ersten Werte der Urliste, also jeweils 6 stehen, sondern für den ersten mehrfach auftretenden und zur Ergebnismenge gehörenden Wert 6 bzw. 8. Also, für dich ausführlich:

bei der Summierung nach der Formel
bei der Summierung nach "meiner" Formel.

Und, ja, bedeutet einmal 6, einmal 8. Das ist aber kein Problem, weil nirgendwo eine Gleichsetzung dieser beiden Werte stattfindet. In der Summierung ist er nur in dem Moment gültig, wenn er "dran" ist. Nach Abschluß der Summierung "erlischt" diese Variable und wird frei für die nächste Summierung, um es "it-lerisch" zu formulieren.

Mathematisch formuliert: Das Summenzeichen definiert nicht Variablen , sondern es gibt eine Additionsvorschrift, nach der der Reihe nach Werte, die eine Indexmenge folgen, zu verwenden sind. Dies nach der jeweiligen Vorschrift, welche Menge als Indexmenge verwendet wird - diese ist in der Legende zu benennen, was ich tat. --Karl24042017 (Diskussion) 21:37, 7. Dez. 2017 (CET)Beantworten

Zustimmung, ich denke auch, du solltest besser an deiner Statistik-Vorlesung arbeiten als hier zu diskutieren. -- HilberTraum (d, m) 21:45, 7. Dez. 2017 (CET)Beantworten
Ok, ich denke, nach dieser Unverschämtheit brauche ich mich mit dir hier nicht mehr zu befassen. Mir ist mittlerweile auch aufgefallen, daß du mich (und damit auch die Mathematik) sehr wohl richtig verstanden hast. Du beziehst nämlich den Index bei der Häufigkeit, also in völlig korrekt auf die Ergebnismenge und damit auf . Was du hier abziehst, ist also nur eine relativ unverfrorene Mischung aus Dummstellpolitik und Rechthaberei. Daß du dir damit u.a. ein Armutszeugnis ausstellst - du gibst dich ja hier u.a. als Spezialist in lin. Algebra und da muß man ja auch z.B. bei Matrizen mit unterschiedlichen Indizes arbeiten - ist insoweit eher dein Problem. Jedenfalls: Sowas muß ich mir nicht geben. Insoweit: Was dich betrifft, aber nicht die Diskussion als ganze, hier EOD. --Karl24042017 (Diskussion) 21:55, 7. Dez. 2017 (CET)Beantworten
Es ist wichtig, Variable in Computerprogrammen von Variablen in mathematischen Formeln zu unterscheiden. In der Informatik können einer Variablen immer wieder neue Werte zugewiesen werden. Eine Variable in der Mathematik behält dagegen ihren Wert. Wenn man zum Beispiel ein Iterationsverfahren programmiert, kann man die Zeile x = f(x) schreiben. Wenn man das aber als mathematisches Verfahren formuliert, muss man es z. B. als schreiben, um die unterschiedlichen Werte der Iterationsfolge zu benennen. -- HilberTraum (d, m) 22:33, 7. Dez. 2017 (CET)Beantworten

Zum Stand[Quelltext bearbeiten]

Für die Allgemeinheit: Der Streit reduziert sich momentan wohl auf zwei Punkte:

  • Relevanz dieser zwei zusätzlichen kleinen "Förmelchen" angesichts der Tatsache, daß der "Hauptartikel" das in extenso behandelt und nicht jedem das zugemutet werden muß, der nur die richtige Formel sucht. Diese ist demnach gegeben.
  • Rechentechnische Winkeladvokatenzüge, die ich hier nochmal für jeden verständlich widerlege:

Summenzeichen sind lediglich eine verkürzte Schreibweise, bei der allerdings sehr streng die Anweisungen zu befolgen sind, die durch die Nennung der Grenzen der Indexmenge und des Namens des Laufindexes definiert sind. Im Beispiel von Hilbertraum gilt:

Desweiteren gilt:

Beides ist äquivalent und selbstverständlich ist beides und darf daher gleichgesetzt werden. Der "Unterschied für das ungeübte Auge" besteht ausschließlich darin, daß beim 2. Term die segensreiche Erfindung der Multiplikation verwendet wurde. Bei Verwendung des Summenzeichens wird die erste Zeile zu , die zweite zu . Und da natürlich beides gleich ist damit auch die jeweils rechten Seiten der Terme gleich sind, ist auch richtig.

Ich hoffe, nach dieser Erklärung, bei der ich leider auf das 2. Schuljahr-Niveau zurückgreifen mußte (aber Vorsicht: Problem war die Beherrschung des Summenzeichens, was für manche schon "höhere Mathematik" ist... ;-) ), sollte es jetzt klar sein.

--Karl24042017 (Diskussion) 22:17, 7. Dez. 2017 (CET)Beantworten

3M

oder als Kompromiss:

(falls das überhaupt hier rein muss)
--DaizY (Diskussion) 23:40, 7. Dez. 2017 (CET)Beantworten

Den Kompromiss würde ich annehmen. Allerdings verstehe ich in der oberen Variante den zwischenzeitlichen Wechsel von nach und dann wieder zurück von nach und dann vor allem das Ungleich-Zeichen nicht, denn außen steht links wie rechts und aus und folgt selbstverständlich .

Es bleibt seltsam beschwerlich hier... --Karl24042017 (Diskussion) 00:06, 8. Dez. 2017 (CET)Beantworten

Da gilt , findet kein Wechsel von nach (wie Du oben schreibst), sondern von nach statt. Der Wechel erfolgt, um eben zu verdeutlichen, dass gilt. Wenn schon nicht falsch, so ist es doch äußerst verwirrend, in der selben Gleichung unterschiedlich definierte zu verwenden. Aber da Du das grüne akzeptieren würdest, hast Du das "Problem", das andere mit Deiner Gleichung haben, wohl verstanden. --DaizY (Diskussion) 09:22, 8. Dez. 2017 (CET)Beantworten

Es liegt hier ein wikipedia-typischer Fall unnötiger Verkomplizierung vor, der auf der unsinnigen Zielsetzung der WP beruht, eine "Enzyklopädie" zu erstellen, wobei das, was die WP bereits im positiven Sinne längst ist, nämlich eine praktische Hilfe auf hohem Niveau, systematisch ignoriert wird. Das Projekt wird so scheitern. Dieses gehört hier lediglich insofern hin, als es die Ursache für diese eigentlich vollkommen unnötige Diskussion ist. Die engl. Ausgabe löst sowas i.d.R. pragmatischer.

Konkret: Es handelt sich bei allen hier dargestellten Gleichungen nicht um Definitionen, sondern eher um etwas, was zwischen Definitionsgleichung und Berechnungs-Anleitung liegt. Und das ist auch richtig und gut so. Insoweit kann hier auch keine Variable "unterschiedlich definiert" sein. Aber wenn schon denn schon: Du schreibst oben, es handele sich um "unterschiedlich definierte ". Kannst du bitte benennen oder skizzieren - ohne Beweise oder dergl. - worin diese beiden unterschiedlichen Definitionen für auf der einen und bzw. ("xg" steht für dein hübsches oliv-grünes Teilchen) auf der anderen Seite bestehen? --Karl24042017 (Diskussion) 11:18, 8. Dez. 2017 (CET)Beantworten

bezeichnet die Ausprägung jedes einzelnen Merkmalträgers. bzw. bezeichnet jede vorkommenende Ausprägung. (Bsp.: Einmal betrachte ich das Geschlecht jedes einzelnen Menschen und einmal betrachte ich, welche Geschlechter überhaupt vorkommen.)--DaizY (Diskussion) 13:26, 8. Dez. 2017 (CET)Beantworten
Eben, so isses. Solange es um Definitionen geht. Und dieser Unterschied ist wichtig, keine Frage. Wenn es um die Berechnung geht, spielt dies insofern eine Rolle, daß geprüft wurde (oder davon auszugehen ist, z.B. wenn der Befragte bei einer Online-Umfrage in der betr. Combobox gar nichts anderes zur Auswahl hatte), daß , also keine seiner Ausprägungen in der betr. Stichprobe nicht Element von A = Ergebnisraum (der vor der Befragung/Erhebung festgelegt wird) ist. Ist dies gewährleistet, ist der Rest auschließlich Rechentechnik und die Summenzeichen fungieren auch nicht mehr dazu eine Definition zu ermöglichen, sondern die korrekte Berechnung zu ermöglichen. Hierbei ist davon auszugehen, daß entsprechende Listen - Urlisten oder bereits aggregierte Listen mit rel. oder abs. Häufigkeiten vorliegen, die die betr. Indizierungen exakt gleich vornehmen, wie es für die Summenzeichen festgelegt ist, indem also entweder über die Merkmalsträger von 1 bis n läuft, oder indem über die möglichen Ausprägungen 1 bis m (oder k) läuft.
Wiederholt sich nun eine Ausprägung, z.B. diejenige, die in der Urliste die Nr. ist (geordnete Liste wird vorausgesetzt), indem , sind diese Werte immer noch . Insofern wäre es die sauberste Lösung, für die Summierung über die Elemente des Ergebnisraumes die zu verwenden. In diesem Falle würde also mit der geordneten Urliste gelten:
Dieser Sachverhalt geht in absolut korrekter, zuverlässiger und gleichzeitig wesentlich übersichtlicherer Weise aus den betr. Listen hervor. Zentrales Element, um diesen Sachverhalt durchgängig in allen Berechnungen zu erhalten, ist nicht die Wahl der Variablennamen oder , um den Bezug zur Urliste bzw. zum Ergebnisraum herzustellen, sondern der saubere Umgang mit dem Index. Als abschreckendes Beispiel kann hier das von Hilbertraum gelten, der einmal bei den Häufigkeiten über () laufen läßt und dann bei den Ausprägungen über (). Dieses Chaos, das er bewußt angerichtet hat, um mich zu widerlegen, kann er dann auch gleich selbst verantworten.
Der vernünftigste kompromiß ist daher m.E: die folgende Formulierung:


Es ist also

nach Aggregation und entsprechend Vorliegen der Häufigkeiten kann

verwendet werden.

(Worin n die Größe der Stichprobe, i den Index über alle Merkmalsträger, j den Index über die Menge der möglichen Merkmalsausprägungen (Ergebnisraum) mit der Mächtigkeit m und F die absolute Häufigkeit bezeichnen).

Von dem leidigen Gleichheitszeichen sollte man ganz wegkommen.
Wenn niemand widerspricht, würde ich das dann heute abend gegen 20.00h so einpflegen. --Karl24042017 (Diskussion) 14:25, 8. Dez. 2017 (CET)Beantworten
In der Form finde ich es ok. Die Frage war aber wohl auch, ob es überhaupt hier eingefügt werden soll. Bitte warte dazu doch weitere Meinungen ab. Eine solche Fristsetzung ist nicht üblich. --DaizY (Diskussion) 19:15, 8. Dez. 2017 (CET)Beantworten
In der Form ist es meiner Meinung nach ok aber nicht unbedingt nötig, da es genauso schon im Zielartikel dargestellt wird. Grüße.--JonskiC (Diskussion) 19:51, 8. Dez. 2017 (CET)Beantworten
Genau das ist falsch. Die Formel, die sich auf die einzelnen Elemente bezieht, ist in der Praxis unzweckmäßig - im Grunde ist sie nur von Nutzen, wenn sie der Herleitung der anderen Formel dient (diese Schwäche hat auch dein "großer Artikel"). Nun könnte man sagen, dann lassen wir doch die weg. Aber auch das geht nicht, denn wenn jemand nicht weiß, daß er einfach die gleichen Ausprägungen "durch Multiplikation addieren" kann, ist diese Formel besser als gar keine. Insoweit haben wir die typische Situation, die zu einer kurzen Erwähnung der wichtigsten Dinge aus einem Hauptartikel führt, mit dem Ziel, daß nicht notwendigerweise dort hin navigiert werden muß, wenn es z.B. nur darum geht, für einen "kleinen Spickzettel" die richtigen Formeln zusammenzuschreiben. Insoweit kann dein Argument keine Gültigkeit beanspruchen.
@Daysy: Mein Beitrag oben hatte nichts mit "Fristsetzung" zu tun, was soll der Blödsinn? Er diente vielmehr dazu, ein erneutes Aufflammen des Editwars zu verhindern, indem ich meine Absichten offenlege und andere dann sagen können: "Warte bitte", was du ja dann auch getan hast. Vermeide bitte künftig solche Reizwörter, das ist der Sache nicht dienlich. --Karl24042017 (Diskussion) 22:08, 8. Dez. 2017 (CET)Beantworten
@Karl24...: "Wenn niemand widerspricht, würde ich das dann heute abend gegen 20.00h so einpflegen." Das habe ich nicht nur als Frist, sondern sogar als eine sehr kurze verstanden. Du kannst ja nicht davon ausgehen, dass das zwischen 14.25 Uhr (Zeitpunkt Deines Posts) und 20.00 Uhr überhaupt jemand liest. Ich wollte Dir aber keine unlauteren Absichten unterstellen. Sorry, wenn das so angekommen ist. --DaizY (Diskussion) 09:29, 9. Dez. 2017 (CET)Beantworten
Passt schon. Herzlichen Dank auch nochmal für deine Beteiligung "via 3M". Ich warte für gewöhnlich deutlich länger, wollte hier nur angesichts meiner knappen Zeitressourcen die Sache schnell vom Tisch bekommen. Auf der anderen Seite hat sich bspw. JonskiC trotz Zusage seinerseits nicht an der Diskussion beteiligt (obiges ist nicht als Diskussionsbeitrag zu werten, er wiederholt nur seinen Standpunkt, argumentiert aber nicht). Man hat ein wenig das Gefühl, da sitzt einer im Gebüsch und wartet darauf, das andere Fehler machen. In solchen Fällen gilt bei allem Verständnis dann auch die alte Regel: "Ver... kann ich mich alleine!"--Karl24042017 (Diskussion) 12:13, 9. Dez. 2017 (CET) Beantworten
Ich denke, dass das hier eher nicht sinnvoll ist. Es werden zu viele Fachbegriffe (Merkmalsträger, Merkmalausprägungen, Ergebnisraum, absolute Häufigkeit) eingeführt, die sicher viele Leser nicht kennen. Dafür ist die Formel mMn nicht wichtig genug. -- HilberTraum (d, m) 20:18, 8. Dez. 2017 (CET)Beantworten

Gibt es denn jetzt da noch weitere Beiträge, oder betrachten alle Beteiligten ihre Statements als hinreichend? --Karl24042017 (Diskussion) 12:44, 9. Dez. 2017 (CET)Beantworten


5 Punkte Analyse[Quelltext bearbeiten]

https://en.wikipedia.org/wiki/Five-number_summary beschreibt die Analyse von Daten mittels 5 Lageparametern - sollte diese Art von Analyse nicht auch Erwähnung finden?