Diskussion:Empirische Verteilungsfunktion

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 9 Monaten von Biggerj1 in Abschnitt Notation alternative Beschreibung
Zur Navigation springen Zur Suche springen

Reicht hier nicht eine der beiden deskriptiven Varianten? Ist erstere nicht sogar falsch?

Unsignierter Beitrag. Aus heutiger Sicht nicht mehr nachvollziehbar.
Dieser Abschnitt kann archiviert werden. --Sigma^2 (Diskussion) 11:22, 22. Jul. 2023 (CEST)

Höhere Dimensionen[Quelltext bearbeiten]

Gibt es auch eine gängige Definition für höhere Dimensionen?134.106.106.34 16:00, 30. Jan. 2013 (CET)Beantworten

Wunderbarer Hinweis. An dieser Stelle könnte man auch die empirische Copula https://books.google.de/books?id=z24EyHLCgwcC&pg=PA85 einführen. --biggerj1 (Diskussion) 19:52, 22. Jul. 2023 (CEST)Beantworten
Im Artikel Copula gibt es den Satz: Die empirische Copula wird aus den Daten geschätzt. Es gibt dort keine Definition, was eine empirische Copula ist. Es gibt keinen Link. Es gibt keinen WP-Artikel Empirische Copula. Der Satz ist auch falsch, weil eine empirische Copula nicht geschätzt, sondern ganz einfach aus den Datenpunkten berechnet wird. Was der Autor wohl meint, ist dass eine berechnete empirische Copula als nichtparametrische Schätzung einer theoretischen Copula interpretiert werden kann. Da gehört es wohl zunächst erweitert. --Sigma^2 (Diskussion) 11:57, 31. Jul. 2023 (CEST)Beantworten
Eine mehrdimensionale empirische Verteilung kann man analog zum eindimensionalen Fall definieren: Für gegebene Datenpunkte ist die -dimensionale empirische Verteilung
.
Formal ist ein Wahrscheinlichkeitsmaß auf , wobei die Potenzmenge bezeichnet. Es gilt . Die zugehörige empirische Verteilungsfunktion ist dann wie in multivariate Verteilungsfunktion definiert. Benötigen würde man so etwas z. B. für eine nichtparametrische multivariate Statistik oder für eine Theorie nichtparametrischer Copulas. Beides scheint nicht so entwickelt zu sein, so dass es nicht so einfach ist, einen Beleg anzugeben. --Sigma^2 (Diskussion) 11:43, 31. Jul. 2023 (CEST)Beantworten

Ist der obere Graph für diskrete x_i? Ansonsten macht er für mich keinen Sinn. Sollte die Treppenfunktion nicht Stufen mit gleicher Stufenhöhe und variabler Länge (je nach x_i) haben? Wie in der englischen Variante.

Die beobachteten Werte sind immer diskret. Alle Stufenhöhen sind gleich (mit der Höhe ), falls alle beobachteten Werte voneinander verschieden sind.
Dieser Abschnitt kann archiviert werden. --Sigma^2 (Diskussion) 20:07, 25. Jul. 2023 (CEST)

Konvergenzeigenschaften[Quelltext bearbeiten]

Zuvor bezeichnete ein nichtstochastisches Objekt der deskriptiven Statistik. Dann geht es ohne Erklärung, Übergang und Notationsklärung zur Konvergenz für ein stochastisches Objekt.--Sigma^2 (Diskussion) 11:16, 22. Jul. 2023 (CEST)Beantworten

Der Artikel ist in dieser Beziehung grundlegend überarbeitet.--Sigma^2 (Diskussion) 20:08, 25. Jul. 2023 (CEST)Beantworten
vielen Lieben Dank für die Klarheit, die Du mit deinen Ausführungen in den Artikel gebracht hast!!! biggerj1 (Diskussion) 20:50, 25. Jul. 2023 (CEST)Beantworten
auf der englischen Seite stehen noch einige Infos zur Konvergenzgeschwindigkeit (die mir auch neu sind). Das erste (und wohl einfachste) Ergebnis scheint mir sehr fundamental. Magst du das noch mit aufnehmen? biggerj1 (Diskussion) 20:59, 25. Jul. 2023 (CEST)Beantworten
Ist überarbeitet und erweitert. Leider hat sich dabei die nächste Baustelle aufgetan: grober Fehler in Kolmogorow-Smirnow-Test --Sigma^2 (Diskussion) 11:30, 26. Jul. 2023 (CEST)Beantworten
ich kann mich nur Bedanken! --biggerj1 (Diskussion) 14:32, 26. Jul. 2023 (CEST)Beantworten

Darstellung mithilfe der Dirac-Delta Verteilung bei kontinuierlichen Zufallsvariablen[Quelltext bearbeiten]

Siehe z.B. https://stats.stackexchange.com/questions/245730/empirical-probability-and-dirac-distribution . Wollen wir das hinzufügen? --biggerj1 (Diskussion) 07:58, 31. Jul. 2023 (CEST)Beantworten

Da müsste man sehr vorsichtig sein. Der Begriff "Distribution" ist einerseits die englische Übersetzung von Verteilung, z. B. im Sinn einer Wahrscheinlichkeitsverteilung. In der Funktionalanalysis und Physik dagegen sind Distributionen spezielle verallgemeinerte Funktionen. Das sind unterschiedliche Konzepte.
Unglücklicherweise wurde von einigen Mathematikern die Einpunktverteilung der Wahrscheinlichkeitstheorie als Dirac-Verteilung (analog zum Dirac-Maß der Maßtheorie) bezeichnet, was als Hauptbezeichnung in der WP verwendet wurde. Eine (Dirac-)Delta-Distribution im Sinn der Distributionentheorie ist nicht dasselbe, wie die Dirac-Verteilung der Wahrscheinlichkeitstheorie, auch nicht dasselbe wie die Wahrscheinlichkeitsfunktion einer Dirac-Verteilung. Im Deutschen gilt also
.
Im Englischen ist die Verwechselungsmöglichkeit der Konzepte noch größer, weil beide Objekt distributions heißen. Die Diskussion im verlinkten Artikel zeigt, dass einige Teilnehmer beide Konzepte kennen, andere nur eins der Konzepte.
Wie stellts Du Dir die Definition oder die Verlinkung der Funktion vor, damit die Darstellung in der ersten Gleichung sinnvoll ist? Es müsste dann ja
gelten.
Nach meiner sehr (!) bescheidenen Kenntnis von Distributionen funktioniert dies noch nicht einmal mit einer Delta-Distribution, da diese zwar differenzierbar, aber nicht integrierbar ist (Irrtum vorbehalten). Vielleich kann sich dazu noch ein Physiker oder Mathematiker äußern.
Gibt es den eine Quelle für diese Schreibweise einer empirischen Verteilungsfunktion?
--Sigma^2 (Diskussion) 11:03, 31. Jul. 2023 (CEST)Beantworten
Hallo Sigma^2, genau die Dirac-Delta Distribution ist keine eigentliche (statistische) Verteilung, sondern eine Distribution im Sinne der Distributionstheorie. Man kann mit der Dirac-Delta Distribution eine geschätzte Wahrscheinlichkeitsdichte mit endlich vielen Stützstellen (den Stichproben) konstruieren und daraus die empirische Verteilungsfunktion durch Integration definieren (wie oben).
Die Definition der Delta-Distribution ist (vgl. https://de.wikipedia.org/wiki/Delta-Distribution#Definition_%C3%BCber_Dirac-Ma%C3%9F) diese Relation für ein bestimmtes Integral der Delta-Distribution findet sich auch in der Formelsammlung von Bronstein). En:wiki hat hier auch eine Ausführung zur Verwendung bei Wahrscheinlichkeitsdichten (aus der die Verteilungsfunktion direkt folgt): https://en.wikipedia.org/wiki/Dirac_delta_function#Probability_theory Diese Verwendung für Wahrscheinlichkeitsdichten findet sich auch in Deep Learning S.65 (Ian Goodfellow and Yoshua Bengio and Aaron Courville, available online). Natürlich ist diese Schreibweise äquivalent zur Darstellung der über Indikatorfunktionen. Mir ist die Schreibweise mit der Dirac-Delta Distribution nur angenehmer. Die Distribution ist indirekt über ihre Wirkung im Integral definiert. LG --biggerj1 (Diskussion) 11:56, 31. Jul. 2023 (CEST)Beantworten
Meine drittletzter Satz war Unsinn, ich hatte es schon befürchtet, weil ich mich zulange nicht mit Distributionen beschäftigt habe. Ich hatte mich schon doppelt abgesichert. Wenn man keine Ahnung hat, sollte man lesen oder fragen, aber nicht vermuten.
Ich denke, ich habe es jetzt verstanden. Ein Trick ist, dass ich als definierte Eigenschaft eines neuen mathematischen Objektes sehe. Dann ist die Darstellung klar, auch wenn ich noch zwei Zwischenschritte
benötige, um zu sehen, dass es die empirische Verteilungsfunktion ist. Ich glaube gerne, dass das für Physiker ein Standardinterpretation ist und auch, dass die Informatiker es von dort übernehmen.
In der englischen Wikipedia heißt es (ohne Beleg) "In probability theory and statistics, the Dirac delta function is often used [...]". Das bezweifele ich sehr stark, da ich viele Standardwerke zur Wahrscheinlichkeitstheorie und Statistik kenne.
Die dort angegebene Funktion
ist die gewöhnliche Wahrscheinlichkeitsfunktion einer diskreten Wahrscheinlichkeitsverteilung, falls man
definiert. Ich kann mir aber sehr gut vorstellen, dass ein Physiker, wenn er auf die Formel für schaut, sofort Distributionen sieht, und es auch bevorzugt, mit Integralen anstelle von Summen zu arbeiten.
Ich sehe, dass man aus ein komplizierteres mathematisches Objekt machen kann, indem man als Distribution interpretiert und dennoch zur üblichen Verteilungsfunktion kommt, also kann es als alternative Schreibweise in den Artikel. --Sigma^2 (Diskussion) 15:18, 31. Jul. 2023 (CEST)Beantworten
Hallo Sigma^2. Besten Dank, dass du die Alternative Notation eingearbeitet hast! Super!:) PS: kleine Spitzfindigkeit zu deinem Kommentar eins drüber: , falls x=0 stimmt nicht ganz. Es benötigt noch ein Integral über die Delta-Distribution und dieses Integral ist 1, falls über x hinweg integriert wird oder 0 falls nicht (siehe mein Kommentar davor). Die Dirac-Delta Distribution stellt ohne Integral eine Wahrscheinlichkeitsdichte dar. Zur Beschreibung einer (diskreten) Wahrscheinlichkeitsmassenfunktion [1] würde ich besser das Kronecker-Delta benutzen, dann ergäbe sich für eine Realisierung der empirischen Verteilungsfunktion der diskreten Zufallsvariable:
(das ist praktisch sehr nahe an der Notation mit Indikatorfunktion). Falls man für die diskrete Zufallsvariable auch eine Wahrscheinlichkeitsdichten zur Beschreibung benutzen wöllte (nicht 100% sinnig, aber möglich), würde es wohl so aussehen:
und sich für diskrete Zufallsvariable auf die Darstellung mit dem Kronecker Delta oben reduzieren lassen, indem das Integrale in die Summe gezogen wird und die Integrale dann ausgewertet werden. biggerj1 (Diskussion) 20:26, 31. Jul. 2023 (CEST)Beantworten
Ich habe den Archivierungsbaustein vorläufig entfernt, weil ich noch etwa kommentieren möchte.
(a) Eine Wahrscheinlichkeitsfunktion ist der deutsche Begriff für probability mass function. Wenn man die empirische Verteilung der beobachteten Werte als Wahrscheinlichkeitsverteilung interpretiert, dann wird die relative Häufigkeitsverteilung der beobachteten Werte zur Wahrscheinlichkeitsfunktion einer diskreten Wahrscheinlichkeitsverteilung.
(b) Wenn ich als gewöhnliche Funktion (aber nicht als distribution) genau so definiere, wie ich es aufgeschrieben habe, dann ist aus der en. WP exakt die Wahrscheinlichkeitsfunktion im Sinn der Wahrscheinlichkeitstheorie. Nur das das wollte ich sagen.
(c) Zur engl. WP: "In probability theory and statistics, the Dirac delta function is often used [...]"
(c1) Das "often" ist frei erfunden. Wenn überhaupt, dann ist die Verwendung selten und in speziellen Anwendungsbereichen (Physik, Informationstheorie), nicht aber in probability theory (!) oder Statistik.
(c2) Der Satz ist wohl auch sonst erfunden. Nach eigener Literaturkenntnis und zusätzlicher Besprechung mit einem sehr belesenen Fachkollegen habe ich Zweifel, ob es überhaupt irgendeine (!) Standardmonographie zur Wahrscheinlichkeitstheorie oder irgendeine (!) Standardmonographie zur Statistik mit dieser Interpretation einer relativen Häufigkeitsverteilung oder einer diskreten Wahrscheinlichkeitsverteilung gibt. Die Uminterpretation einer Dirac-Verteilung (Einpunktverteilung im Sinn der Maß- und Wahrscheinlichkeitstheorie und der Statistik) als Dirac-Delta-Distribution findet ich noch nicht einmal in der zurzeit wohl am weitesten fortgeschrittenen Monographie zur Wahrscheinlichkeitstheorie, nämlich in: Olav Kallenberg: Foundations of Modern Probability (= Probability Theory and Stochastic Modelling. Band 99). 3. Auflage. Springer, Cham 2021, ISBN 978-3-03061870-4, doi:10.1007/978-3-030-61871-1. Wie nicht ganz selten, kann sich auch die englische Wikipedia als unzuverlässige Quelle herausstellen.
(c3) Zwei Zeilen später heißt es "the probability density function f(x) of a discrete distribution". Das ist eine unübliche Terminologie. Eine diskrete Verteilung hat keine "probability density function", sondern eine "probability mass function" und hat höchstens eine Zähldichte bzgl. des Zählmaßes.
(d) Ob es überhaupt eine logisch konsistente Verbindung von Lebesgue-Maßtheorie mit der Distributionentheorie gibt, weiß ich nicht. Wozu man die Distributionentheorie in der Statistik oder Wahrscheinlichkeitstheorie brauchen sollte, weiß ich auch nicht.
Vielleicht kann hierzu noch jemand etwas beitragen.
--Sigma^2 (Diskussion) 00:53, 1. Aug. 2023 (CEST)Beantworten
Alles klar, danke für deine Einschätzung!
a) Ich denke du hast mit der Übersetzung ins Deutsche recht (auch wenn ich persönlich das englische Wort treffender finde. Das ist hier aber nicht relevant :) )
d) soweit ich es sehe, ist das nur eine geschickte Notation ohne, dass speziell ein größerer Nutzen durch Verbindung zur Distributionentheorie entsteht, welcher Tiefere Einblicke liefert. Das ist aber auch meine persönliche Meinung und somit nicht relevant hier :)

LG biggerj1 (Diskussion) 07:38, 1. Aug. 2023 (CEST)Beantworten

Notation alternative Beschreibung[Quelltext bearbeiten]

Hallo, mir sagt die folgende Notation nicht viel

Warum braucht man hier keine Indikatorfunktion? Sagen wir x_1 =5 und x_2=10, wie kann dann 1/2*(5+10) normiert sein? Ich denke ich verstehe die Notation nicht. Sigma^2 kannst du sie bitte erklären? :) LG biggerj1 (Diskussion) 20:30, 31. Jul. 2023 (CEST)Beantworten

Vielen Dank. Indikatorfunktion vergessen.--Sigma^2 (Diskussion) 00:54, 1. Aug. 2023 (CEST)Beantworten
Ich danke dir! :) biggerj1 (Diskussion) 11:24, 1. Aug. 2023 (CEST)Beantworten

Ist Korrigiert.--Sigma^2 (Diskussion) 01:13, 1. Aug. 2023 (CEST)Beantworten

Dieser Abschnitt kann archiviert werden. --Sigma^2 (Diskussion) 01:13, 1. Aug. 2023 (CEST)