Diskussion:Hauptkomponentenanalyse

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Auf dieser Seite werden Abschnitte ab Überschriftenebene 2 automatisch archiviert, die seit 45 Tagen mit dem Baustein {{Erledigt|1=--~~~~}} versehen sind. Das aktuelle Archiv befindet sich unter Archiv.

Beispiel Kreuzer unklar[Quelltext bearbeiten]

Ich wollte das Beispiel nachrechnen. Dabei fiel mir auf, daß die Angabe der Ausgangsdaten unklar ist. Sind das Rohdaten? Wie erklären sich dann die negativen Werte (Meter)? Sind das zentriert normierte Daten, sind das Vektoren, Hauptkomponenten? Die Darstellung ist nicht nachvollziehbar und daher so nicht akzeptabel. R.sponsel 15:33, 5. Apr 2006 (CEST)

Welche negativen Werte meinst du insbesondere? Die Daten selber sind nicht angegeben. --Philipendula 09:25, 6. Apr 2006 (CEST)

Ich meine diese Daten aus dem Bild:

  • 1 2 3 4 5 6 7
  • Wasserverdrängung BRT 0.948 -0.094 -0.129 0.228 0.040 0.036 -0.136
  • Länge m 0.906 0.302 -0.064 -0.209 0.128 -0.144 -0.007
  • Breite m 0.977 -0.128 -0.031 0.032 0.103 -0.017 -0.014
  • Tiefgang m 0.934 -0.276 -0.061 0.014 0.074 0.129 0.154
  • 1000 ps 0.552 0.779 -0.196 -0.133 -0.099 0.143 -0.038
  • Knoten sm/h -0.520 0.798 -0.157 0.222 0.109 -0.038 0.071
  • Aktionsradius 100 sm 0.398 0.311 0.862 0.038 0.008 0.022 -0.002
  • Mannschaftsstärke 0.955 0.063 -0.052 0.108 -0.226 -0.121 0.067

Diese Daten müßten mindestens richtig gekennzeichnet werden. R.sponsel 15:56, 6. Apr 2006 (CEST)

Es handelt sich um die Ladungsmatrix. Hab den Text dazu noch ergänzt. --Philipendula 18:41, 6. Apr 2006 (CEST)

ok, die Probe c = f * f' führt zu keiner genauen Korrelationsmatrix, was bei einer Hauptkomponentenanalyse "eigentlich" nicht sein darf:

  • c=f*f'
  • c =
  • Columns 1 through 7
  • 0.9976 0.7920 0.9549 0.9091 0.4514 -0.5038 0.2469
  • 0.7920 0.9970 0.8575 0.7536 0.7427 -0.2475 0.3893
  • 0.9549 0.8575 0.9840 0.9535 0.4293 -0.5873 0.3240
  • 0.9091 0.7536 0.9535 0.9983 0.3159 -0.6791 0.2370
  • 0.4514 0.7427 0.4293 0.3159 0.9993 0.3169 0.2904
  • -0.5038 -0.2475 -0.5873 -0.6791 0.3169 0.9995 -0.0858
  • 0.2469 0.3893 0.3240 0.2370 0.2904 -0.0858 1.0002
  • 0.9082 0.8530 0.9079 0.8573 0.5746 -0.4295 0.3544
  • Column 8
  • 0.9082
  • 0.8530
  • 0.9079
  • 0.8573
  • 0.5746
  • -0.4295
  • 0.3544
  • 1.0006

Nachdem die Hauptdiagonalelemente doch recht deutlich von 1 abweichen, stellt sich die Frage: Wo wurde "gepfuscht"?

Offen bleiben zudem: Von welchen Rohwerten (zentriert, normiert) bzw. welcher Korrelationsmatrix wurden diese Werte gewonnen? Problematisch und unerklärt bleibt auch die Deutung der Faktoren. R.sponsel 20:43, 6. Apr 2006 (CEST)

1. Ui ui, da hat SPSS gepfuscht. Na, wenn ich die erwische ... Ich hätte bei der Ladungsmatrix vielleicht lieber alle 8 statt nur 7 Komponenten angeben lassen sollen. Aber die Werte bleiben gleich.

2. Bei den Rohdaten bin ich etwas zurückhaltend. Ich hatte schon mal zwei Dateien mit Rohdaten eingestellt, weil ich das für guten Service hielt. Ich wollte es Usern ermöglichen, Beispiele von mir nachzuvollziehen. Leider kamen dann ein paar Jugendliche dahergerannt und setzten die Daten auf die Löschliste, mit dem Argument, WP sei keine Datenbank und überhaupt seien die Daten Mist usw. Du wirst vielleicht nachvollziehen können, dass meine Neigung, weiterhin Daten vorzuhalten, auf Null gesunken ist.

3. Die Interpretation der Komponenten bleibt jedem selber überlassen, häufig kann man sie auch nicht vernünftig interpretieren.

Gruß --Philipendula 08:26, 7. Apr 2006 (CEST)

1. Nein, die Werte bleiben nicht gleich. Und da hat sicher auch nicht SPSS gepfuscht, sondern Du. Was da steht ist falsch, schlecht dokumentiert und schlecht bis gar nicht erklärt.

2. Hm, das riecht mir sehr nach einer Ausrede. Man kann die zugrundeliegenden Daten ja in einer anderen Abteilungen niederlegen oder auf die Diskussionsliste stellen.

3. Das ist erstens falsch und zweitens, wenn es stimmen würde, warum schreibst Du das denn nicht hin? Kann es sein, daß Du die Sache gar nicht richtig verstehst?

Also präsentiere die Rohdaten wenigstens hier. Dann laesst sich die Pfuscherei immerhin aufklären und beseitigen. So kann es nicht stehen bleiben.

dito R.sponsel 17:00, 7. Apr 2006 (CEST)

Ein wenig rüpelhaft finde ich deine Einlassungen ja schon. Also ich denke, dass eher du etwas nicht verstehst. Ich werde mir jedenfalls von dir nicht vorschreiben lassen, ob ich die Daten bereit stelle oder nicht. --Philipendula 23:25, 7. Apr 2006 (CEST)

Das ist die richtige Einstellung: pfuschen und vertuschen. R.sponsel 19:50, 8. Apr 2006 (CEST)

... renn ruhig in dein Unglück. *g*--Philipendula 20:46, 8. Apr 2006 (CEST)


Ich habe mal oben die Diskussionbeiträge von R.sponsel nach unten zusammengefasst, sonst denkt noch jemand, das ist von mir.

Ich hab in SPSS nachgerechnet:

Run MATRIX procedure:
M3
Columns 1 - 5
  5,190187903    ,000000001   -,000000001    ,000000001    ,000000001
   ,000000001   1,537516954   -,000000001    ,000000000    ,000000000
  -,000000001   -,000000001    ,834573256    ,000000000    ,000000000
   ,000000001    ,000000000    ,000000000    ,177209427    ,000000000
   ,000000001    ,000000000    ,000000000    ,000000000    ,107055463
   ,000000000    ,000000000    ,000000000    ,000000000    ,000000000
   ,000000000    ,000000000    ,000000000    ,000000000    ,000000000
   ,000000001    ,000000000    ,000000000    ,000000000    ,000000000
Columns 6 - 8
   ,000000000    ,000000000    ,000000001
   ,000000000    ,000000000    ,000000000
   ,000000000    ,000000000    ,000000000
   ,000000000    ,000000000    ,000000000
   ,000000000    ,000000000    ,000000000
   ,076125380    ,000000000    ,000000000
   ,000000000    ,053419932    ,000000000
   ,000000000    ,000000000    ,023911687
------ END MATRIX -----


Run MATRIX procedure:
M3
Columns 1 - 5
  1,000000000    ,794430342    ,947131359    ,910928956    ,450056336
   ,794430342   1,000000001    ,851033833    ,755987616    ,741758011
   ,947131359    ,851033833   1,000000000    ,948442057    ,431107553
   ,910928956    ,755987616    ,948442057    ,999999999    ,315419919
   ,450056336    ,741758011    ,431107553    ,315419919   1,000000001
  -,503452962   -,247927671   -,586694592   -,679187171    ,317600535
   ,246349567    ,389362139    ,322839030    ,237098856    ,290061241
   ,907325721    ,852877693    ,907542699    ,856973964    ,574493389
Columns 6 - 8
  -,503452962    ,246349567    ,907325721
  -,247927671    ,389362139    ,852877693
  -,586694592    ,322839030    ,907542699
  -,679187171    ,237098856    ,856973964
   ,317600535    ,290061241    ,574493389
  1,000000000   -,085991072   -,429282355
  -,085991072    ,999999999    ,354036071
  -,429282355    ,354036071   1,000000001
------ END MATRIX -----

f*f', wie du es bezeichnest, ergibt den unteren Block, also eine saubere Korrelationsmatrix, f'*f ergibt die orthogonale Matrix, wie im oberen Block. Du kann natürlich immer noch gern behaupten, dass ich pfusche, allerdings würde mich mal interessieren, was ich davon hätte. --Philipendula 16:11, 9. Apr 2006 (CEST)

Hab jetzt mal alle 8 Hauptkomponenten hochgeladen. --Philipendula 18:04, 9. Apr 2006 (CEST)

Ja, das ist immer noch Pfusch. Der Zusammenhang zwischen der Diagonalmatrix M3 (offenbar die Eigenwerte) und der rückgerechneten Korrelationsmatrix M3 - schon die gleichen Bezeichungen sind Pfusch - ist hier nicht ersichtlich, auch nicht der Zusammenhang zu den Faktoren. Auch die Rohwerte fehlen immer noch, die ganze Entwicklung ist immer noch nicht nachvollziehbar (dargestellt). R.sponsel 00:25, 11. Apr 2006 (CEST)

Naja, M3 war ja nur ein Platzhalter für die Matrix-Berechnungen in SPSS. So steht das ja nicht im Artikel. Ich denke, in WP sind lediglich ca. 30% der Matheartikel nachvollziehbar, und zu denen gehören "meine" Artikel zu einem allergrößten Teil. Und die Daten bleiben unter Verschluss. Basta. Übrigens: Wo beispielsweise i.a. echt gepfuscht wird, ist im Bereich Psychologie, weil da sehr oft in Fragebögen rangskalierte Daten verwendet werden, die dann mit Verfahren, die für metrisch skalierte Daten gemacht wurden, wie etwa der Hauptkomponentenanalyse, ausgewertet werden. --Philipendula 09:16, 11. Apr 2006 (CEST)
Ich weise noch darauf hin, dass Diskussionsbeiträge in der WP im Web gespiegelt werden. Wenn man unter R.Sponsel googelt, wird man möglicherweise noch ewig diese Diskussion finden. Vielleicht solltest du mit deinen haltlosen Pauschalanwürfen doch etwas vorsichtiger sein. Es haben schon viele Selbstdarsteller später allzu forsches Auftreten bereut. *sich entspannt zurücklehn* --Philipendula 09:31, 11. Apr 2006 (CEST)

Schön, damit ist dokumentiert, dass diese angebliche Hauptkompontenanalyse schlecht dokumentierter, nicht nachvollziehbarer 30%-Meister-Pfusch ist. R.sponsel 12:09, 11. Apr 2006 (CEST)

30%? --Philipendula 13:22, 11. Apr 2006 (CEST)

Normierung der Eigenvektoren in der Matrix Γ[Quelltext bearbeiten]

Es wird unter dem Punkt: Verfahren beschrieben, dass es sich bei der Hauptkomponentenanalyse im eigentlichen Sinne um eine Rotation der Merkmalsvektoren handelt, so dass die Korrelationen zwischen den einzelnen Parametern verschwinden. Somit muss Γ einer Rotationsmatrix (mit den typischen Eigenschaften wie Inverse(A) = Trans(A) sowie det(A)=1) entsprechen. Das tut sie aber im Beispiel mit den 3 Komponenten (Länge, Breite und Knoten) sowie im Beispiel mit den 8 Komponenten nicht. Die Werte wurden zeilen-Spalten-vertauscht. Aber auch dann erfüllt die "richtige" Rotationsmatrix nicht die oben genannten Bedingungen. Das Beispiel sollte überarbeitet werden. Gruß Alex 27.10.2005

Diskussionsseite von Karhunen-Loève-Transformation[Quelltext bearbeiten]

Die Seite gibts aber noch.

Ich habe im Artikel mal darauf hingewiesen, dass die gesuchte Matrix KLT zwar durchaus aus den Eigenvektoren der Kovarianzmatrix aufgebaut wird, aber nicht (wie man es intuitiv annehmen würde) als Spaltenvektoren betrachtet.

Wenn man sich den Artikel zur Hauptkomponentenanalyse anschaut, sieht man, dass zwar erstmal eine Matrix aus den Eigenvektoren als Spaltenvektoren aufgebaut wird - die gesuchte Abbildung in das "kovarianzfreie" (*) System aber mit dem Inversen dieser Matrix erfolgt. Und da sie orthogonal ist, ist das gleich der transponierten Matrix - eben aus den gleichen Vektoren aufgebaut, aber als Zeilenvektoren betrachtet. (sieht man besonders gut auf der englischen Seite en:Principal components analysis)

Unter diesem Aspekt ist das Beispiel im Artikel vielleicht etwas verwirrend. Dessen Eigenvektormatrix ist nämlich verwirrenderweise gerade eine symmetrische Matrix. Da ist es natürlich egal, ob man sie aus Zeilen- oder Spaltenvektoren aufbaut. Abgesehen davon: Eine symmetrische Rotationsmatrix kann doch eigentlich nur eine Rotation um 180° darstellen, oder? Kann eine solche Rotation überhaupt etwas an der Korrelation zwischen den Vektorkomponenten ändern? Bei einer 180°-Rotation ändern sich doch nur die Vorzeichen aller Komponenten - die Korrelationen werden dadurch nicht verändert, oder habe ich hier einen Denkfehler? Das müsste dann doch aber bedeuten, dass die Korrelation bereits minimal war. Dann hätten wir aber von Anfang an eine Diagonalmatrix als Kovarianzmatrix gehabt. Irgendwas passt da bei mir noch nicht. ;-}

(* im Artikel wird erwähnt, dass es ein "Verfahren zur Minimierung der Korrelation" ist. Aus dem Bauch heraus, würde ich annehmen, dass nach der Abbildung die Korrelation zwischen den Komponenten sogar komplett verschwunden ist - eben "kovarianzfrei". Kann das jemand bestätigen?

Meine Vermutung stützt sich vor allen Dingen auf die Diagonalmatrix D, die man mit D= Q^T A Q erhält, wenn A die Kovarianzmatrix und Q die Eigenvektormatrix ist. In en:Principal components analysis wird ja gezeigt, dass D dann die Kovarianzmatrix des neuen Systems ist, wenn ich das nicht falsch verstanden habe. Dann ist natürlich die Kovarianz überall 0 (Diagonalmatrix).

Wenn das stimmt, sollte man das vielleicht noch in den Artikel einbauen - also dass die Korrelationen nicht nur verringert sondern komplett beseitigt werden. (Ok, vielleicht ist das auch nur für mich nicht offensichtlich ;) )

--134.109.132.157 04:27, 11. Jul 2005 (CEST)

Idee der Hauptkomponentenanalyse[Quelltext bearbeiten]

Hallo,

ich habe mir diesen Artikel gelesen bevor ich wusste was PCA ist und jetzt danach.

Hier sind einige Korreturvorschläge: Die Idee von PCA ist doch, einen geeigneten Unterraum zu finden, damit die Anzahl der empirischen Dimensionen weniger wird, damit man überhaupt damit arbeiten kann. Es kommt aus dem Artikel nicht so klar hervor. Zudem wären die Begriffe wie Abbildungsverlust und Projektionsverlust zu erwähnen, was im Artikel komplett fehlt.

Im ersten Absatz wird das mit der Dimensionsreduktion doch eigentlich in einfachen Worten angesprochen. Das mit dem Informationsverlust kann man erwähnen, das ist aber bei linearen Verfahren meistens in irgend einer Art und Weise der Fall. --Philipendula 12:21, 13. Nov 2005 (CET)

Außerdem: Man kann die PCA benutzen, um die Dimension eines Datensatzes zu reduzieren. Das ist in der Tat eine häufige Anwendung. Prinzipiell tut die PCA aber nichts anderes, als die Daten so umzuschreiben, dass ihre innere Struktur möglichst deutlich zur Geltung kommt. Im Idealfall bemerkt man dann, dass einige der Komponenten der Daten keine nützliche Information enthalten, so dass man diese dann vernachlässigen kann.
MfG, Rene

Hauptachsentransformation abtrennen[Quelltext bearbeiten]

Ich habe Hauptachsentransformation eingetippt und bin dann auf diese Seite gestoßen. Ich kenne das Verfahren eigentlich nur aus der Geometrie bzw. aus der Bildverarbeitung. Sicher ist das mathematisch, an dieser Stelle das selbe. Ich wäre denoch dafür, wenn man für man einen eigenen Artikel dafür anlegt um evtl. auch die geometrische Bedeutung genauer zu erklären. Dadurch kann man sich dan richtig vorstellen, was da passiert. Im stochastischen Zusammenhang fällt mir das schon nicht mehr so leicht. Ich werde das die nächsten Tage mal in Angriff nehmen. Wenn jemand ein gutes Argument dagegen hat, kann er sich ja hier auslassen :)--Hackendahl 18:15, 8. Mai 2006 (CEST)[Beantworten]

Ein rein mathematischer Artikel fehlt noch. Ich hatte ihn auch schon im Visier, konnte mich aber noch nicht aufraffen. Mir wäre es lieber, wenn man nicht den mathematischen Teil aus Hauptkomponentenanalyse auslagern würde, sondern einen komplett neuen schreiben würde. Es ist nämlich abzusehen, dass der mathematische Artikel nach dem Prinzip "Ich weiß auch was!" irgendwann so unverdaulich wird, dass er für reine Anwender der HA nicht mehr zu gebrauchen ist. Also den mathematischen Teil von mir bitte drin lassen, er ist bewusst einfach gehalten. --Philipendula 21:19, 8. Mai 2006 (CEST)[Beantworten]

Vektormarkierung[Quelltext bearbeiten]

Vektoren durch Unterstreichung hervorzuheben ist keine Alternative. Es ist unüblich, sieht unschön aus und verwirrt den unbedarften Leser. Mir ist klar, dass die Fettmarkierung bei den vielen griechischen Großbuchstaben nicht direkt ins Auge fällt, aber das muss sie auch gar nicht: Die Hervorhebung von Vektoren ist mathematisch nicht üblich und hier nur schmückendes Beiwerk und kostenlose Zugabe. Wer sich ernsthaft mit den Formeln beschäftigt erkennt ohnehin sofort was Vektor oder Matrix ist und was nicht. Wer sich nicht ernsthaft damit beschäftigen will, kümmert sich auch nicht um die Formeln. Ich bitte darum, die in der Statistik übliche Fettmarkierung wieder herzustellen (die vom Benutzer nach mir eingefügten überflüssigen <math>s natürlich nicht, die stören nur den Zeilenfluss). --217.185.80.33 09:23, 7. Aug 2006 (CEST)

vektoren werden in der literatur nicht einheitlich dargestellt. der unterstrich ist eine der haeufig benutzten varianten. siehe dazu Vektor#Darstellungsformen. ja, mathematiker haben das nicht noetig, wenn die variablen gescheit deklariert wurden. nicht-mathematiker (z.b. ingenieure) jedoch koennen i.a.r. einer gleichung besser folgen, wenn die vektoren anders als skalare aussehen. der didaktische hintergrund ist wohl auch ausschlaggebend fuer die in der schule verwendete optische trennung der variablen. die math-umgebung ist nicht obergeil, aber das beste was wir haben, siehe hilfe:teX. -- seth 10:19, 7. Aug 2006 (CEST)
Die Hervorhebung durch Unterstrich ist ausschließlich im englischsprachigen Raum anzutreffen, siehe ebenda Vektor#Darstellungsformen. Im deutschsprachigen Raum ist sie nichtssagend. Was die Häufigkeit betrifft: Sogar die englischsprachige Wiki verzichtet fast vollständig auf diese Art der Markierung, vgl. en:Vector (spatial). Gegen eine Hervorhebung an sich habe ich nichts, schließlich habe ich sie nicht entfernt, sondern nur durch eine üblichere Art der Markierung ersetzt. Der Unterstrich ist nicht nur schlecht weil er hierzulande so selten verwendet wird, sondern insbesondere deshalb, weil man ihn andauernd mit der Hyperlink-Markierung verwechselt. Die zusätzliche Auszeichnung von Matrizen ist übrigens sehr unüblich, egal welchen Sprachraum man betrachtet. Nicht umsonst verwendet man Großbuchstaben im Vergleich zu den Kleinbuchstaben der Vektoren und Skalare. --217.185.68.251 15:12, 7. Aug 2006 (CEST) (derselbe wie oben)
ich habe mehrere vorlesungen auf deutsch gehoert, in denen vektoren durch einen unterstrich angezeigt wurden. das "ausschliesslich" steht auch nicht im verlinkten wikipedia-artikel, sondern wurde von dir (faelschlich) reininterpretiert.
egal. auch ich vermute, dass der unterstrich hier nicht so oft verwendet wird wie (die ingenieurs-)pfeile, die wiederum von mathematikern fast nie verwendet werden. die moeglichkeit der verwechslung mit hyperlinks halte ich jedoch fuer kein gutes argument, da wohl fast niemand bei seinem browser (oder in den wiki-einstellungen) einstellt, dass links immer schwarz sein sollen.
bzgl. der matrizen-unterstriche gebe ich dir recht. ich enthalte mich jedoch insg. der meinung darueber, wie nun vektoren oder matrizen zu kennzeichnen seien, weil's mir als mathematiker eigentlich voellig egal ist, solange es eindeutig/klar ist. -- seth 00:22, 8. Aug 2006 (CEST)
Du hast recht, das ausschließlich hab ich aus meiner eigenen Erfahrung dazugedichtet. Ich habe den Unterstrich in keiner einzigen Vorlesung (Mathe, Statistik, Mustererkennung) kennengelernt. Ich habe sie aber auch noch nie in irgendeinem Buch oder einem Skript einer anderen Uni gesehen; und ich habe nicht gerade wenige gelesen. Was aber vielleicht wichtiger ist, ist der Kommentar dahinter: „(Anmerkung: In diesem Artikel wird durchgängig die Pfeilschreibweise verwendet, in anderen Wikipedia-Artikeln kommt aber auch der Fettdruck vor.)“ Wenn's schon so ausdrücklich da steht, sollte man sich auch dran halten. Die Verwechslung mit Hyperlinks zählt als Argument, denn 1.) setzen sich viele Webanwendungen bei der Linkfarbe über die Browservorgabe hinweg, 2.) ist die Unterscheidung zwischen Dunkelblau/-lila und Schwarz nicht immer leicht, vor allem bei einzelnen Symbolen im Schmaldruck (Λ oder Λ)und 3.) hab selbst ich als Informatik-Dödel mehrmals den Drang verspürt, auf Λ zu klicken... --217.185.80.23 10:22, 9. Aug 2006 (CEST) (derselbe wie oben)
In Vorlesungen meines Studiums gab es die Unterstriche. --Philipendula 12:05, 9. Aug 2006 (CEST)

Schiffsklassen verwirrend (und überflüssig?)[Quelltext bearbeiten]

Die Einteilung der Kriegsschiffe in vier Klassen erscheint mir verwirrend. Sie spielt doch offensichtlich bei der durchgeführten Analyse gar keine Rolle. Eine grössere Anzahl von Schiffen wird nach drei bzw. acht Eigenschaften untersucht, von denen einige mehr oder weniger korreliert sind, so dass man die Anzahl der signifikanten Parameter dementsprechend verkleinern kann, um das einzelne Schiff – unabhängig davon, zu welcher Klasse es gehört – zu charakterisieren. --BurghardRichter 17:03, 27. Feb. 2008 (CET)[Beantworten]

Nun, man sieht am Streudiagramm, wie sich die Merkmale auf die Klassen aufteilen, was ja eigentlich informativ ist, oder? --Philipendula 17:08, 27. Feb. 2008 (CET)[Beantworten]

Ja, informativ über Kriegsschiffe ist es schon, aber nicht für das Verständnis der Hauptkomponentenanalyse. --BurghardRichter 17:34, 27. Feb. 2008 (CET)[Beantworten]

Und? Muss ich jetzt die Grafiken löschen oder willst du welche machen? --Philipendula 18:03, 27. Feb. 2008 (CET)[Beantworten]

Man muss deswegen nicht die Zeichnungen ändern. Aber man könnte im Text darauf hinweisen, dass die Klasseneinteilung kein wesentliches Element der Hauptkomponentenanalyse ist, sondern eine Information, die in den Hauptkomponenten, die durch die Transformation gewonnen wurden, vielleicht etwas deutlicher sichtbar wird als in den ursprünglichen Daten. Anderenfalls wird ein Leser, der noch keine oder nur eine mangelhafte Vorkenntnis über die PCA besitzt, dadurch verwirrt, dass in dem Beispiel zunächst eine Klasseneinteilung herausgestellt wird, die dann bei der mathematischen Behandlung anscheinend gar keine Rolle spielt. Hilfreich könnte auch noch eine weitere Zeichnung im gleichen Format sein, in der die transformierten Koordinaten yA und yB für die einzelnen Schiffe aufgetragen sind. --BurghardRichter 18:33, 27. Feb. 2008 (CET)[Beantworten]

Hier darf jeder. Bitte lass dich nicht aufhalten. --Philipendula 18:40, 27. Feb. 2008 (CET)[Beantworten]


Dimensionsreduktion[Quelltext bearbeiten]

Da es auf der Diskussionsseite bereits Fragen zur Verwendung der PCA zur Dimensionsreduktion gab, würde ich vorschlagen, dass man dazu ebenfalls noch einen kurzen Abschnitt formuliert. Da könnte man dann auch die gängige Kritik anbringen, dass PCA nicht zwischen Signal-Varianz und Rausch-Varianz unterscheiden kann und somit nur begrenzt zur Dimensionsreduktion anwendbar ist. Beispielbilder dazu sollten sich auch leicht finden lassen.
MfG, Rene, 03. Juli 2008, 22.07

Erledigt, habe jetzt einen entsprechenden Abschnitt mit Bildern ergänzt.
MfG, Rene, 28. Juli 2008, 15.13

Positiv definitheit der kovarianzmatrix[Quelltext bearbeiten]

die aussage im text ist nicht korrekt, es gibt fälle in denne die kovarianzmatrix negative eigenwerte besitzt. (vgl http://www.sgipt.org/wisms/nis/sma/wright.htm). ich habe den fehler im artikel noch nicht berichtigt, da ich nicht weiß was für auswirkungen das auf die analyse/den algorithmus hat. (nicht signierter Beitrag von 88.78.129.253 (Diskussion | Beiträge) 12:49, 11. Apr. 2009 (CEST)) [Beantworten]

Grundsätzlich gilt mal, wenn eine Matrix A das Produkt zweier Matrizen ist, ist sie positiv semidefinit. Wie ich bei flüchtigem Überfliegen deiner Quelle entnehmen konnte, handelte es sich bei den stark pathologischen Beispielen um von Pearson abweichende Korrelationsmatrizen, die nicht durch das obengenannte Produkt erzeugt wurden. Zudem kann auch Multikollinearität der Daten und die damit resultierende Instabilität der Korrelationsmatrix eine Rolle spielen bei nicht plausiblen Werten. Letzteres ist allerdings ein allgemeines numerisches Problem, das bei anderen multivariaten linearen Modellen mit Multikollinearität ebenfalls auftritt. Gruß -- Philipendula 15:39, 12. Apr. 2009 (CEST)[Beantworten]
Mir ist das problem bei ersten mal aufgefallen, als ich bei einem bilderkennungsproblem so eine matrix entstanden ist. Ich bin in der theorie nicht fit, aber es handelt sich um ein praxisrelevantes problem. (nicht signierter Beitrag von 88.78.129.253 (Diskussion | Beiträge) 00:47, 15. Apr. 2009 (CEST)) [Beantworten]

Eine Kovarianzmatrix hat n i e m a l s negative Eigenwert, so wie eine Varianz niemals negativ sein kann. Positiv semidefinit im Unterschied zu positiv definit bedeutet, dass Eigenwerte den Wert Null haben können, so wie eine Varianz im Extremfall den Wert Null haben kann. Numerische Probleme sind eine andere Baustelle. --Sigma^2 (Diskussion) 11:36, 31. Aug. 2021 (CEST)[Beantworten]

Abgrenzung zur Faktorenanalyse unscharf[Quelltext bearbeiten]

Die Abgrenzung zur Faktorenanalyse ist sehr unscharf. Einmal wird sie als Teil der Faktorenanalyse genannt (zur Faktorextraktion). In der Bildunterschrift wird die Hauptkomponentenanalyse als Typ der Faktorenanalyse genannt. Wie ist es denn nun genau?

Und: welchen Vor- oder Nachteil hat der hier beschriebene Unterschied? --source 22:00, 26. Apr. 2009 (CEST)[Beantworten]

Datensatz zu den Kriegsschiffen[Quelltext bearbeiten]

kann man Portal:Statistik/Datensaetze hier finden. Gruss --hroest Disk 16:37, 6. Mai 2010 (CEST)[Beantworten]

Hi, könnte man das noch irgendwo einbauen, dass die PCA=KLT in der sonstigen Mathematik auch gleich der SVD ist?--LutzL 23:31, 3. Aug. 2010 (CEST)[Beantworten]

Latente Faktoren falsch?[Quelltext bearbeiten]

"Wendet man die Hauptkomponentenanalyse auf das Kaufverhalten von Konsumenten an, gibt es möglicherweise latente Faktoren wie sozialer Status, Alter oder Familienstand, die bestimmte Käufe motivieren. Hier könnte man durch gezielte Werbung die Kauflust entsprechend kanalisieren."

Sind Alter und Familienstand wirklich latente Faktoren? Ich habe immer gedacht, dass alles was nicht direkt messbar ist, als latente Variable gilt (siehe auch http://de.wikipedia.org/wiki/Latentes_Variablenmodell). (nicht signierter Beitrag von 130.149.233.93 (Diskussion) 09:42, 17. Aug. 2010 (CEST)) [Beantworten]

Wenn ich das Ganze richtig verstanden habe, sind das q aus dem Abschnitt Konzeption und das r' aus dem Abschnitt Maximierung der Varianz identisch? --Travian 12:23, 7. Nov. 2010 (CET)[Beantworten]

Formel der totalen Varianz[Quelltext bearbeiten]

hallo Hilbertraum,

In der Formel für die totale Varianz geht im letzten Schritt unter, dass es sich um p Variablen handelt. (nicht signierter Beitrag von 141.2.169.200 (Diskussion) 12:18, 18. Aug. 2015 (CEST))[Beantworten]

Du meinst wohl meine Rücksetzung vom 7. Juli. Ja, und sind an dieser Stelle p-dimensionale Vektoren. Das sollte man vielleicht noch etwas erklären. Evtl. könnte man auch Fettschrift für Vektoren verwenden. Grüße -- HilberTraum (d, m) 20:47, 18. Aug. 2015 (CEST)[Beantworten]

Ich würde es ganz herausnehmen, denn auch der Vektor hat- wenn ich recht sehe- in jeder Komponente ein anderes , nämlich dasjenige, das zur j-ten Variable gehört. Die Schreibweise suggeriert, dass in jeder Komponente gleich ist. (nicht signierter Beitrag von 141.2.140.7 (Diskussion) 14:28, 24. Aug. 2015 (CEST))[Beantworten]

Naja, die Darstellung als mittlerer quadratischer Abstand vom Schwerpunkt halte ich schon für wichtig. Es ist wohl tatsächlich nur eine Frage einer geschickten/verständlichen Schreibweise. Dass bei einem Vektor die Komponenten nicht alle gleich sein müssen, halte ich allerdings für klar. -- HilberTraum (d, m) 21:14, 24. Aug. 2015 (CEST)[Beantworten]

Ja, das ist klar mit den verschiedenen Komponenten, nur an der Stelle nicht. Wenn das arithmetische Mittel ohne Index ist,denke ich intuitiv,dass es nur eine Variable gibt. Mit dem Streichen meinte ich nur die "vektorielle" Schreibweise. Gruss Julia (nicht signierter Beitrag von 94.219.110.89 (Diskussion) 22:02, 24. Aug. 2015 (CEST))[Beantworten]

Hallo Julia, ich habe mir die Stelle jetzt nochmal im Zusammenhang angeschaut und denke das Problem ist viel grundlegender. Ich kann beim besten Willen nicht erkennen, warum diese Formel überhaupt dort steht. Was hat die totale Varianz mit dem zu tun, was in diesem Absatz erklärt werden soll? Grüße -- HilberTraum (d, m) 09:18, 25. Aug. 2015 (CEST)[Beantworten]

Ja, am Ehesten passt es noch an der Stelle rein, an der von der totalen Varianz als Mass für den Informationsgehalt der Daten die Rede ist. So wie ich das sehe, gibt die Formel nur die Definition der Varianz als mittlere quadratische Abweichung wieder, sagt aber nichts darüber aus, in welche Richtung sie am grössten ist. Gruesse Julia (nicht signierter Beitrag von 94.219.107.118 (Diskussion) 11:10, 25. Aug. 2015 (CEST))[Beantworten]

Ich hab die Formel jetzt einfach mal rausgenommen und die totale Varianz beim ersten Auftreten verlinkt. Das sollte doch eigentlich reichen. -- HilberTraum (d, m) 20:37, 25. Aug. 2015 (CEST)[Beantworten]

Einwandfrei Hilbertraum. Die totale Varianz ist in dem Link auch ausführlich genug erklärt. Schön! Gruss Julia (nicht signierter Beitrag von 94.219.107.118 (Diskussion) 20:51, 25. Aug. 2015 (CEST))[Beantworten]

Verbesserungen möglich[Quelltext bearbeiten]

Extrem ausbaufähig oder doch nur eine Hauptachsentransformation der Kovarianzmatrix?. Insbesondere scheinen mir die Beispiele ausufernd. Ein gutes Beispiel wäre besser als viele "naja" Beispiele. Mal übertrieben überspitzt... "Gibt es überhaupt deutlich mehr zu sagen als Hauptachsentransformation der Kovarianzmatrix"? biggerj1 (Diskussion) 18:59, 21. Jul. 2021 (CEST)[Beantworten]

Zur statistischen Problematik gibt es eigentlich nur im Abschnitt "Schätzung der Modellparameter" fünf Sätze, von denen die letzten zwei eher vage sind. Ja, es gäbe deutlich mehr zu sagen, wenn mehr Statistiker an der deutschsprachigen Wikipedia mitarbeiteten.
  • Wie hängen die aus einer geschätzten Kovarianzmatrix berechneten Eigenwerte mit den Eigenwerten der Kovarianzmatrix des Modells (der Grundgesamtheit) zusammen?
  • Wie hängen die aus einer geschätzten Kovarianzmatrix berechneten Eigenvektoren mit den Eigenvektoren der Kovarianzmatrix des Modells (der Grundgesamtheit) zusammen?
  • Wie genau sind die Schätzwerte der Eigenwerte?
  • Konvergieren die Schätzwerte der Eigenwerte für wachsenden Stichprobenumfang (in Wahrscheinlichkeit, mit Wahrscheinlichkeit 1) gegen die Eigenwerte der Kovarianzmatrix der Grundgesamtheit?
  • Welche Schätzmethoden zur Bestimmung geschätzter Hauptkomponenten und Eigenwerte gibt es?
  • Wie führt man statistische Tests über die Eigenwerte durch?
  • Wie bekommt man Standardfehler oder Konfidenzintervalle als Ergänzung zu Punktschätzwerten?
  • Wie genau sind die geschätzten Varianzkomponenten der ersten i Hauptkomponenten (i=1,...,n-1)?
  • Was macht man, wenn die geschätzte Kovarianzmatrix eine Rangdefekt hat (eine oder mehrere Eigenwerte = 0)?
Mit solchen Fragen beschäftigt sich die Statistik. Der Aufsatz beschreibt die Modellidee nicht schlecht. Aber dann werden Daten in ein Programm gesteckt, es wird ein Knopf gedrückt und ein bisschen der Output beschrieben.
Im ersten Beispiel werden die Hauptkomponenten als Faktoren bezeichnet. Das ist sehr ungeschickt, da das Modell der Faktorenanalyse eine grundsätzlich anderes ist (weniger Faktoren als Variablen). Das die Beobachtungen in vier Gruppen mit vier Farben eingeteilt sind, wäre für eine Clusteranalyse interessant. Hier ist es völlig daneben, weil diese Gruppeneinteilung nur ablenkt und für die Methode keine Rolle spielt. Für die geschätzten Eigenwerte wird dasselbe Symbol wie für die Grundgesamtheitsparameter verwendet. Das vernebelt die statistische Problematik.
Natürlich kann man die Hauptkomponentenanalyse datenorientiert auch als eine Methode der deskriptiven Statistik anwenden, dann passt aber das ganze Modell-Vorspiel mit Zufallsvariablen nicht, weil dann die empirische Kovarianzmatrix der Daten das eigentliche Objekt der Analyse ist. In diesem Fall macht man dann das, was in den Beispielen gemacht ist, und nicht viel mehr.
Dimensionsreduktion ist gerade nicht das primäre Konzept der HKA (anders als in der Faktorenanalyse), sondern die Variablentransformation in unkorrelierte Variablen mit möglichst großer oder kleiner (je nach Fragestellung) Varianz. Hier liegt auch der Abschnitt "Konzeption ..." (gemeint ist wohl eher "Konzept") schief.
Dennoch verstehe ich nicht, was der Aufsatz auf dem Portal Qualitätssicherung zu suchen hat. Er ist unter den deutschsprachigen Wikipedia-Artikeln zur Statistik, die häufig das Niveau von Seminararbeiten nicht erreichen, im besten Drittel. --Sigma^2 (Diskussion) 00:13, 1. Sep. 2021 (CEST)[Beantworten]