Diskussion:Data-Mining/Archiv/1

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Cosinus

Der Cosinus zwischen den Vektoren ist übrigens der Korrelationskoeffizient! --Philipendula 22:13, 8. Aug 2004 (CEST)

Dieser Abschnitt kann archiviert werden. --Chire 09:35, 12. Aug. 2011 (CEST)

Grammatik (2. Satz)

Was ist eigentlich richtig? der, die oder das Business Intelligence? --Juesch 17:44, 25. Sep 2004 (CEST)

"die" Business Intelligence - weil die Intelligence, klar weil im deutschen die Intelligenz
--CZZ 00:24, 28. Sept. 2004 (CEST)
(Der vorstehende Beitrag stammt von Chriszz – 00:25, 28. Sep. 2004 (MESZ) – und wurde nachträglich richtig signiert.)
In diesem Zusammenhang bedeutet Intelligence Erkenntnis, Aufklärung (so wie bei Intelligence Service o.ä.), weil man ja Erkenntnisse über das Geschäft haben möchte (ist aber auch weiblich ;-)).
Übrigens ist eigentlich
im Prinzip der Korrelationskoeffizient, der ist nämlich ein Kosinus!
--Philipendula 00:38, 28. Sep 2004 (CEST)
Dieser Abschnitt kann archiviert werden. --Chire 09:35, 12. Aug. 2011 (CEST)

Überarbeitung

Ich habe den Artikel komplett überarbeitet weil er mir zu viel Fachchinesisch enthielt.
Ich hoffe ich bin niemandem zu nahe getreten weil ich mühsam ausgefeilte Formulierungen gelöscht habe. :-(
Den Teil über analytisches CRM habe ich in den CRM-Artikel unter die Überschrift Teilgebiete gepackt. Den möglichen Ansatz zum Text-Mining habe ich im entsprechenden Artikel untergebracht. Überarbeitung des Text-Mining-Artikels wäre allerdings angebracht.

Die Grafik

Beschreibung

find ich gut. ist vielleicht ein wenig groß. Ansonsten wäre eine Integration in den Artikel sinnvoll.

--LM 21:43, 26. Okt 2004 (CEST)

Okay, ich werde die Grafik bei Gelegenheit überarbeiten
(Der vorstehende Beitrag stammt von CZZ – 11:43, 23. Dez. 2004 (MEZ) – und wurde nachträglich signiert.)
Dieser Abschnitt kann archiviert werden. --Chire 09:35, 12. Aug. 2011 (CEST)

Anregung zur weiteren Überarbeitung...

Ich habe hier vor einige Tagen einen relativ großen Textblock geschrieben. Leider hat mir bisher die Zeit gefehlt, die Links entsprechend zu setzen. Wer Lust und Laune hat - nur zu! Werde mich da auch in einer ruhigen Minute dran auslassen. (geschreiben von Benutzer:T²; aus dem Artikel hierher kopiert von LM)
(Der vorstehende Beitrag stammt von LarsMengel – 07:47, 2. Apr. 2005 (MESZ) – und wurde nachträglich signiert.)

Dieser Abschnitt kann archiviert werden. Chire 10:23, 16. Aug. 2011 (CEST)

Weiterentwicklung

Mir erscheint der Artikel seit den letzten Änderungen nicht mehr stimmig. Folgende Punkte sind mir dabei aufgefallen:

  • a) Die neuen Textpassagen stellen inhaltlich eine Bereicherung des Artikels dar.
  • b) Der Artikel hat an Wissenschaftlichkeit gewonnen. (Wikipedia:Wie schreibe ich einen guten Artikel: "Die Wikipedia ist eine allgemeine Enzyklopädie und kein Fachbuch.")
  • c) Auf mich wirken die hinzugekommenen Absätze wie eine jüngst für´s Studium verfasste Hausarbeit.
  • d) Leider ist nirgendwo der Versuch zu erkennen den alten und den neuen Artikel miteinander zu verbinden.

Ich fände es Sinnvoll eine Synthese aus alten und neuen Inhalten des Artikels zu erarbeiten. Bei dieser Gelegenheit könnte man den Artikel insgesamt wieder kürzen und Teile in andere Artikel auslagern, so dass ein Leser der sich in die Tiefen des Themas einarbeiten will dort weiterlesen kann. Natürlich arbeite ich auch an einer solchen Änderung mit. --LM 08:17, 2. Apr 2005 (CEST)

zu a) Danke - ich habe mir die Mühe auch deshalb gemacht, da mich das Konzept begeistert und ich Wikipedia etwas zurückgeben wollte. Nur so funktioniert's! Bin sozusagen "neuer Schreiber" hier.
zu b) Ich denke, ein gewisser wissenschfatlicher Anspruch muss bestehen, immerhin handelt es sich ja um ein wissenschaftliches Thema, das in letzer Zeit viel disuktiert wurde. Bei Data Minig gibt es (leider?) keinen allgemeinen Konsens der einfach wiederzugeben ist. Sobald es diesen gibt, kann der Artikel ja umgeschrieben werden, oder?
zu c) Richtig, es sind einige Textteile meiner Diplomarbeit...
zu d) Ich wollte mir nicht anmaßen, den alten Artikel völlig umzuschreiben...
Wie wäre es denn mit folgendem:
In das Statement oben drüber den Prozessbezug mit hereinbringen.
Aus "Allgemeines" -> "Motivation zum Thema", warum es Data Mining gibt, praktische Problemfälle
Aus "Definition" -> "Wissenscghaftlicher Behandlung, Status quo der Wissenschaft"
"Problemtypen" und "Prozess" finde ich gut, insbesondere lassen sich "Techniken" in die "Problemtypen" integrieren.
"Anwednungsgebiete" lassen, aus einzelnen Punkten überschriften machen und dort noch etwas sammeln (oder ausgliedern).
-- 16:07, 10. Apr 2005 (CEST)

Hallo T²,
zunaechstmal herzlichen Dank fuer die Mitarbeit. Es ist immer gut, wenn jemand versucht die Qualitaet der Artikel zu verbessern. Dabei geht es nicht darum das es richtig oder falsch ist etwas umzuschreiben - allein das Resultat zaehlt.
In diesem Fall muss ich LM in soweit zu stimmen, dass Du in Punkto wissenschaftlichkeit uebers Ziel hinausgeschossen bist. Dies ist tatsaechlich kein Fachbuch sonder ein Nachschlagewerk. Es gibt hier ein breites Spektrum an Lesern, diesen Aritkel verstehen moechten. Diese Moeglichkeit sehe ich nicht mehr geben. Ich denke wir sollten hier den Spagat versuchen auch den Politkwissenschaftler, der Verstehen will, was der Glaeserne Buerger mit Data Mining zu tun hat ebenso bedienen als auch den Informatiker, der sich in die Thematik einarbeiten will. Wenn der Artikel aber nur noch von einem Data Minig exeprten verstanden wird, dann haben wir etwas falsch gemacht.
Daher mein dringender Wunsch, nach einer knappen Defintion ein allgemeinverstaendliche Erlaeuterung dazu und Beispiele. Den Rest des Artikels sollte in Detailarktikel ausgelagert werden. Hier dar man sich dann gerne wissenschaftlich austoben, denn das liest dann wirklich nur noch jemand vom Fach.
Ich denke damit kann jedem geholfen werden. -- Sparti 18:02, 10. Apr 2005 (CEST)

Sparti hat vollkommen Recht. Von einer für jeden verständlichen, übersichtlichen Darstellung ist der Artikel weit entfernt und verfehlt damit den Zweck einer Enzyklopädie. Ein knapper Übersichtsartikel für jedermann ist erforderlich.
--Kgazis 14:07, 5. Sep 2005 (CEST)
Dieser Abschnitt kann archiviert werden. Chire 10:23, 16. Aug. 2011 (CEST)

Nummerierung der Abbildung

Wieso beginnt die Nummerierung der Abbildung mit 5?
(Der vorstehende Beitrag stammt von 195.4.0.127 – 14:35, 4. Mai 2005 (MESZ) – und wurde nachträglich signiert.)

Dieser Abschnitt kann archiviert werden. Chire 10:23, 16. Aug. 2011 (CEST)

Ominöse Autoritäten

Mich stören vor allem die in Großbuchstaben geschriebenen Nachnamen, die offenbar bestimmte Quellen bezeichnen sollen. Dabei fehlt aber zweierlei: Wie heißt der Mensch mit vollem Namen? Welche Quelle wird hier zitiert? So, wie es jetzt da steht, ergibt es keinen Sinn. Ich habe mal gegoogelt und die folgende Liste erstellt.

  • BENSBERG ist eigentlich Frank Bensberg von der Universität Münster?
  • HUKEMANN ist eigentlich Anita Hukemann von der Universität Münster?
  • FAYYAD ist eigentlich Usama M. Fayyad von einer Firma namens DMX Group?
  • PIATETSKY-SHAPIRO ist eigentlich Gregory Piatetsky-Shapiro von einer Firma namens KDnuggets?
  • SMYTH ist eigentlich Padhraic Smyth von der University of California, Irvine?
  • HIPPNER ist eigentlich Hajo Hippner von der Katholischen Universität Eichstätt-Ingolstadt?
  • WILDE ist eigentlich Klaus D. Wilde von der Katholischen Universität Eichstätt-Ingolstadt?
  • BERRY ist eigentlich Michael Berry von der University of Tennessee?
  • LINOFF ist eigentlich Gordon Linoff von einer Firma namens Data Miners Inc.?

Bleiben noch die Fragen: Habe ich richtig geraten? Aus welchen Werken wird zitiert? --jpp ?! 16:48, 7. Sep 2005 (CEST)

Ich hab mal nachgeforscht und das ist aus dem Buch (ISBN 3824473097) von Frank Bensberg und steht auf Seite 64 --Webtiger 12:16, 26. Jan 2006 (CET)
Danke für den Hinweis, ich habe mal den vollen Namen eingesetzt und einen Literaturverweis eingefügt. Bleiben nur noch acht. --jpp ?! 14:52, 26. Jan 2006 (CET)

"Im Folgenden wird Data Mining in Anlehnung an Bensberg als integrierter Prozess verstanden, der durch Anwendung von Data-Mining-Techniken auf einen Datenbestand Muster entdeckt und kommuniziert" steht doch im Absatz obendrüber schon..
--Faltherr 21:18, 12. Feb 2006 (CET)

Bensberg ist ja auch längst geklärt (war übrigens ursprünglich falsch geschrieben). Aber wer sind die übrigen? --jpp ?! 09:06, 14. Feb 2006 (CET)
Piatetsky-Shapiro und Fayyad sind durchaus Koryphäen auf diesem Gebiet. Wilde habe ich, glaube ich, auch schon mal gehört, die anderen Namen sagen mir so aus dem Kopf nichts. -- H005 10:06, 14. Feb 2006 (CET)
Ich finde, die Namen solcher Mitarbeiter haben im Artikel nix verloren. Gäbe es Einsprüche, wenn ich sie alle entferne? Stern 08:56, 21. Mär 2006 (CET)

Usama Fayyad arbeitet bei Microsoft Research und ist tatsächlich durch zahlreiche Veröffentlichungen aus dem Bereich Knowledge Discovery bekannt. Bezüglich der genannten Namen: Hier sollte es in Form von Fussnoten geschehen (im Deutschen so üblich) und nicht mit GROSSgeschriebenen Nachnamen (wie im Englischen üblich).
(Der vorstehende Beitrag stammt von 89.48.254.127 – 14:32, 17. Jun. 2007 (MESZ) – und wurde nachträglich signiert.)

Ich war mal so frei, einen Quellen-Block in den Abschnitt zu setzen. Straylight -- 20:57, 16. Mär. 2009 (CET)
Dieser Abschnitt kann archiviert werden. Chire 10:23, 16. Aug. 2011 (CEST)

Überarbeitung des Artikel nötig?

Ich finde den Artikel und insbesondere die Phasen des Data-Mining unverständlich. Wie viele Phasen hat den Data-Mining nur 4? Meiner Meinung nach bedrüfte der Artikel einer grundlegenden Überarbeitung und eine flacheren Gliederungshirachie.
(Der vorstehende Beitrag stammt von 84.60.102.69 – 16:24, 16. Mär. 2006 (MEZ) – und wurde nachträglich signiert.)

Der Artikel ist unverständlich, schlecht gegliedert und besteht aus zu viel "Bla Bla". Ein Überarbeiten ist dringend notwendig--*ABC* 22:16, 14. Jun. 2007 (CEST)
Dieser Abschnitt kann archiviert werden. Chire 10:23, 16. Aug. 2011 (CEST)

Aus der Lesenswertdiskussion März 2006

Der Artikel ist derzeit lesenswert. Ich denke, dass der Artikel inkonsistent (Anzahl der Phasen etc.), zergliedert, theoretisierend ist. Die Grundidee kommt nicht rüber. Man weiß also nicht, worum es geht. Stattdessen wird man von zig Alternativen erschlagen. Der Lesegenuss ist gering und das bei einem an sich ja interessant darstellbaren Thema. Das Inhaltsverzeichnis und damit die Gliederungsstruktur ist von geringem praktischen Nutzen. Klingt alles ein bisschen nach Elfenbeinakademie. In der Praxis würde man das wohl komplett anders schreiben. Und wer bitte ist Frank Bensberg, der ständig im Artikel erwähnt wird? Stern 22:04, 17. Mär 2006 (CET)

Kontra Stern 22:04, 17. Mär 2006 (CET)
zumindest in einer Sache kann ich Aufklärung liefern: Dr. Frank Bensberg ist wiss. Mitarbeiter am Lehrstuhl für WI und Controlling von Heinz Lothar Grob und hat zumindest einige Bücher mit diesem zusammen veröffentlicht. Er hat außerdem meine Einführung in die WI-Vorlesung in Zusammenarbeit mit Grob gehalten. Hat seine Dissertation über Web-Log-Mining als Instrument der Marketingforschung geschrieben --schlendrian •λ• 22:37, 17. Mär 2006 (CET)
Nungut, den letzten Satz nehme ich dann mal vorsichtig zurück. Stern 23:22, 17. Mär 2006 (CET)
Kontra Lt. Richtlinien der WP soll ein Enzyklopädie-Artikel allgemeinverständlich verfasst sein. Selten habe ich einen WP-Artikel gesehen, der so weit von diesem Ziel entfernt ist. Weitere Schwachpunkte: Der potenzielle Nutzen des Verfahrens wird nur knapp in 3 Sätzen unter "Allgemeines" angedeutet. Die Anwendungsbeispiele im Kapitel "Anwendungen" sind recht lieblos aufgelistet. Beispiele, Historie, Verbreitung - Fehlanzeige. Stattdessen jede Menge theoretischer Ballast. Auch im Detail viele Fehler und Inkonsistenzen (Verweise auf nicht vorhandene Bilder, Zitate ohne Quellenangaben, ...). Meine Empfehlung: Vernünftige Struktur mit ausgewogenem Verhältnis von Theorie, Praxis und Historie überlegen und nochmal ganz von vorne beginnen.--Belsazar 23:06, 17. Mär 2006 (CET)
neutral - da hat sich jemand sehr viel Mühe gegeben. Mir wird allerdings nicht ganz klar, wo sich Data-Mining von herkömmlichen statistischen Verfahren unterscheidet. Zumindest alles in der ersten Hälfte aufgeführte kommt mir aus meinen bescheidenen drei Semestern Statistik heraus sehr bekannt vor. SPSS z. B. gibt es seit 1965. Seit wann gibt es den Begriff Data-Mining und in welchem Zusammenhang kam er auf -Politik, Marktforschung, Sozialforschung?. Ist es am Ende nur ein weiteres Buzzword? Und wenn Oma mit Microsoft Access eine Datenbankabfrage startet, ist das auch "Data-Mining"? -- SK 23:56, 17. Mär 2006 (CET)
Kontra Den Stimmen der Vorredener ist, was das inhaltliche, betrifft wohl nichts mehr hinzu zu fügen. Frage mich wie der Artikel es überhaupt geschafft hat lesenwert zu werden, viele Kapitel sind nicht mal wikifiziert. Was soll die verlinken der ganzen Autoren? Hat jemand Abb. 7 gefunden? Und wo sind Abb. 1 bis 6? Sieht aus, als sei der Text von irgendwo kopiert worden. Könnte sogar eine Urheberechtsverletzung sein. -- Dr. Shaggeman Der beißt nicht!!! 00:17, 18. Mär 2006 (CET)
Ich vermute, hier wurde zumindest vorab in einer Word-Datei vorgetippt. Das kann man an manchen Bindestichen erkennen, die in Word regelmäßig falsch zu Gedankenstrichen gewandelt werden. Ich vermute nicht, dass hier eine URV vorliegt, sondern vielmehr, dass jemand, der auch in einem Buch veröffentlicht, den Text zugleich in der Wikipedia veröffentlicht hat. Stern 07:31, 18. Mär 2006 (CET)
In einem solchen Falle kann es auch sein, dass das Urheberrecht beim Verlag liegt. Solle man zumindest mal versuchen zu klären. -- Dr. Shaggeman Der beißt nicht!!! 12:11, 18. Mär 2006 (CET)
Vermutlich hat hier jemand den Lesenswert-Baustein bloß reingeschmuggelt, denn Artikel findet sich nicht einmal in der Lesenswert-Liste Antifaschist 666 23:59, 22. Mär 2006 (CET)

Da die Lesenswertwahl für diesen Artikel in keinster weise dokumentiert ist, war dieser Artkel offensichtlich wohl nie lesenwert. Der Vorwurf der URV bleibt weiterhin zu klären. -- Dr. Shaggeman Der beißt nicht!!! 00:30, 23. Mär 2006 (CET)

(Die vorstehenden Beiträge wurden aus der Lesenswertdiskussion, vom März 2006, hierher übernommen.)

Pro - Als ich den Artikel seinerzeit (vor ca. 1 Jahr) hier eingestellt habe, gab es zu diesem Thema quasi nichts. Daher habe ich einen Teil meiner Diplomarbeit zum Thema "Anwednung von Data Mining-Techniken zur Analyse internetbeasierter Auktionen" leicht überarbeitet hier reingestellt. Vielleicht nicht das Optimum unter dem Gesichtspunkt von Wikipedia, allerdings allemal mehr als, das, was hier vorher stand. Soviel auch zur Urheberrechtsfrage. Die anderen Abbildungen sind irgendwann rausgeschmissen worden, ohne dass die Nummerierung korrigiert wurde. Die Abbildungen selbst fehlen, da sie irgendwann mal jemand gelöscht hat wegen fehlendem Nachweis über irgend eine GNU-Geschichte. Habe sie damals aber selbst erstellt gehabt. 23:22, 19. Apr 2006 (CEST)
Dieser Abschnitt kann archiviert werden. Chire 10:23, 16. Aug. 2011 (CEST)

Überarbeiten-Baustein

Hallo,
auf der Diskussionsseite sehe ich jede Menge noch offener Punkte. Ich habe deswegen den Überarbeiten-Baustein reingesetzt, ggf. kann man hier die erledigte Punkte archivieren. Vielleicht lohnt sich danach ein neuer lesenswert-Anlauf? --Badenserbub 07:53, 28. Jun 2006 (CEST)

Moin moin,
beim ersten Lesen fragt man sich "Wer ist Frank Bensberg?". Ist das DER Guru? Der Diskussion hier kann ich entnehmen, dass er eine Dissertation (2001) zum Thema veröffentlicht hat. Die Zitierdichte des Namens im Artikel erstaunt mich für einen Wikipedia-Artikel. Ist das ausgewogen? Etwas weniger Namen in dieser Verwendung täten dem Artikel gut. Grüße, Bumbulski 11:08, 3. Sep 2006 (CEST)
Das liegt vermutlich an der Überarbeitung (siehe oben) von T². Ich vermute das war der Betreuer seiner Diplomarbeit. --Chire 09:35, 12. Aug. 2011 (CEST)
Dieser Abschnitt kann archiviert werden. Chire 10:23, 16. Aug. 2011 (CEST)

Weblink

beschäftige mich gerade wg. einer Hausarbeit mit dem Thema und kann die Diskussionen verstehen: Kaum was verstanden! Weitergeholfen hat mir das "Data Mining-Konzept" von Grob und Bensberg (http://miami.uni-muenster.de/servlets/DerivateServlet/Derivate-217/CGC8.pdf). Spricht was dagegen, darauf zu verlinken?
(Vorstehender nicht signierter Beitrag stammt von 213.39.132.210 (DiskussionBeiträge) 18:43, 4. Nov 2006 (CET))

Wikipedia:Sei mutig!, bau den Link einfach ein, wenn es jemandem nicht passt, fliegt er schon wieder raus. Auf den ersten Blick sieht es in Ordnung aus (WP:WEB gibt Hinweise, was nicht geht) --Badenserbub Briefkasten Bewerte mich! 07:29, 5. Nov. 2006 (CET)
Dieser Abschnitt kann archiviert werden. Chire 10:23, 16. Aug. 2011 (CEST)

Data-Mining = Data dredging?

Mir ist vor kurzem der Ausdruck "Data dredging" als Synonym für das Durchsuchen riesiger Datenbanken mithilfe riesiger PC-Kapazitäten untergekommen. Entspricht das Data Mining ? Ich kenn mich damit nicht aus, darum die Frage; "Data dredging" kann in der gesamten Wikipedia nciht gefunden werden ... Xiton 16:49, 5. Jan. 2007 (CET)

Data Dredging ist eng verwandt. Es ist aber ein klar negativer Begriff, bei dem es darum geht künstlich "signifikante" Ergebnisse zu produzieren, indem man den Hypothesenraum durchsucht und die Daten ggf. so vorselektiert dass Ergebnisse entstehen. Und bei genug Daten findet man dann irgendwann einen "signifikanten" Zusammenhang (wobei aber die Existenz eines solchen Zusammenhanges dann selbst nicht signifikant ist ...). Ich würde vorschlagen einen Artikelwunsch en:Data dredging anzulegen. Habe es mal auf Portal:Informatik/Fehlende Artikel eingetragen. Da anscheinend schon die Engländer drei Begriffe dafür haben (data snooping, data fishing) wäre es gut wenn wir uns Gedanken darüber machen, ob es da passende und leichter verständliche (aber auch gebräuchliche) deutsche Begriffe gibt. --Chire 09:35, 12. Aug. 2011 (CEST)

Einleitung - Definition

Musste diesen Edit mal aus Qualitätsgründen zurücknehmen; wenn die Einleitung komplett zu überarbeiten ist, dann doch bitte zunächst hier diskutieren und Quellen angeben. Beispiele wären [1] oder Data mining in en:Wikipedia oder weitere Fachliteratur. Danke. -- Talaris 23:48, 19. Okt. 2007 (CEST)

Dieser Abschnitt kann archiviert werden. Chire 10:23, 16. Aug. 2011 (CEST)

Verständnisprobleme

Ich bin auf der Suche nach einem Data-Mining Artikel, den ich als Grundlage für das weitere Verständnis dieses Fachgebiets nutzen kann. Da ich mir den Artikel und die Kritik daran durchgelesen hatte kann ich diesen Artikel nicht dafür benutzen. Schade eigentlich, da ich ein richtiger WIKI-Fan bin.
(Der vorstehende Beitrag stammt von 217.194.34.103 – 08:42, 13. Mai 2008 (MESZ) – und wurde nachträglich signiert.)

Diese Seite ist insgesamt realtiv schwer verständlich und hilft meiner Meinung hauptsächlich diejenigen weiter, die sich ohnehin mit diesem Thema auskennen. Besonders negativ ist mir der unnötig hochgestochene Schreibstil bei der Beschreibung wie z.B. der Problemtypen (Beschreibungs-, Prognoseprobleme) aufgefallen. Währe sehr dankbar, wenn dies verdaulicher vormuliert werden würde. DANKE
(Der vorstehende Beitrag stammt von 217.7.122.74 – 23:31, 8. Jul. 2008 (MESZ) – und wurde nachträglich signiert.)
Das möchte ich unterstützen, der aktuelle Artikel ist eher für Fachleute geschrieben als für interessierte Laien. --P. Birken 15:10, 30. Nov. 2008 (CET)
Dieser Abschnitt kann archiviert werden. Chire 10:23, 16. Aug. 2011 (CEST)

Objektivität?

In diesem Fall ist die Aggregation der Daten jedoch formal der Phase der Datenselektion zuzuordnen. Oder auch nicht. (Absatz "Aggregation von Merkmalen") Was denn nun? In einem Artikel sollten doch wohl gesicherte Informationen stehen und nicht subjektive und unbegründete Äußerungen. Die angesprochene Art von Aggregation (nämlich das Weglassen irrelevanter Daten) sieht mir doch stark nach Selektion aus.... --Martinschroederglst 14:03, 6. Jul. 2008 (CEST)

Dieser Abschnitt kann archiviert werden. Chire 10:23, 16. Aug. 2011 (CEST)

Literaturangaben

In der Definition wird ständig "Bensberg" zitiert ohne dass dieser vorher irgendwie vorgestellt würde. Erst am Ende des zweiten Absatzes der Def. erscheint ein nicht wirklich hilfreicher Verweis auf die Literaturangaben, wo dann aber kein "Bensberg" auftaucht. Erst hier in der Diskussion findet mensch dann was - mehr verwirrend als erhellend. Klaren Bezug in den Artikel zu bringen wäre dringend nötig. Hm, eigentlich wollte ich nur kurz wissen, was die Neusprechblase "Data-Mining" bedeutet - mit der Folge, dass ich mich bei Wikipedia angemeldet habe. Seltsam!
(Der vorstehende Beitrag stammt von Der verstreute Prozessor (Beiträge) – 11:20, 27. Nov. 2008 (MEZ) – und wurde nachträglich signiert.)

Wird oben schon diskutiert im Abschnitt #Ominöse Autoritäten. --j ?! 21:39, 30. Nov. 2008 (CET)
Genau! Wie kann man sich nur an Fehlern stören, die schon seit über vier Jahren diskutiert werden?! 81.33.253.43 16:24, 5. Nov. 2009 (CET)
Dieser Abschnitt kann archiviert werden. Chire 10:23, 16. Aug. 2011 (CEST)

Fragwürdige Anwendung Variantenmanagment

Im Artikel wird behauptet, Variantenmanagment zur Optimierung der Produkt-/ Erzeugnisvielfalt in Unternehmen sei eine Data-Mining-Anwendung. Wenn diese Behauptung nicht bis zum 15.12.2009 belegt werden kann, werde ich den Passus streichen. Ich grüße alle konstruktiven Mitstreiter freundlich. tzeh 14:28, 11. Dez. 2009 (CET)

Dieser Abschnitt kann archiviert werden. Chire 10:23, 16. Aug. 2011 (CEST)

Rechtschreibung: Datamining

Laut Duden heißt es Datamining und nicht Data Mining, DataMining oder Data-Mining. Im Artikel sollte also einheitlich entweder der deutsche Begriff Datamining oder das englische Äquivalent Data Mining verwendet werden. Wobei ich die deutsche Schreibung für die bessere halte. --Bananenfalter 17:50, 5. Aug. 2010 (CEST)

Lt. Dt. RS 2006 §45 (4) E1: „Aus anderen Sprachen stammende Verbindungen aus Substantiv + Substantiv […] werden zusammengeschrieben; ebenso ist die verdeutlichende Schreibung mit Bindestrich möglich […]“. Dein Letztgenanntes ginge also schon. Data Mining ist auf alle Fälle falsch – im Deutschen wie im Englischen.
Da von Data-Mining 10 mal mehr Seiten hierher verweisen als von Datamining liegt die Entscheidung nahe, denke ich. --Geri 14:57, 1. Mär. 2011 (CET)
Empfohlene Schreibweise von Duden: Data-Mining. Quelle: [2] --Chire 12:59, 9. Aug. 2011 (CEST)
Sollte man den Artikel dann nicht auch entsprechend verschieben? --Zahnradzacken 22:47, 13. Aug. 2011 (CEST)
Ja, das will ich nach zusammenführen mit meiner Arbeitskopie beantragen. --Chire 11:24, 14. Aug. 2011 (CEST)
Dieser Abschnitt kann archiviert werden. Verschoben --Chire 19:45, 15. Aug. 2011 (CEST)

Hinweis zur Lemmadiskussion

Unter „Portal Diskussion:Informatik#Kategorie:Data Mining“ findet gerade eine Lemmadiskussion u.a. zu diesem Artikel hier statt. Wer daran teilnehmen möchte kann sich dort gerne konstruktiv beteiligen. MfG --92.226.63.105 14:19, 9. Aug. 2011 (CEST)

Thema ist genauer gesagt die Schaffung einer Kategorie für Data-Mining-Themen. --Chire 15:01, 9. Aug. 2011 (CEST)
Dieser Abschnitt kann archiviert werden. Kategorie:Data-Mining angelegt und befüllt. --Chire 14:02, 10. Aug. 2011 (CEST)

Auto-Archivierung

Da hier einige sehr alte Diskussionsbeiträge vorhanden sind, bei denen man oftmals die chronologie nicht mehr erkennen kann, würde ich gerne entsprechend Vorlage:Autoarchiv/Doku eine Auto-archivierung einführen, wenn niemand etwas dagegen hat. Das bringt hoffentlich langfristig etwas mehr Übersichtlichkeit in diese Diskussionsseite. --Chire 13:20, 10. Aug. 2011 (CEST)

Danke an FBE für das Reorganisieren und Nachsignieren dieser Seite! --Chire 11:30, 14. Aug. 2011 (CEST)
Dieser Abschnitt kann archiviert werden. --Chire 11:30, 14. Aug. 2011 (CEST)

Namensschreibweisen normalisieren

Personennamen(?) oder Abkürzungen(?), wie z.B. „CABENA“ und „WEISS“, sollten bitte im Artikel in normaler Schreibweise genannt werden. Zudem sollten Personennamen idealerweise auch mindestens einmal (bei ihrer Erstnennung) vollständig (also mit Vor- und Zuname) genannt werden. --92.224.248.33 08:47, 11. Aug. 2011 (CEST)

Siehe oben. Stichwort "#Ominöse_Autoritäten". Das Problem ist, dass diese Referenzen zum Teil nicht mal bekannt sind. Und (nochmal siehe oben) in meiner Arbeitskopie werden die entsprechenden Textteile daher eh rausfallen. Es wäre vielleicht sinnvoll, den Artikel mal kurz liegen zu lassen -- insbesondere für kosmetische Änderungen -- während ich ihn überarbeite, und erst danach dran weiterzumachen. Danke. (Und ja, ich weiß dass die Diskussionsseite unleserlich ist, das ist sie schon seit Jahren...) --Chire 16:20, 11. Aug. 2011 (CEST)
Dieser Abschnitt kann archiviert werden. Chire 10:23, 16. Aug. 2011 (CEST)

Was heißt „CRM“?

was heißt "CRM"?
(Der vorstehende Beitrag stammt von Zeno Gantner – 20:22, 6. Jun. 2003 (MESZ) – und wurde nachträglich signiert.)

Customer Relationship Management. Das sind EDV-Programme, die Dich dran erinnern, Deinen Kunden anzurufen, wenn Du versprochen hast, ihn anzurufen. Uli 20:34, 6. Jun 2003 (CEST)
Typischer, aber fataler (Anfänger-)Fehler! Wer CRM auf Software reduziert, wird ein CRM-Projekt garantiert mit Vollgas an die Wand fahren. CRM ist ein ganzheitliches Konzept zur Kundenbeziehungspflege und umfasst insbesondere auch organisatorische Aspekte. Zur Handhabung der zu seiner Realisierung ist sicherlich auch Software erforderlich, aber nur mit SOftware allein wird es nix werden! --95.210.5.123 23:19, 12. Sep. 2011 (CEST)
Ah. ok, ist im Artikel jetzt genauer. Gibt da aber noch viel zu tun ... und natürlich gibt es wesentlich mehr Anwendungsgebiete (Medizin, Chemie, Pharmakologie, Bioinformatik ...) --zeno 18:55, 9. Jun 2003 (CEST)
Archivierung dieses Abschnittes wurde gewünscht von: --Chire 09:35, 12. Aug. 2011 (CEST)

Anregung zur Überarbeitung

Abschnitt Gruppenbildung

Zeile 7 Nearest-Neighbourhood-Verfahren und k-means-Verfahren setzen Kenntniss der Grundstrukturen voraus. letzter Satz welcher Typ Neuronaler Netze?

Abschnitt Klassifikation

Satz 3 Das ist das Problem der konventionellen Methoden. Bei unserem Ansatz DyCoN brauchen wir zwar auch Klasseninstanzen und Attributwerte - allerdings nur für den einmaligen Vorgang der Kalibrierung. letzter SatzIm Artikel wird nicht zwischen FFN und KFM unterschieden.

Abschnitt Nichtformatierte Daten

Der Bereich erscheint mir in der Praxis problematischer als hier dargestellt.

Abschnitt Datenaufbereitung

Zeile 5 Das ist ein bekanntes Kernproblem!

Abschnitt Fehlwerte

Wichtiger Aspekt, aber zum Umgang damit wird wenig gesagt!

Abschnitt Umgang mit stark korrelierten Attributen

Ein interessanter Ansatz, der stark an Normalformen bei Datenbanken erinnert. Setzt aber Bestehen und Kenntniss solcher "struktureller" Korrelation voraus und provoziert somit die Suche danach (Regelsysteme).

Abschnitt Mustererkennung

vielleicht etwas einseitig mathematisch? Methodische Ansätze (z.B. Neuronale Netze) fehlen ganz.

Wäre es erlaubt einen Link auf unsere Lösung in den Artikel mit aufzunehmen?
(Der vorstehende Beitrag stammt von Marzbarz (Beiträge) – 15:29, 4. Feb. 2009 (MEZ) – und wurde nachträglich signiert.)

Bezieht sich auf eine alte Version. -- Chire 10:23, 16. Aug. 2011 (CEST)
Archivierung dieses Abschnittes wurde gewünscht von: Chire 10:23, 16. Aug. 2011 (CEST)

Große Überarbeitung - wer macht mit?

Ich möchte eine Überarbeitung des Artikels in großen Teilen vornehmen, und habe daher eine Kopie nach Benutzer:Chire/Data Mining beantragt. Der Artikel ist derzeit etwas inkonsequent und un-wikiartig, vermutlich da große Teile aus einer Diplomarbeit stammen. Das führt zu fehlenden Quellenangaben wie "Berry", "Linoff", "Weiss", "Förster", "Zwernemann" (oft in Großbuchstaben) und den "vermutlich xyz" Einträgen in den Referenzen. Siehe auch z.B. #Ominöse Autoritäten. Der Abschnitt hat auch Redundanzen bspw. zu Datenbereinigung und Knowledge Discovery in Databases. Für eine derartig große Änderung bietet sich es aber an, das erst einmal in einer Wikipedia:Arbeitskopie zu machen. Ich würde mich über Feedback und Mitarbeit freuen. --Chire 13:08, 9. Aug. 2011 (CEST)

Arbeitskopie erstellt: Benutzer:Chire/Data Mining --Chire 21:25, 9. Aug. 2011 (CEST)
Arbeitskopie eingefügt. Wenn nicht irgendjemand einen komplett-revert macht, können wir wieder hier weitermachen. Ich hoffe die neue Strukturierung gefällt. --Chire 15:25, 15. Aug. 2011 (CEST)
Archivierung dieses Abschnittes wurde gewünscht von: Chire 15:25, 15. Aug. 2011 (CEST)

Verfahren von Data-Mining

Der Artikel erzeugt den Eindruck, es handle sich um alternative Verfahren, wenn man zwischen Clustering und Klassifikation unterscheidet.
Der Prozesscharakter des Datamining kommt meiner Ansicht nach zu kurz.
Es ist doch so, dass Data-Mining in der Regel auf einen vorbereiteten Datensatz angewendet wird (zumindest initial), und dort der erste Schritt in der Regel das Clustering darstellen dürfte - erst wenn Cluster und Klassen bekannt sind, kommt man zu Klassifikationsverfahren.
Die Regressionsanalyse und die Assoziationsverfahren scheinen mir an dieser Stelle zu speziell, handelt es sich doch um mögliche Verfahren der Charakterisierung von Daten und der Trenderkennung. --CZZ 12:50, 5. Sept. 2004 (CEST)

Beschreibung
Ich habe diese Grafik eigenhändig angefertigt, basierend auf dem Artikel: Kriegel, Hans Peter: Datenbanktechniken zur Unterstützung des Wissenserwerbs. In: Wissensmanagement. Informationszuwachs - Wissensschwund? ; die strategische Bedeutung des Wissensmanagements ; [in den Monaten November und Dezember 1998 ... im Rahmen einer Ringvorlesung der Ludwig-Maximilians-Universität München ...]. hrsg. von Heinz Mandl und Gabi Reinmann-Rothmeier. München [u.a.]: Oldenbourg 2000. (Forum Wirtschaft und Soziales.), 47 - 71.
Das Urheberrecht sollte also bei mir liegen? Wär diese Grafik vielleicht hilfreich zur Darstellung des Themas?
--CZZ 12:50, 16. Sept. 2004 (CEST)
(Der vorstehende Beitrag stammt von Chriszz – 23:08, 16. Sep. 2004 (MESZ) – und wurde nachträglich richtig signiert.)
Hallo,
ich finde die Grafik super. Währe es möglich mit etwas beschreibendem Text einen "Laienfreundliche" Einführung zur grundsätzlichen Vorgehensweise zu schreiben, mit der Grafik zu versehen und die jetzt beschriebenen Details einfach dranzuhängen?
--Badenserbub 18:09, 3. Jul 2006 (CEST)

Das die Klassifikation eine Bestimmung der Klassen durch ein vorheriges Clustering benötigt oder dies der Normalfall ist, ist schlichtweg falsch. Eine häufige Aufgabe von Klassifikationsmethoden ist bspw. die Trennung von zahlungsbereiten und nicht zahlungsbereiten Kunden. Die Klassen (zahlungsbereit/nicht zahlungsbereit) sind hier bereits bekannt. Aufgabe von Klassifikationsmethoden ist jetzt beide Gruppen zu trennen. --88.73.224.105 22:40, 12. Mai 2007 (CEST)

Letzteres ist aber das, was man als Maschinelles Lernen bezeichnet, eines Themas das es schon vor Data-Mining gab. --Chire 09:35, 12. Aug. 2011 (CEST)
Archivierung dieses Abschnittes wurde gewünscht von: Chire 08:26, 21. Nov. 2011 (CET)

Interferenz, Stichprobe, Stichprobengröße

Hallo,
insgesamt scheint mir der Artikel, obwohl im Text anderslautend, doch zu sehr um Abgrenzung von traditionell ähnlich gelagerten Sachgebieten wie der Inferenzstatistik zu leiden. Beim Lesen kamen mir die im Betreff genannten Aspekte in den Sinn, die auf jeden Fall in der Darstellung berücksichtigt werden sollten! Stellenweise erweckt der Artikel den Eindruck, dass im man es im DataMining immer mit Datensätzen im Giga, Terra- und Peta-Bereich zu tun hat. Meiner Ansicht nach ist beim DataMining die Arbeit mit Stichproben keineswegs überholt, dazu fällt mir das Stichwort "schließende Statistik" ein. Insbesondere man könnte in diesem Zusammenhang an Kreuzvalidierungsverfahren (3-fach, 10-fach) oder überhaupt Regressionsmodellierungen denken, die im DataMing auch ihre Anwendung finden!
Das Vorbereiten und Transformieren der vorhandenen Datenbestände ist ebenfalls von zentraler Bedeutung, niemals wird bei der Arbeit mit den einzelnen Verfahren, von der multiplen/logistischen Regression bis hin zu genetischen Algorithmen mit ganzen Datenbeständen gearbeitet. Dies liegt u.a. auch daran, dass das Hintergrundrauschen in den vorhandenen Daten zu groß ist (Fehlcodierungen, Fehlmessungen aufgrund von Ausfällen usw.). Insgesamt scheint mir, dass der Artikel davon profitieren könnte, etwas genauer die praktische Vorgehensweise, zerlegt in unterscheidbare Phasen nach dem CRISP-Modell (LaRose, 2005 + 2006) unter die Lupe zu nehmen. Damit wäre vielleicht auch die (Verständnis-) Klippe des Theoretisierens, wie in der Kritik eines Forumsleser angedeutet, zu umschiffen.
Desweiteren könnte man auch deutlich darauf hinweisen, dass DataMining nicht nach dem "black box", sondern nach dem "white box"-Verfahren abläuft. Die Überprüfbarkeit bzw. Nachvollziehbarkeit der einzelnen Schritte, und möglicherweise ihre erforderliche Revision, ist ebenfalls ein unverzichtbarer Bestandteil des DataMining als Prozess. Der implizite Automatismus im DataMining ist für mich problematisch, da die Anwendung von Verfahren auf konkrete Daten immer auf Domainwissen und Vornnahmen beruht. Meines Wissens gibt es auch keine Software oder ein System, das einem diese Arbeit abnimmt.
Ich werde mich, sobald Zeit ist, mit konkreteren Vorschlägen zu Wort melden! Ich bitte meinen Beitrag auch eher als Vorschlag zu werten, nicht so sehr als Kritik an der bisherigen Arbeit, die m.E. nur einen verständlichereren Fokus haben könnte!
MFG
Thomas
(Der vorstehende Beitrag stammt von Tschoenhoff (Beiträge) – 15:48, 28. Jan. 2007 (MEZ) – und wurde nachträglich signiert.)

Data-Mining ist halt ein Buzzword momentan, gerade in den Wirtschaftswissenschaften. Es wird missbräuchlicherweise für jegliche große Datenanalyse verwendet. Von daher würde ich den Artikel hier vor allem dafür nutzen, die unterschiedlichen Aspekte und verwandten Themenbereiche voneinander abzugrenzen. Für den Prozesscharakter bietet sich der Artikel Knowledge Discovery in Databases an. Ich bin gerade an einer entsprechenden Überarbeitung. --Chire 09:35, 12. Aug. 2011 (CEST)
Archivierung dieses Abschnittes wurde gewünscht von: Chire 08:26, 21. Nov. 2011 (CET)

Widersprüchliche Definition

Im Definitionsteil wird behauptet: "Der Data-Mining-Prozess umfasst somit, ausgehend von der Datenselektion, alle Aktivitäten, die zur Kommunikation von in Datenbeständen entdeckten Mustern notwendig sind. HUKEMANN unterteilt diesen Prozess in Anlehnung an FAYYAD, PIATETSKY-SHAPIRO und SMYTH in die Phasen: Aufgabendefinition, Selektion und Extraktion, Vorbereitung und Transformation, Mustererkennung, Evaluation und Präsentation."
Laut Fayyad (vgl. "From Data Mining to Knowledge Discovery in Databases", AI Magazine 1996) ist die obige Beschreibung aber der Knowledge-Discovery-Prozeß (KDD), der sich in die "Datenselektion und Extraktion", "Vorbereitung", "Transformation", "Data-Mining", "Interpretation und Evaluation" untergliedert. Data-Mining ist also ein Teil dieses (iterativen) Prozesses und nicht dieser gesamte Prozeß, wie der Artikel suggeriert. Man könnte also sagen, "Data-Mining" ist der Teil des KDD, in dem (multivariate) Analysemethoden eingesetzt werden.
(Der vorstehende Beitrag stammt von 89.48.254.127 – 14:02, 17. Jun. 2007 (MESZ) – und wurde nachträglich signiert.)

Das wird in der wissenschaftlichen Literatur unterschiendlich gesehen - im KDD geht es aber prinzipiell primär um WISSEN also, die Interprätation, Kommunikation und Anwendung der gewonnen Informationen. Dazu gehört natürlich auch auf der semantischen Ebene die Begleitung des Data-Mining-Prozesses - aber eben nicht auf syntaktischer Ebene die tatsächliche Durchführung. Ein Beispeil: Der Data-Mining-Prozess kommt zu dem Ergebnis, dass sich an einer Tankstelle Benzin schlecht zusammen mit Diesel verkauft. Das ist Data-Mining und Fakt. KDD sagt jetzt: Die Regel kenn ich schon, mach weiter. "Kenn ich schon" kann dabei eine Information in einem KI-System sein (bspw. Expertensystem) oder auch nur der Verstand...
(Der vorstehende Beitrag stammt von – 17:14, 15. Nov. 2007 (MEZ) – und wurde nachträglich signiert.)

ALSO: Definition Data Mining:Der Prozess mit dem große Datenmengen verarbeitet und aussagekräftige Muster und verborgene Zusammenhänge ermittelt werden.
Der Data Mining Prozess bezieht sich auf die Wissensermittlung in Datenbänken (Knowlegde Discovery in Databases) Es gibt 5 Phasen des KDD-Prozesses:

  • 1. Aufgabenanalyse, d.h. Kenntnis des Geschäfts, Definition des Problems, Analyse der Bedürfnisse
  • 2. Vorverarbeitung, d.h. Auswahl/Bereinigung/Vorbereitung und Transformation der Daten
  • 3. Data Mining, d.h. Modellentwicklung (Training), Durchführung von Modellen (Vorhersage)
  • 4. Nachbearbeitung, d.h. Ausgabegenerierung, Auswertung/Analyse der Ergebnisse
  • 5. Verteilung, d.h Ergebnisverteilung

siehe auch: SAP-Wissen
(Der vorstehende Beitrag stammt von 89.247.81.53 – 17:36, 20. Jan. 2010 (MEZ), wurde nachträglich signiert und von 89.247.92.71 bis 17:49, 20. Jan. 2010 (MEZ) ergänzt.)

Korrekt, es wird leider unzureichend zwischen Knowledge Discovery in Databases, Data Mining und Maschinelles Lernen unterschieden. Korrekt bezeichnet Data Mining den einen Schritt des KDD-Prozesses, in dem neues Wissen gesucht wird, Maschinelles Lernen die Übertragung von bestehendem Wissen auf neue Datensätze. Ich hoffe dass das inzwischen klarer herauskommt. --Chire 11:28, 18. Jul. 2011 (CEST)
Archivierung dieses Abschnittes wurde gewünscht von: Chire 11:28, 18. Jul. 2011 (CEST)

Es wäre sicherlich von allgemeinem Vorteil, wenn nicht jeder unbekannte Autor, der irgendwann mal irgendwas (vielleicht eine Diplomarbeit?!) zum Data Mining von sich gegeben hat, in einer "Enzyklopädie" wie dieser zitiert würde. Man sollte sich auf wissenschaftliche, seriöse Quellen und anerkannte Experten stützen. Das sind hier z.B. Fayyad, Piatetsky-Shapiro, Pyle, um nur einige wenige Koryphäen zu nennen. --95.210.5.123 23:27, 12. Sep. 2011 (CEST)

Bezieht sich auf eine alte Version. --Chire 08:26, 21. Nov. 2011 (CET)
Archivierung dieses Abschnittes wurde gewünscht von: Chire 08:26, 21. Nov. 2011 (CET)

Unvollständig

Unter "Anwendungen" gehören auf alle Fälle auch Termini wie: Spionage, private/wirtschaftliche/staatliche/politische/soziologische/soziale/biologische/ militärische/geheimdienstliche ("etc. pp." ;-) ) Überwachung und Analyse, Detektivarbeit, Machtstrategien, u.a.m. hinein. Es ist nicht gut, (zumindest potentiellen) Mißbrauch neuer Technologien auszublenden. Wem würde dies in unserer ambivalenten Welt nützen?!
Hella, November 2009
(nicht signierter Beitrag von 91.14.237.6 (Diskussion | Beiträge) 16:23, 23. Nov. 2009 (CET))

Das passt aber besser unter Überwachung. Für obengenannte Zwecke ist (echtes) Data-Mining gar nicht so interessant, da es nicht zielgerichtet genug ist. Da sind Techniken wie Maschinelles Lernen, die eben bspw. auf Prognose ausgelegt sind, besser. Oh, und bitte nicht mit der reinen Sammlung von Daten verwechseln... Data-Mining ist die Suche nach neuen, bisher unbekannten Mustern in (schon vorhandenen) Daten. --Chire 08:40, 21. Nov. 2011 (CET)
Archivierung dieses Abschnittes wurde gewünscht von: Chire 08:40, 21. Nov. 2011 (CET)

Erste Bedeutung: Daten sammeln

na, ja erstmal bedeutet Datamining nur "Daten sammeln", um mit statistichen Verfahren Erkenntnisse zu gewinnen, z.B. um einen psychologischen Test zu entwickeln oder zu validieren oder statistische Aussagen zu überprüfen. Alles andere hier Geschriebene ist eher ein stark selektierter Mikro-Ausschnitt aus dem weiten Feld der statistischen Verfahren, aus welchem Grund auch immer diese Auswahl getroffen wurde, wohl nur, weil das Wort Datamining darin vorkommt ..... KDW.
(nicht signierter Beitrag von 109.44.201.24 (Diskussion | Beiträge) 14:29, 30. Apr. 2010 (CEST))

> erstmal bedeutet Datamining nur "Daten sammeln"
das wäre mir neu, aus welcher Sichtweise? Der Mathematik? in der Wi-Inf wird mit Datamining (grob gesagt) die Gewinnung von neuen Erkenntnissen aus bereits gesammelten (oder neu zu sammelnden) Daten bezeichnet!--Albing 15:17, 17. Jul. 2011 (CEST)
Nein Du verwechselst das wohl mit "data warehousing". Data Mining bezeichnet, sofern es korrekt verwendet wird, die Extraktion von neuen Erkenntnissen aus großen Datenbeständen. Siehe hierzu auch Duden: [3]: "automatische Auswertung großer Datenmengen zur Bestimmung [...] verborgener Zusammenhänge". Das Sammeln muss zuvor schon geschehen sein. Im Gegenteil, es gibt leider den Trend, auf alles das "Data Mining" Etikett zu kleben, was auch nur den Mittelwert von den erfassten Werten berechnen kann. Der Artikel sollte sich aber mit dem echten Begriff, nicht mit dem inflationär gebrauchten Modewort beschäftigen. --Chire 11:23, 18. Jul. 2011 (CEST)
Archivierung dieses Abschnittes wurde gewünscht von: Chire 10:23, 16. Aug. 2011 (CEST)

Soso. Wenn Chire die Bedeutung DM = Datensammeln für so wichtig hält und es demnach wohl eine relevante Quelle für den Vorschlag gibt, wieso wird sie dann nicht zitiert? Dieser Artikel scheint mir doch einigermaßen mit nicht belegten bzw. sehr einseitigen Meinungen gefärbt zu sein. Anstatt wissenschaftlicher Fachliteratur werden Fernsehserien (Numbers) und der Duden (sprachlich gewiss die Autorität, aber nicht gerade als Lexikon der Informatik bekannt) zitiert... Zudem sollte dringend darauf geachtet werden, dass hier nicht Einzelne mit ihrer z.T. sehr eigenen Sicht die alleinige Deutungshoheit für sich beanspruchen! Wissenschaft lebt vom Austausch verschiedener Meinungen und Sichtweisen, das sollte auch einem Doktoranden der Informatik bewusst sein! Ich bin selbst Doktorand und arbeite seit insgesamt 1998 im Data Mining, behaupte daher dass ich einigermaßen Ahnung habe, und wollte meine Meinung hier zur Diskussion stellen und zur Verbesserung dieses aus den Fugen geratenen Artikels (siehe auch Diskussionsbeiträge hierzu!) beitragen. Leider wird jede abweichende Meinung sofort gelöscht. Da braucht sich niemand wundern, wenn mittlerweile sogar die allgemeine Presse schreibt, dass immer mehr potenzielle Autoren der Wikipedia den Rücken kehren und frustriert von dannen ziehen. Im Übrigen würde es auch Data-Mining-Spezialisten gut tun, außer Algorithmen ab und zu auch mal Statistikliteratur zu lesen, wo Data Mining ursprünglich negativ konnotiert als "Baggern oder Schürfen nach Daten" bezeichnet wurde - in dem Sinne, dass man so lange nach den Daten sucht, bis man seine Hypothese bestätigt bekommt. Wenn die angeblich so bekannte Deutung von Data Mining als Datensammeln in diesem Sinne gemeint sein sollte, dann muss das auch klar benannt werden, um Missverständnisse zu vermeiden. Ohnehin sollten abweichende und abstruse Begriffsdeutungen - wenn überhaupt - nicht in der einleitenden Zusammenfassung gebracht werden, weil das den Nichtfachmann nur verwirrt. Und wenn man sich hier schon über das Begriffsverständnis auslässt, dann sollte man z.B. auch das Interview mit G. Piatetsky-Shapiro zitieren, in dem er die Genese der Begriffe KDD und Data Minng aus seiner Sicht erklärt (der Mann hat den Begrif KDD "erfunden", indem er die erste wiss. Konferenz dazu organisiert hat). Da aber solche Beiträge offensichtlich nicht erwünscht sind, überlasse ich das den Mining-Gurus, den Artikel hier weiter zu entwickeln. --95.210.5.123 18:41, 13. Sep. 2011 (CEST)

Erstens sehe ich nicht, wo Benutzer:Chire "DM = Datensammeln" favorisiert oder als wichtig bezeichnet. Zweitens sehe ich nicht, wo jemand mit dem Einfügen einer Patetsky-Shapiro-Quelle gescheitert wäre. Drittens sehe ich nicht, dass jede abweichende Meinung sofort gelöscht würde. Mit Abschreckung potentieller Autoren hat es auch nicht viel zu tun, wenn eine IP eine IP revertiert [4].
Selbst wenn dem so wäre, hättest du trotz aller Gegenwehr natürlich das Recht, den Artikel zu verbessern. --Zahnradzacken 20:03, 13. Sep. 2011 (CEST)
Uhm, ich sage klar dass Data Mining eben nicht das Sammeln von Daten ist (dafür gibt es Begriffe wie "Datenerfassung", "Datensammeln" und "Vorratsdatenspeicherung") oder die Verarbeitung von großen Datenmengen (Big data), sondern ich orientiere mich klar an eben genanntem Piatetsky-Shapiro und dem wichtigen Informatik-Lehrbuch von Sander und Ester. Wenn dir eine bessere Formulierung als "wird gelegentlich fälschlicherweise auch mit dem Buzzword Data-Mining bezeichnet" einfällt, so kannst du sie ja gerne einbringen! Aber gerade weil z.B. hier eben Data-Mining gerne auch für die reine Sammlung von Daten gebraucht wird, sollten wir in dem Artikel eben auch klar stellen, was es nicht ist!
Wenn ich jetzt deine Änderungen anschaue:
* Entfernung der anerkannten Zeitschrift "Künstliche Intelligenz" zum Begriff
* Entfernung des Hinweises zur fälschlichen Verwendung des Begriffs in den populären Medien
So ist das keine Verbesserung. Insbesondere nicht, wenn du die Versionsgeschichte des Artikels anschaust, wo eben diverse "Deutsch-Experten" von Wikipedia ihre eigenen Zwangs-Übersetzungen des Begriffs "publiziert" haben wie "Datenabbau", "Datenschürfung", "Datenförderung", "Datenbergbau", dann solltest du verstehen warum die Einleitung mit dieser Formulierung, dass es keine gebräuchliche Übersetzung gibt (das von dir eingefügte "Datenmustererkennung" ist auch nur in bestimmten Nischen vorhanden) - zudem es dafür ja sogar eine Referenz gibt. Als Kompromiss habe ich gestern ja sogar einen eigenen Punkt eingefügt, wo diese Vorschläge zu einem deutschen Begriff erwähnt werden können.
Ansonsten scheinst du zum Teil "Data Mining" mit en:Data dredging zu verwechseln, was man auf Deutsch wohl beschreiben kann als "Die Anwendung von Datenverarbeitungsmethoden wie Data-Mining zur Suche nach scheinbar signifikanten Hypothesen, ohne ausreichende Beachtung der statistischen Prinzipien. Hierdurch werden oft Hypothesen gefunden die zwar signifikant erscheinen, deren Existenz selbst aber nicht signifikant ist bei einer systematischen Suche."
Die Statistik-Literatur solltest du auch hier nicht unbedingt als ultima ratio heranziehen: sie sieht Data-Mining natürlich als Konkurrenz und versucht leider oft es zu diskreditieren. Die Informatik-Literatur ist für ein Informatik-Thema dann vielleicht doch passender. Und auch der Duden ist passend, denn das hier ist kein reines Informatik-Lexikon, sondern wir müssen letztlich auch diskutieren, was die "breite Öffentlichkeit" unter diesem Begriff zu verstehen hat. --Chire 10:27, 14. Sep. 2011 (CEST)
Nun ja. Wie oben in mehreren anderen Kommentaren bereits dargestellt, sollte der Artikel evtl. im Ganzen überarbeitet werden. Selbstverständlich sollte man Missverständnisse in der Begrfflichkeit aufklären, gerade bei Buzzwords, wie es Data Mining eben auch eines ist.
Im Übrigen verwechsele nicht ich Data Mining mit Data Dredging, sondern habe auf eine diesbezügliche Fehlinterpretation hingewiesen. Ich kenne die Historie der Data-Mining-Literatur ganz gut, und in den 1990ern wurden mehrere Begriffe wie z.B. Datenarchäologie, Data Sifting, Data Dredging zum Teil synonym mit Data Mining verwendet, was sich glücklicherweise beruhigt hat. Ich halte es darüber hinaus aber für unabdingbar, als Datenanalytiker auch die Statistikliteratur zu kennen, denn seriöse Datenanalyse in der Praxis kommt niemals nur mit Data Mining allein aus. I.d.R. werden zahlreiche verschiedene Ansätze aus verschiedenen Disziplinen eingesetzt, um gemeinsam dem Ziel der "Wissensentdeckung" zu dienen. Daher erscheint es mir geradezu gewagt, Data Mining betreiben und dabei die Erkenntnisse der Statistik ignorieren zu wollen. Der von Dir angesprochene ideologische Grabenkampf zwischen Statistikern und Informatikern/Data-Mininern ist mir aus Theorie und Praxis wohl bekannt. Gerade deshalb halte ich es für unabdingbar, interdisziplinär zu arbeiten und die Scheuklappen der eigenen Disziplin abzulegen. Dass das schwierig und mühsam ist, ist mir aus eigener Erfahrung bekannt, aber es ist einen Versuch wert. Man lernt dabei unheimlich viel dazu und erkennt, dass man das Rad oft nicht neu erfinden muss. Wenn man die zahlreichen Data-Mining-Konferenzen auswertet fällt auf, dass dort fast ausschließlich Algorithmen behandelt werden, die zweifellos von großer Bedeutung sind. Für die praktische Anwendung ist aber die "statistische Strategie" ungleich wichtiger - man kann sie gern auch Analysestrategie odwer Mining-Strategie nennen. Wer sich damit beschäftigt, dem wird schnell klar werden, dass die Statistik schon eine Menge der Probleme gelöst, Fallstricke beseitigt und Schwachstellen thematisiert hat, die z.T. auf aktuellen Data-Mining-Konferenzen als wichtige künftige Forschungsthemen erst auf die Agenda gelangt sind. Daher betrachte ich den Hinweis, dass Data Mining in der Statistik traditionell als unseriöses Datensammeln betrachtet wird (es lohnt sich, mit gestandenen promovierten Statistikern hierüber mal ein paar Abende zu diskutieren!) als durchaus zielführend. Mittlerweile werden die genannten Grabenkämpfe ja weniger hitzig geführt. Trotzdem sollte auch die Informatik anerkennen, dass Data Mining erhebliche Grenzen hat, die v.a. in den Hochglanzbroschüren der Anbieter gern verleugnet werden. Die seriöse Nutzung dieser mächtigen Anaylseansätze ist aber nur möglich, wenn man diese Grenzen auch kennt, akzeptiert und klar benennt.
Was hast Du dagegen, die Metapher des Datenebergbaus als Keimzelle des Data-Mining-Begriffes zu akzeptieren? Was glaubst Du woher der Begriff sonst kommt? Dass das damit verknüpfte Bild wenig seriös ist für ein wissenschaftliches Forschungsgebniet ist mir durchaus klar, aber die Amerikaner lieben eben diese flapsigen Begriffe. Mir wäre ein seriöserer Begriff auch lieber. Doch hierzu bemerkt G. Piatetsky-Shapiro treffend, Data Mining sei eben "more sexy" - und in den USA nimmt man deswegen eben billigend in Kauf, dass man einen ursprünglich negativ besetzten Begriff verwendet. Gegen die Ausbreitung solcher Begriffe kann man nichts tun. Etwas breiteres Wissen über die Themen, mit denen man sich beschäftigt, kann nie schaden - aber auch das ist wohl ein "Prozess der Wissensentdeckung"! --95.210.5.123 17:09, 17. Sep. 2011 (CEST)
Archivierung dieses Abschnittes wurde gewünscht von: Chire 08:26, 21. Nov. 2011 (CET)

Verständlichkeit durch Beispiel

Der Artikel enthält ohne Zweifel sehr viel Wissen. Für all die, die schon eine grobe Vorstellung von Data-Mining haben ist er ideal. Aber als Neuling in der thematik (oder als nicht allzu schlauer Mensch...) kann man leider nur wenig damit Anfangen. Bei dem aktuellen Datenschutz-Hype ist nämlich mit vielen Neulingen unter den Lesern zu rechnen.
Ich wäre daher dafür, zu Beginn des Textes ein anschauliches Beispiel einzufügen. Ich denke, Warenkorbanalyse wäre hier ein guter Ansatz, und in einem Absatz, der allerhöchstens die Länge meines Diskussionsbeitrages hat, sollte man dann kurz beschreiben:

  • Was für Daten man verwendet
  • Wie viel Datensätze man dafür ungefähr braucht, um etwas brauchbares zu finden
  • evtl. wie man an diese Daten gekommen ist
  • Ein leicht verständlicher Wischi-Waschi-Satz, was man dann mit den Daten macht (wäre er nicht Wischi-Waschi, dann hätte es sich auch mit der leichten Verständlichkeit erledigt)
  • Ein paar Mögliche Ergebnisse (drei oder vier sollten reichen)

Dies also als Hinweis von einem, der sich zwar für intelligent hält, aber keinen Schimmer von Data-Mining hat :)
--194.95.18.105 20:13, 22. Mär 2006 (CET)

Leider ist Data-Mining nicht ganz so einfach - es geht ja darum etwas neues zu finden, was man vorher nicht wusste. Das bedeutet insbesondere, dass man manchmal auch nichts - oder zumindest nichts neues - findet. --Chire 08:26, 21. Nov. 2011 (CET)

Datenschürfung

Kann jemand die Verwendung für das Wort "Datenschürfung" belegen? Mir ist es noch nie untergekommen und es wäre nicht das erstemal, dass Wikipedia missbraucht wird, um eine private Übersetzung durchzudrücken. --chrislb 问题 20:37, 6. Feb. 2007 (CET)

Es scheint sich um den gleichen Zeitgenossen zu handeln, der auch z.B. in Pervasive Computing und Ubiquitous Computing die Begriffe Rechnerdurchdringung und Rechnerallgegenwart einsetzt ... Immer von einer IP aus, nicht als angemeldeter Benutzer. --Tonk 21:40, 17. Mär. 2007 (CET)
In Data-Mining wurde nun auch Knowledge Discovery in Databases eingedeutscht, extra dafür eine Weiterleitungsseite eingerichtet. --Tonk 22:51, 23. Mär. 2007 (CET)
Bei Google taucht der Begriff Datenschürfung ca. 600 mal auf - hauptsächlich in Foren oder Wikipediaclones - ich halte das für einen Witz und würde sagen, das kann man getrost global löschen 195.170.185.50 16:24, 6. Jul. 2007 (CEST)

Hallo, ich bin zufällig auf diesen Artikel gestoßen. Kann leider nicht zur Verbesserung beitragen. Nur ist er überhaupt hier in dieser Form angebracht? Vielleicht sollte sich der ursprüngliche Verfasser mit Wikibooks beschäftigen und dort seine Ausführungen bekanntgeben. Ich meine in Wikipedia liegt die Würze in der Kürze. --Zbisasimone 16:38, 10. Jul. 2007 (CEST)

"Schürfung"? Schwachsinn. Werde ich richten. Das ist eher "Datenschätze heben", mining hat ja mit Eisenerzgewinnung und so zu tun. --WiseWoman 23:01, 2. Jan. 2011 (CET)

Das Wort mining könnte aber mit schürfend übersetzt werden, siehe auch [5], zusammen mit Daten ist es dann bis Datenschürfung nicht mehr weit, siehe auch [6]. Und, 77.4.86.245, ist dir eigentlich klar, wo du hier bist? Also wenn du diese Sprache hier nicht magst, dann geh doch einfach weg, aber Kommentare wie Diese hier, in der deutschsprachigen Wikipedia, abzulassen, ist doch schon sehr daneben. Im Übrigen ist die Zusammenfassungszeile nicht dazu da, um als Diskussionsmittel mißbraucht zu werden, siehe auch Hilfe:Zusammenfassung und Hilfe:Diskussion. Und als weiterer Wink mit dem Zaunpfahl sei hier noch Wikipedia:Neutraler Standpunkt genannt. Also reißt euch mal bitte etwas zusammen! --92.225.51.250 04:56, 10. Nov. 2011 (CET)
könnte so übersetzt werden, macht man hier aber nicht, nur der Verein Deutsche Sprache, der keine Ahnung von Data-Mining hat ... Ergo: WP:Theoriefindung. Deine Google-Suche zeigt gar nichts. Bspw. der erste Treffer ist nur ein Verweis auf "Data-Mining", im Artikel wird "Datenschürfen" umgekehrt nicht verwendet -> reines Suchwort, jedoch keineswegs als Übersetzung verwendet. Der dritte Treffer ist schon Wikipedia selbst. Andere "Treffer" schreiben beispielsweise »Für das angegebene Wort Datenschürfung wurden leider keine Übersetzungen im Deutsch-Englisch Wörterbuch gefunden.« - Das soll ein Beleg sein, "Datenschürfung: Wort nicht gefunden"? Wenn du diesen Begriff hier weiter "durchdrücken" willst, werde ich eine Teilsperre des Artikels beantragen, solange du nicht mit seriösen Quellen (bitte keine Online-Wörterbücher) wie dem Duden kommst, die die entsprechende Übersetzung empfehlen. Und deine "Quellen", die solltest du wenigstens mal selbst anschauen ...
Ansonsten solltest du hier mal dringend den Absatz Data-Mining#Deutscher Begriff lesen! Mehr Aufmerksamkeit als verdient diese Wortschöpfung nicht. --Chire 11:15, 10. Nov. 2011 (CET)
Hier "offenbar" von einem Vorschlag des Vereins deutsche Sprache zu reden, ist ebenso TF, wie die Wortschöpfung selbst. Schlimmer noch ist leider die nun in den Artikel hineingetragene Auseinandersetzung. Die Anmerkung zu systematischem Einstreuen ist ganz schwach; dazu wird sich keine reputable Quelle finden lassen. Wenn du (zu Recht) für die Übersetzung Quellen forderst, dann verstehe ich solche POV-Edits nicht. Konsequenter Weise müsste auch die Behauptung, dass keines der Wörter nennenswerte Verbreitung fand, mit Quellen belegt werden. Der letzte Satz, Wissensentdeckung in Datenbanken böte sich an, ist natürlich genauso meinungsgefärbt. Ich schlage vor, solche Passagen zu entschärfen oder zu belegen, ansonsten hat die Diskussion kein Ende.
Noch ein Wort zu Online-Wörterbüchern und Hobby-Etymologie: mouse heißt in der Ugs. auch blaues Auge [7]. Damit ist es zu Veilchen nicht mehr weit. Und wie diese Veilchenunterlage belegt, gibt es sogar schon ein besseres Wort statt Mauspad. Wer mag's dort ergänzen? --Zahnradzacken 16:11, 10. Nov. 2011 (CET)
Von mir aus könnte der Abschnitt gerne ganz aus dem Artikel bleiben, aber das Thema "Datenschürfen" wird hier ja ständig wiederbelebt. Der Absatz stellt den Versuch da, die Diskussion aus der Einleitung in einen separaten Abschnitt zu verlagern. Am Ende dieser Diksussionsseite findest du einen Link auf Benutzer:Chire/Datenschürfen (aber TF, daher eben nur in meinem User-Namespace - ich habe natürlich keine Belege dafür WER das eingebracht hat, oder ob der VDS das Wort wirklich "erfunden" hat) wo ich insbesondere das Thema "Datenschürfen in Wikipedia" etwas analysiert habe. Meine Behauptung dass das systematisch hier eingebracht wurde ist nicht ganz unbegründet, wie du sehen wirst. Der Verweis auf den Verein Deutsche Sprache basiert halt darauf, wo dieses Wort auftaucht - vorwiegend in einer vom VDS herausgegebenen Liste von "bösen" Fremdwörtern (VDS-Anglizismenliste) und dafür "empfohlenen" Übersetzungen und diversen "kopieren verboten" Kopien davon (ob man Urheberrechtsverletzungen als Quellen zählen darf?). Und meine eigenen bevorzugten Quellen sind eben bswp. Duden, den man ja durchaus als seriös bezeichnen kann. Auch zu "Wissensentdeckung in Datenbanken" findest du leicht seriöse Quellen (IIRC u.A. das Lehrbuch von Ester, Sander), aber es beschreibt eben den ganzen KDD-Prozess. Hier passt die wörtliche Übersetzung aber eben auch zur Thematik: neues Wissen in Datenbanken entdecken... --Chire 19:06, 10. Nov. 2011 (CET)
Ich habe deine Benutzerseite schon gesehen. Das ändert nichts daran, dass der Verdacht nicht in den Artikel gehört. Alles, wozu man "leicht seriöse Quellen" finden kann, gehört auch bequellt. Alles andere Zweifelhafte muss sich dem gleichen Prinzip unterwerfen, wie Theorien zur "Datenschürfung". Ansonsten ist deine Strenge dagegen nicht glaubwürdig. --Zahnradzacken 21:20, 10. Nov. 2011 (CET)
Habe ich vor ca. einer Woche entsprechend entschärft. Jedenfalls muss dieser Abschnitt reichen. Eine Gewisse Berechtigung hat der Abschnitt ja dadurch, dass eben die Zeitschrift "Künstliche Intelligenz" genau versucht hatte, hier einen deutschen Begriff zu finden. --Chire 08:26, 21. Nov. 2011 (CET)
Deine Netzsuche mit der Suchmaschine Google scheint dann aber irgendwie behindert zu sein, Chire, oder du willst nur das finden, was Dir schmeckt. Eine von mir eben ausgeführte Google-Suche, bei der ich mal den (für einige Brauser möglicherweise unverständlichen) deutschen Umlaut in Klarschrift übergeben habe (siehe [8] mit dem feurigen Fuchs), fördert jedenfalls auf den ersten Blick schonmal (zumindest für mich) drei relevante Treffer zu tage, siehe [9], [10] und [11]. --92.224.251.142 11:53, 6. Dez. 2011 (CET)
Vielen dürfte das deutsche Wort für diesen Begriff übrigens herzlich egal sein, hauptsache es bezeichnet wenigstens annähernd den dahinter stehenden Begriff (mehr wird von einem Namen oder einer Bezeichnung eigentlich in der Regel auch nicht erwartet) und dieser (für viele Deutschsprachler) sinnfreie Anglizismus wird endlich mal (üb)ersetzt. 92.229.55.3 12:19, 6. Dez. 2011 (CET)
Die Aufgabe von Wikipedia ist es nicht, Übersetzungen zu erfinden und Deutschen Sprachpurismus zu betreiben. Wenn die seriösen Quellen - und dazu zähle ich das SelfHTML-Forum nicht, sondern gedruckte Literatur - nun mal diese Begriffe nicht verwenden, dann bleiben wir hier bei dem gängigen Begriff. Und dieser ist nun mal "Data Mining" in der vom Duden verwendeten Schreibweise. Hör also bitte auf, mit "Google hat aber 5 Treffer" zu argumentieren, und bringe seriöse Quellen. Du liest deine Quellen ja nicht mal! die erste von dir genannte sagt nur "Siehe Data Mining". Die Zweite ist ein Forumsbeitrag von einem Schüler! Da kann ich dir nur sagen: Setzen, 6! Die dritte Quelle ist die Frage eines anonymen Nutzer, was dann dieses komische "Datenschürfung" sein soll - das belegt doch höchstens, dass der Begriff unüblich und unverständlich ist! --Chire 13:38, 6. Dez. 2011 (CET)

Quelle falsch zitiert

Der Artikel geht zweimal auf die Quelle "ISBN 3-486-25386-7, S. 47–71." (auch online über google Books einsehbar) ein, u.a. im allerersten Satz des Artikels sowie später nochmals mit einem Zitat. Das zitierte Buch beschreibt durch die (eigentlich) richtig übernommene Erklärung allerdings nicht den Begriff des Data-Mining, sondern den des "Knowledge Discovery in Databases". Dass kein adäquater deutscher Begriff existiert ist in der Tat so, dies allerdings mit einer falsch wiedergegebenen Quelle zu belegen nicht günstig.

-- 129.233.14.37 14:31, 24. Jan. 2012 (CET)

In besagter Quelle werden "Knowledge Discovery in Databases" und "Data-Mining" weitgehend synonym verwendet IIRC. Für KDD gibt es aber den etablierten Begriff (auch von dem Autor der Quelle verwendet!) der "Wissensentdeckung in Datenbanken". Ich würde gerne die Originalquelle, also die KI-Zeitschrift, zitieren. Aber diese alte Ausgabe ist online nicht vollständig zu finden. In Ausgabe 1/98 (Schwerpunkt Data Mining) ist beispielsweise die Überschrift "Data Mining und Wissensentdeckung in Datenbanken" zu finden. Der Aufruf eine Übersetzung zu finden ist vermutlich in Ausgabe 1/97 zu suchen ( http://www.informatik.uni-trier.de/~ley/db/journals/ki/ki11.html#Wrobel97 ). Im CFP für die Ausabe 1/98 findet sich jedenfalls:
Begriffswettbewerb
Noch immer gibt es keine guten deutschen Begriffe fuer "Data Mining" und
"Knowledge Discovery in Databases". Bitten schlagen Sie Ihre
Lieblingsvarianten vor, am besten per E-Mail!
Wayback Machine: http://web.archive.org/web/19990202211356/http://www-fit-ki.gmd.de/persons/stefan.wrobel/KI/th-data-mining-call.html
Insofern hätten wir also eine Quelle, die das sogar für beide Begriffe sagt (und in der besagten Ausgabe dann "Wissensentdeckung in Datenbanken" für KDD verwendet). Ich hätte aber gerne noch den Schlagwort-Beitrag auf 1/97 gelesen. --Chire (Diskussion) 19:28, 9. Apr. 2012 (CEST)

Dezimalbruchentwicklung und Logarithmus

In der Einleitung fehlt die Erklärung der Grundlage für das funktionieren des Data-Mining. In der Analysis wird u.A. das Prinzip der Intervallschachtelung benutzt, um aus den Axiomen der Analysis Reele- und Komplexe-Zahlen bezeichnen zu können. Diese Eigenschaften bezüglich des jeweiligen Abstandes zueinander sind relativ einfach; logarithmiert man die Abstände dieser Zahlen zueinander oder zur 0, dann sind die Resultate ein Maß, die mit stochastischen Methoden untersucht werden können.

So long... 79.250.188.74 01:24, 14. Aug. 2012 (CEST)

Das ist keine generelle Grundlage des Data-Mining. Wenn es für konkrete Methoden wichtig ist, sollte es dort und nicht hier diskutiert werden. Aber mal salopp gesagt: Data-Mining muss nicht einmal auf Zahlen erfolgen, es können z.B. auch kategorielle Daten sein. --Chire (Diskussion) 17:41, 8. Okt. 2012 (CEST)