Data-Mining

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Unter Data-Mining [ˈdeɪtə ˈmaɪnɪŋ] (englisch für Daten-Bergbau, sinngemäß „in einem Datenberg nach wertvollem Wissen suchen“) versteht man die systematische Anwendung statistischer Methoden auf einen Datenbestand mit dem Ziel, neue Muster zu erkennen. Hierbei geht es auch um die Verarbeitung sehr großer Datenbestände (die nicht mehr manuell verarbeitet werden könnten), wofür effiziente Methoden benötigt werden, deren Zeitkomplexität sie für solche Datenmengen geeignet macht. Die Methoden finden aber auch für kleinere Datenmengen Anwendung. In der Praxis, vor allem im deutschen Sprachgebrauch, etablierte sich der angelsächsische Begriff „Data-Mining“ für den gesamten Prozess der so genannten „Knowledge Discovery in Databases“ (Wissensentdeckung in Datenbanken; KDD), der auch Schritte wie die Vorverarbeitung beinhaltet, während Data-Mining eigentlich nur den Analyseschritt des Prozesses bezeichnet.[1]

Der Name ist unglücklich gewählt da es um die Gewinnung von Wissen (in der Form von Mustern) und nicht von Daten geht.[2] Der Begriff hat sich dennoch durchgesetzt, da er kurz und prägnant ist. Die reine Erfassung, Speicherung und Verarbeitung von großen Datenmengen wird gelegentlich fälschlicherweise auch mit dem Buzzword Data-Mining bezeichnet. Korrekt verwendet bezeichnet es die Extraktion von Wissen, das „gültig (im statistischen Sinne), bisher unbekannt und potentiell nützlich“[3] ist „zur Bestimmung bestimmter Regelmäßigkeiten, Gesetzmäßigkeiten und verborgener Zusammenhänge“.[4] Fayyad definiert es als „ein Schritt des KDD-Prozesses, der darin besteht, Datenanalyse- und Entdeckungsalgorithmen anzuwenden, die unter akzeptablen Effizienzbegrenzungen eine spezielle Auflistung von Mustern (oder Modellen) der Daten liefern“.[1]

Abgrenzung von anderen Fachbereichen[Bearbeiten]

Viele der im Data-Mining eingesetzten Verfahren stammen eigentlich aus der Statistik, insbesondere der multivariaten Statistik und werden oft nur in ihrer Komplexität für die Anwendung im Data-Mining angepasst, oft dabei zu Ungunsten der Genauigkeit approximiert. Der Verlust an Genauigkeit geht oft mit einem Verlust an statistischer Gültigkeit einher, so dass die Verfahren aus einer rein statistischen Sicht mitunter sogar „falsch“ sein können. Für die Anwendung im Data-Mining sind oft jedoch der experimentell verifizierte Nutzen und die akzeptable Laufzeit entscheidender als eine statistisch bewiesene Korrektheit.

Ebenfalls eng verwandt ist das Thema maschinelles Lernen, jedoch ist bei Data-Mining der Fokus auf dem Finden neuer Muster, während im maschinellen Lernen primär bekannte Muster vom Computer automatisch in neuen Daten wiedererkannt werden sollen. Eine einfache Trennung ist hier jedoch nicht immer möglich: Werden beispielsweise Assoziationsregeln aus den Daten extrahiert, so ist das ein Prozess, der den typischen Data-Mining-Aufgaben entspricht; die extrahierten Regeln erfüllen aber auch die Ziele des maschinellen Lernens. Umgekehrt ist der Teilbereich des unüberwachten Lernens aus dem maschinellen Lernen sehr eng mit Data-Mining verwandt. Verfahren aus dem maschinellen Lernen finden oft im Data-Mining Anwendung und umgekehrt.

Die Forschung im Bereich der Datenbanksysteme, insbesondere von Indexstrukturen spielt für das Data-Mining eine große Rolle, wenn es darum geht, die Komplexität zu reduzieren. Typische Aufgaben wie Nächste-Nachbarn-Suche können mit Hilfe eines geeigneten Datenbankindex wesentlich beschleunigt werden und die Laufzeit eines Data-Mining-Algorithmus dadurch verbessert werden.

Das Information Retrieval (IR) ist ein weiteres Fachgebiet, das von Erkenntnissen des Data-Mining profitiert. Hier geht es vereinfacht gesprochen um die computergestützte Suche nach komplexen Inhalten, aber auch um die Präsentation für den Nutzer. Data-Mining-Verfahren wie die Clusteranalyse finden hier Anwendung um die Suchergebnisse und ihre Präsentation für den Nutzer zu verbessern, beispielsweise indem man ähnliche Suchergebnisse gruppiert. Textmining und Webmining sind zwei Spezialisierungen des Data-Mining, die eng mit dem Information Retrieval verbunden sind.

Die Datenerhebung, also das Erfassen von Informationen in einer systematischen Art und Weise, ist eine wichtige Voraussetzung, um mit Hilfe von Data-Mining gültige Ergebnisse bekommen zu können. Wurden die Daten statistisch unsauber erhoben, so kann ein systematischer Fehler in den Daten vorliegen, der anschließend im Data-Mining-Schritt gefunden wird. Das Ergebnis ist dann unter Umständen keine Konsequenz der beobachteten Objekte, sondern verursacht durch die Art, in welcher die Daten erfasst wurden.

Deutsche Bezeichnung[Bearbeiten]

Eine adäquate deutsche Übersetzung für den Begriff Data-Mining existiert nicht.[5]

Es gibt verschiedene Versuche, eine deutsche Bezeichnung zu finden. Der Duden[4] verwendet keinen davon, sondern die eingedeutschte Schreibweise „Data-Mining“ statt „data mining“ im Englischen. Vorschläge zur Eindeutschung sind beispielsweise „Datenmustererkennung[6] (es geht jedoch nicht um die Wiedererkennung bestehender Muster, sondern um das Finden neuer) und „Datenschürfung“ (ein Versuch das Wort wörtlich zu übersetzen, der jedoch die Bedeutung komplett ignoriert). Der Fremdwörter-Duden verwendet als wörtliche Übersetzung „Datenförderung“, kennzeichnet dies aber als nicht passende Übersetzung.[7] Auch der gezielte Aufruf nach Vorschlägen durch die Zeitschrift für Künstliche Intelligenz brachte keine überzeugenden Vorschläge.[5] Keiner dieser Bezeichner konnte nennenswerte Verbreitung erreichen, oft da bestimmte Aspekte des Themas wie die Wissensentdeckung verloren gehen, und falsche Assoziationen wie zur Mustererkennung im Sinne von Bilderkennung entstehen.

Möchte man einen deutschen Bezeichner verwenden, so bietet sich „Wissensentdeckung in Datenbanken“ an (für das englische „Knowledge Discovery in Databases“), das den gesamten Data-Mining-Prozess umfasst.

Data-Mining-Prozess[Bearbeiten]

Data-Mining ist der eigentliche Analyseschritt des Knowledge Discovery in Databases Prozesses. Die Schritte des iterativen Prozesses sind grob umrissen:[3]

  • Fokussieren: die Datenerhebung und Selektion, aber auch das Bestimmen bereits vorhandenen Wissens
  • Vorverarbeitung: die Datenbereinigung, bei der Quellen integriert und Inkonsistenzen beseitigt werden, beispielsweise durch Entfernen oder Ergänzen von unvollständigen Datensätzen.
  • Transformation in das passende Format für den Analyseschritt, beispielsweise durch Selektion von Attributen oder Diskretisierung der Werte
  • Data-Mining, der eigentliche Analyseschritt
  • Evaluation der gefundenen Muster durch den Experten und Kontrolle der erreichten Ziele

In weiteren Iterationen kann nun bereits gefundenes Wissen verwendet („in den Prozess integriert“) werden um in einem erneuten Durchlauf zusätzliche oder genauere Ergebnisse zu erhalten.

Aufgabenstellungen des Data-Mining[Bearbeiten]

Typische Aufgabenstellungen des Data-Mining sind:[1][3]

  • Ausreißererkennung: Identifizierung von ungewöhnlichen Datensätzen: Ausreißern, Fehlern, Änderungen
  • Clusteranalyse: Gruppierung von Objekten aufgrund von Ähnlichkeiten
  • Klassifikation: bisher nicht Klassen zugeordnete Elemente werden den bestehenden Klassen zugeordnet.
  • Assoziationsanalyse: Identifizierung von Zusammenhängen und Abhängigkeiten in den Daten in Form von Regeln wie „Aus A und B folgt normalerweise C“.
  • Regressionsanalyse: Identifizierung von Beziehungen zwischen (mehreren) abhängigen und unabhängigen Variablen
  • Zusammenfassung: Reduktion des Datensatzes in eine kompaktere Beschreibung ohne wesentlichen Informationsverlust

Diese Aufgabenstellungen können noch grob gegliedert werden in Beobachtungsprobleme (Ausreißererkennung, Clusteranalyse) und Prognoseprobleme (Klassifikation, Regressionsanalyse).

Ausreißererkennung[Bearbeiten]

Hauptartikel: Ausreißer

In dieser Aufgabe werden Datenobjekte gesucht, die inkonsistent zu dem Rest der Daten sind, beispielsweise indem sie ungewöhnliche Attributswerte haben oder von einem generellen Trend abweichen. Das Verfahren Local Outlier Factor sucht beispielsweise Objekte, die eine von ihren Nachbarn deutlich abweichende Dichte aufweisen, man spricht hier von „dichtebasierter Ausreißerkennung“.

Identifizierte Ausreißer werden oft anschließend manuell verifiziert und aus dem Datensatz ausgeblendet, da sie die Ergebnisse anderer Verfahren verschlechtern können. In manchen Anwendungsfällen wie der Betrugserkennung sind aber bereits die Ausreißer die interessanten Objekte.

Clusteranalyse[Bearbeiten]

Hauptartikel: Clusteranalyse

Bei der Clusteranalyse geht es darum, Gruppen von Objekten zu identifizieren, die sich auf eine gewisse Art ähnlicher sind als andere Gruppen. Oft handelt es sich dabei um Häufungen im Datenraum, woher der Begriff Cluster kommt. Bei einer dichteverbundenen Clusteranalyse wie beispielsweise DBSCAN oder OPTICS können die Cluster aber beliebige Formen annehmen. Andere Verfahren wie der EM-Algorithmus oder k-Means-Algorithmus bevorzugen sphärische Cluster.

Objekte, die keinem Cluster zugeordnet wurden, können als Ausreißer im Sinne der zuvor genannten Ausreißererkennung interpretiert werden.

Klassifikation[Bearbeiten]

Hauptartikel: Klassifikationsverfahren

Bei der Klassifikation geht es ähnlich der Clusteranalyse darum, Objekte Gruppen (hier als Klassen bezeichnet) zuzuordnen. Im Gegensatz zur Clusteranalyse sind hier aber in der Regel die Klassen vordefiniert (Beispielsweise: Fahrräder, Autos) und es werden Verfahren aus dem maschinellen Lernen eingesetzt um bisher nicht zugeordnete Objekte diesen Klassen zuzuordnen.

Assoziationsanalyse[Bearbeiten]

Hauptartikel: Assoziationsanalyse

In der Assoziationsanalyse werden häufige Zusammenhänge in den Datensätzen gesucht und meist als Schlussregeln formuliert. Ein beliebtes (wenn auch anscheinend fiktives) Beispiel, das unter anderem in der Fernsehserie Numbers – Die Logik des Verbrechens erwähnt wurde, ist folgendes: bei der Warenkorbanalyse wurde festgestellt, dass die Produktkategorien „Windeln“ und „Bier“ überdurchschnittlich oft zusammen gekauft werden, meist dargestellt in Form einer Schlussregel „Kunde kauft Windeln \Rightarrow Kunde kauft Bier“. Die Interpretation dieses Ergebnisses war, dass Männer, wenn sie von ihren Ehefrauen Windeln kaufen geschickt werden, sich gerne noch ein Bier mitnehmen. Durch Platzierung des Bierregals auf dem Weg von den Windeln zur Kasse konnte angeblich[8] der Bierverkauf weiter gesteigert werden.

Regressionsanalyse[Bearbeiten]

Hauptartikel: Regressionsanalyse

Bei der Regressionsanalyse wird der statistische Zusammenhang zwischen unterschiedlichen Attributen modelliert. Dies erlaubt unter anderem die Prognose von fehlenden Attributswerten, aber auch die Analyse der Abweichung analog zur Ausreißererkennung. Verwendet man Erkenntnisse aus der Clusteranalyse und berechnet separate Modelle für jeden Cluster so können typischerweise bessere Prognosen erstellt werden. Wird ein starker Zusammenhang festgestellt, so kann dieses Wissen auch gut für die Zusammenfassung genutzt werden.

Zusammenfassung[Bearbeiten]

Da Data-Mining oft auf große und komplexe Datenmengen angewendet wird, ist eine wichtige Aufgabe auch die Reduktion dieser Daten auf eine für den Nutzer handhabbare Menge. Insbesondere die Ausreißererkennung identifiziert hierzu einzelne Objekte die wichtig sein können; die Clusteranalyse identifiziert Gruppen von Objekten bei denen es oft reicht, sie nur anhand einer Stichprobe zu untersuchen, was die Anzahl der zu untersuchenden Datenobjekte deutlich reduziert. Die Regressionsanalyse erlaubt es, redundante Informationen zu entfernen und reduziert so die Komplexität der Daten. Klassifikation, Assoziationsanalyse und Regressionsanalyse (zum Teil auch die Clusteranalyse) liefern zudem abstraktere Modelle der Daten.

Mit Hilfe dieser Ansätze wird sowohl die Analyse der Daten als auch beispielsweise deren Visualisierung (durch Stichproben und geringere Komplexität) vereinfacht.

Spezialisierungen[Bearbeiten]

Während die meisten Data-Mining-Verfahren versuchen mit möglichst allgemeinen Daten umgehen zu können, gibt es auch Spezialisierungen für speziellere Datentypen.

Textmining[Bearbeiten]

Hauptartikel: Textmining

Im Textmining geht es um die Analyse von großen textuellen Datenbeständen. Dies kann beispielsweise der Plagiats-Erkennung dienen oder um den Textbestand zu klassifizieren.

Webmining[Bearbeiten]

Hauptartikel: Web-Mining

Beim Webmining geht es um die Analyse von verteilten Daten, wie es Internetseiten darstellen. Für die Erkennung von Clustern und Ausreißern werden hier aber nicht nur die Seiten selbst, sondern insbesondere auch die Beziehungen (Hyperlinks) der Seiten zueinander betrachtet. Durch die sich ständig ändernden Inhalte und die nicht garantierte Verfügbarkeit der Daten ergeben sich zusätzliche Herausforderungen. Dieser Themenbereich ist auch eng mit dem Information Retrieval verbunden.

Zeitreihenanalyse[Bearbeiten]

Hauptartikel: Zeitreihenanalyse

In der Zeitreihenanalyse spielen die temporalen Aspekte und Beziehungen eine große Rolle. Hier können mittels spezieller Distanzfunktionen wie der Dynamic-Time-Warping-Distanz bestehende Data-Mining-Verfahren verwendet werden, es werden aber auch spezialisierte Verfahren entwickelt. Eine wichtige Herausforderung besteht dahin, Reihen mit einem ähnlichen Verlauf zu erkennen, auch wenn dieser etwas zeitlich versetzt ist, aber dennoch ähnliche Charakteristika aufweist.

Probleme des Data-Mining[Bearbeiten]

Daten-Defekte[Bearbeiten]

Viele der Probleme bei Data-Mining stammen aus einer ungenügenden Vorverarbeitung der Daten oder aus systematischen Fehlern und Verzerrung bei deren Erfassung. Diese Probleme sind oft statistischer Natur und müssen bereits bei der Erfassung gelöst werden: aus nicht repräsentativen Daten können keine repräsentativen Ergebnisse gewonnen werden. Hier sind ähnliche Aspekte zu beachten wie bei der Erstellung einer repräsentativen Stichprobe.

Parametrisierung[Bearbeiten]

Die im Data-Mining verwendeten Algorithmen haben oft mehrere Parameter, die geeignet zu wählen sind. Mit allen Parametern liefern sie gültige Ergebnisse, und die Parameter so zu wählen, dass die Ergebnisse auch nützlich sind, ist eine Aufgabe des Benutzers. Wählt man beim Clusteranalyse-Algorithmus DBSCAN beispielsweise die Parameter minPts und \varepsilon klein, so findet der Algorithmus eine fein aufgelöste Struktur, neigt aber auch dazu, Cluster in kleine Stücke zu zerteilen. Wählt man die Parameter größer, so findet er nur noch die Hauptcluster, die jedoch schon bekannt sein können, und dadurch auch nicht hilfreich. Weiterentwickelte Methoden haben oft weniger Parameter oder diese Parameter sind leichter zu wählen. Beispielsweise ist OPTICS eine Weiterentwicklung von DBSCAN, die den Parameter \varepsilon weitgehend eliminiert.

Evaluation[Bearbeiten]

Die Bewertung von Data-Mining-Ergebnissen stellt den Benutzer vor das Problem, dass er einerseits neue Erkenntnisse gewinnen möchte, andererseits Verfahren dann nur schwer automatisiert bewerten kann. Bei Prognoseproblemen wie der Klassifikation, Regressionsanalyse und Assoziationsanalyse lässt sich hier die Prognose auf neuen Daten zur Bewertung verwenden. Bei Beschreibungsproblemen wie der Ausreißererkennung und der Clusteranalyse ist dies schwieriger. Cluster werden meist intern oder extern bewertet, also anhand ihrer mathematischen Kompaktheit oder ihrer Übereinstimmung mit bekannten Klassen.[9] Die Ergebnisse von Ausreißererkennungsverfahren werden mit bekannten Ausreißern verglichen. Bei beiden stellt sich jedoch die Frage, ob diese Bewertung wirklich zur Aufgabenstellung der „neuen Erkenntnisse“ passt und nicht letztlich die „Reproduktion alter Erkenntnisse“ bewertet.

Interpretation[Bearbeiten]

Als statistische Verfahren analysieren die Algorithmen die Daten ohne Hintergrundwissen über deren Bedeutung. Daher können die Verfahren meist nur einfache Modelle wie Gruppen oder Mittelwerte liefern. Oftmals sind die Ergebnisse als solche nicht mehr nachvollziehbar. Diese maschinell gewonnenen Ergebnisse müssen aber anschließend noch von dem Benutzer interpretiert werden, bevor man sie wirklich als Wissen bezeichnen kann.

Anwendungsgebiete[Bearbeiten]

Neben den Anwendungen in den verwandten Bereichen der Informatik findet Data-Mining auch zunehmend Einsatz in der Industrie:

Rechtliche, moralische und psychologische Aspekte[Bearbeiten]

Data-Mining als wissenschaftliche Disziplin ist zunächst wertneutral. Die Verfahren erlauben die Analyse von Daten aus nahezu beliebigen Quellen, beispielsweise Messwerte von Bauteilen oder die Analyse von historischen Knochenfunden. Beziehen sich die analysierten Daten jedoch auf Personen, so entstehen wichtige rechtliche und moralische Probleme; typischerweise aber bereits bei der Erfassung und Speicherung dieser Daten, nicht erst bei der Analyse, und unabhängig von der konkret verwendeten Analysemethode (Statistik, Datenbankanfragen, Data-Mining, ...).

Rechtliche Aspekte[Bearbeiten]

Hauptartikel: Datenschutz und Personenbezogene Daten

Daten, die unzulänglich anonymisiert wurden, können möglicherweise durch Datenanalyse wieder konkreten Personen zugeordnet (deanonymisiert) werden. Typischerweise wird man hier jedoch nicht Data-Mining einsetzen, sondern einfachere und spezialisierte Analysemethoden zur Deanonymisierung. Eine derartige Anwendung - und vor allem die unzulängliche Anonymisierung zuvor - sind dann möglicherweise illegal (nach dem Datenschutzrecht). So gelang es Forschern beispielsweise anhand weniger Fragen Nutzerprofile eindeutig in einem sozialen Netzwerk zu identifizieren.[10] Werden beispielsweise Bewegungsdaten nur pseudonymisiert, so kann mit einer einfachen Datenbankanfrage (technisch gesehen kein Data-Mining!) oft der Nutzer identifiziert werden, sobald man seinen Wohnort und Arbeitsplatz kennt: die meisten Personen können anhand der 2-3 Orte, an denen sie am meisten Zeit verbringen, eindeutig identifiziert werden.

Das Datenschutzrecht spricht allgemein von der „Erhebung, Verarbeitung oder Nutzungpersonenbezogener Daten, da diese Problematik nicht erst bei der Verwendung von Data-Mining auftritt, sondern auch bei der Verwendung anderer Analysemethoden (bspw. Statistik). Ein zuverlässiger Schutz vor einer missbräuchlichen Analyse ist nur möglich, indem die entsprechenden Daten gar nicht erst erfasst und gespeichert werden.

Moralische Aspekte[Bearbeiten]

Die Anwendung von Data-Mining-Verfahren auf personenbeziehbare Daten wirft auch moralische Fragen auf. Beispielsweise, ob ein Computerprogramm Menschen in "Klassen" einteilen sollte. Zudem eignen sich viele der Verfahren zur Überwachung und für eine fortgeschrittene Rasterfahndung. So stellt beispielsweise der SCHUFA-Score eine durch Statistik, vielleicht auch Data-Mining, gewonnene Einteilung der Menschen in die Klassen "kreditwürdig" und "nicht kreditwürdig" dar und wird entsprechend kritisiert.

Psychologische Aspekte[Bearbeiten]

Data-Mining-Verfahren selbst arbeiten wertneutral und berechnen nur Wahrscheinlichkeiten, ohne die Bedeutung dieser Wahrscheinlichkeit zu kennen. Werden Menschen jedoch mit dem Ergebnis dieser Berechnungen konfrontiert, so kann das überraschte, beleidigte oder befremdete Reaktionen hervorrufen. Daher ist es wichtig abzuwägen, ob und wie man jemanden mit derartigen Ergebnissen konfrontiert.

Google gewährt seinen Nutzern Einblick in die für sie ermittelten Zielgruppen[11] – sofern kein Opt-Out erfolgt ist – und liegt dabei oft falsch. Eine amerikanische Kaufhauskette kann aber anhand des Einkaufsverhaltens erkennen, ob eine Kundin schwanger ist.[12] Mit Hilfe dieser Information können gezielt Einkaufsgutscheine verschickt werden. Selbst eine Vorhersage des Datums der Geburt ist so möglich.

Softwarepakete für Data-Mining[Bearbeiten]

Literatur[Bearbeiten]

Folgende Literatur liefert einen Überblick über das Gebiet Data-Mining aus Sicht der Informatik.
Aufgaben- und anwendungsspezifische Literatur findet sich in den jeweiligen Artikeln.

Einzelnachweise[Bearbeiten]

  1. a b c  Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth: From Data Mining to Knowledge Discovery in Databases. In: AI Magazine. 17, Nr. 3, 1996, S. 37–54 (als PDF auf: kdnuggets.com).
  2.  Jiawei Han, Micheline Kamber: Data mining: concepts and techniques. 1 Auflage. Morgan Kaufmann, 2001, ISBN 9781558604896, S. 5 (Thus, data mining should habe been more appropriately named "knowledge mining from data," which is unfortunately somewhat long).
  3. a b c  Martin Ester, Jörg Sander: Knowledge Discovery in Databases. Techniken und Anwendungen. Springer, Berlin 2000, ISBN 3-540-67328-8.
  4. a b Duden online: Duden: Data-Mining: Bedeutung, Rechtschreibung, Grammatik, Herkunft. Bibliographisches Institut, abgerufen am 9. August 2011 (deutsch).
  5. a b [Von der Zeitschrift "Künstliche Intelligenz" ...] „wurde ein Wettbewerb durchgeführt, einen adäquaten deutschen Begriff zu finden. Und so leid es mir tut, es wurde kein adäquater deutscher Begriff gefunden.“
     Hans-Peter Kriegel: Datenbanktechniken zur Unterstützung des Wissenserwerbs. In: Heinz Mandl, Gabi Reinmann-Rothmeier (Hrsg.): Wissensmanagement: Informationszuwachs - Wissensschwund? Die strategische Bedeutung des Wissensmanagements. Oldenbourg, München/ Wien 2000, ISBN 3-486-25386-7, S. 47–71.
  6. N. Bissantz, J. Hagedorn: Data Mining. (Datenmustererkennung), In: Wirtschaftsinformatik. 35 (1993) 5, S. 481–487.
  7. Duden - Das Fremdwörterbuch: „engl. eigtl. »Datenförderung«“
  8. Diese Geschichte ist vermutlich eine moderne Sage. Das Bier wird je nach Variante neben den Windeln, auf dem Weg zur Kasse oder am anderen Ende des Supermarktes (damit der Kunde an möglichst vielen weiteren Produkten vorbei gehen muss) platziert.
    KDNuggets-Beitrag, der eine mögliche Quelle des Mythos erwähnt
  9.  I. Färber, S. Günnemann, H.-P. Kriegel, P. Kröger, E. Müller, E. Schubert, T. Seidl, A. Zimek: On Using Class-Labels in Evaluation of Clusterings. In: MultiClust: 1st International Workshop on Discovering, Summarizing and Using Multiple Clusterings Held in Conjunction with KDD 2010, Washington, DC. 2010 (als PDF auf: dbs.informatik.uni-muenchen.de).
  10. Sicherheitslücke: IT-Forscher enttarnen Internetsurfer. Spiegel Online, abgerufen am 7. Dezember 2011.
  11. Google Ad Preferences
  12. Forbes: How Target Figured Out A Teen Girl Was Pregnant Before Her Father Did, Englisch, vom 16.02.2012