„Apriori-Algorithmus“ – Versionsunterschied

Versionsgeschichte interaktiv durchsuchen

[gesichtete Version]

← Zum vorherigen Versionsunterschied Zum nächsten Versionsunterschied →

Inhalt gelöscht Inhalt hinzugefügt

Inline

Version vom 16. September 2008, 18:35 Uhr

Der Apriori-Algorithmus ist ein Verfahren zur Assoziationsanalyse, einem Bereich des Datamining. Er dient der Auffindung von sinvollen und nützlichen Zusammenhängen in transaktionsbasierten Datenbasen, die in Form von sogenannten Assoziationsregeln dargestellt werden. Eine häufige Anwendung des Apriori-Algorithmus ist die Warenkorbanalyse. Items sind hierbei angebotene Produkte und ein Einkauf stellt eine Transaktion dar, welche die gekauften Items enthält. Der Algorithmus bestimmt nun Korrelationen der Form:

Wenn Shampoo und Rasierwasser gekauft wurden, wurde in 90% der Fälle auch Rasierschaum gekauft.

Eine passende Datenbasis besteht aus einer Tabellen von Transaktionen (Zeilen) in denen beliebige binäre Items (Spalten) zusammengefasst werden. Der Apriori-Algorithmus findet Zusammenhänge zwischen Mengen von Items die in einem großen Teil der Transaktionen vorkommen. Die ausgegebenen Assoziationsregeln haben die Form $A\rightarrow B$ , wobei $A$ und $B$ Mengen von Items sind. Eine solche Regel beschreibt, dass in einem großen Teil der Transaktionen die Itemmenge A vorkommt und in diesen Transaktion die Itemmenge B ebenfalls häufig ist.

Voraussetzungen

Der Apriori-Algorithmus wird bei Datenbasen einer bestimmten Form angewendet. Die Form der Datenbasis muss wie folgt vorliegen:

${\mathcal {I}}$ ist eine Menge von möglichen Items
${\mathcal {D}}=\{t_{1},t_{2},...,t_{n}\}$ ist die Datenbasis, bestehend aus Transaktionen $t_{x}$
eine Transaktion $t_{x}\subseteq {\mathcal {I}}$ fasst eine Menge von Items zusammen

Typischerweise wird eine Menge von mehr als 500.000 Transaktionen auf einer sehr großen Item-Basis analysiert. Die Darstellung der Datenbasis erfolgt in einer de-normalisierten Datenbanktabelle, welche für jedes Mögliche Item eine Spalte besitzt. Die enthaltenen Zeilen stellen jeweils eine Transaktion dar, wobei in der Transaktion enthaltene Items mit einer 1, nicht enthaltene mit einer 0 gekennzeichnet werden. Eine Transaktion lässt sich somit auch als Vektor mit $\mid {\mathcal {I}}\mid$ Dimensionen betrachten.

Eine Assotiationsregel ist von der Form

X\rightarrow \!\,Y

wobei gilt

$X\subseteq {\mathcal {I}}$
$Y\subseteq {\mathcal {I}}$
$X\cap Y=\emptyset$

Bewertung von Regeln

Assotiationsregeln werden mit zwei propabilistischen Messwerten bewertet: Support und Konfidenz. Der Apriori-Algorithmus erwartet als Eingabe unter anderem die Werte minsupp und minconf, welche den minimalen Support und die minimale Konfidenz einer Regel darstellen, damit sie berücksichtigt werden.

Support

Der Support einer Itemmenge ist die Warscheinlichkeit dass diese Itemmenge in einer Transaktion vorkommt.

Sei $X={A_{1},A_{2},...,A_{n}}$ Itemmenge.

{\begin{aligned}Support(X)&=\!\,P(A_{1},A_{2},...,A_{n})\\&={\frac {\mid \{t\in {\mathcal {D}}\mid X\subseteq t\}\mid }{\mid D\mid }}\end{aligned}}

.

Der Support einer Assotiationsregel $X\rightarrow Y$ , mit $X=\{A_{1},A_{2},...,A_{n}\}$ und $Y=\{B_{1},B_{2},...,B_{m}\}$ , ist definiert als

{\begin{aligned}Support(X\rightarrow Y)&=\!\,Support(X\cup Y)\\&=\!\,P(A_{1},A_{2},...,A_{n},B_{1},B_{2},...,B_{M})&={\frac {\mid \{t\in {\mathcal {D}}\mid X\cup Y\subseteq t\}\mid }{\mid D\mid }}\end{aligned}}

Der Support einer Regel gibt also die relative Häufigkeit an, mit der die Regel in der Datenbasis vorkommt. Meist ist ein hoher Support wünschenswert, um Aussagen über Mehrheiten zu finden.

Konfidenz

Sei $X\rightarrow \!\,Y$ eine Assotiationsregel, mit $X=\{A_{1},A_{2},...,A_{n}\}$ und $Y=\{B_{1},B_{2},...,B_{m}\}$ .

Die Konfidenz einer Regel entspricht der Wahrscheinlichkeit der Konklusion unter Bedingung der Prämisse:

Conf(X\rightarrow \!\,Y)=P(A_{1},A_{2},...,A_{n}\mid B_{1},B_{2},...,B_{3})

also

{\begin{aligned}Conf(X\rightarrow Y)&={\frac {Support(X\cup Y)}{Support(X)}}\\&={\frac {\mid \{t\in {\mathcal {D}}\mid X\cup Y\subseteq t\}\mid }{\mid \{t\in {\mathcal {D}}\mid X\subseteq t\}\mid }}\end{aligned}}

Die Konfidenz misst also die relative Häufigkeit des Vorkommens der Konklusion unter Bedingung der Prämisse. Auch für die Konfidenz ist ein hoher Wert wünschenswert.

Der Algorithmus

Der Apriori-Algorithmus erhält als Eingaben

Die Datenbasis ${\mathcal {D}}$
Den Minimal-Support $minsupp$
Die minimale Konfidenz $minconf$

und gibt eine Menge von Assitiationsregeln aus, die sowohl $minsupp$ als auch $minconf$ erfüllen.

Der Algorithmus arbeitet in zwei Schritten welche beide einen gemeinsamen Schritt Apriori-Gen verwenden:

1. Findung häufiger Mengen 2. Erzeugung von Assotiationsregeln

Findung häufiger Itemmengen

Die Suche nach häufiger Itemmengen startet mit 1-elementigen Mengen und wird iterativ mit n-elementigen Mengen fortgeführt, bis keine Itemmengen mit genügendem Support mehr gefunden werden. Dabei wird in jeder Iteration eine Menge von Kandidatenmengen mittels Apriori-Gen erzeugt und jede Menge auf die $minconf$ -Eigenschaft hin überprüft. Können keine neuen Mengen mehr gefunden werden, stoppt der Algorithmus und gibt die gefundenen Mengen aus.

Berechne alle 1-elementigen Itemmengen mit Support > $minsupp$ : $L_{1}$ .
Für $k-1\rightarrow k$ $k-1\rightarrow k$ .
1. Berechne Menge von Kandidaten $C_{k}$ aus $L_{k-1}$ mittels Apriori-Gen.
2. Berechne den Tatsächlichen Support von allen Mengen aus $C_{k}$ .
3. Nimm die Mengen mit genügend Support in $L_{k}$ auf.
4. Ist $L_{k}=\emptyset$ , brich ab.
Gib $\bigcap {}{L_{k}}$ zurück.

Die Zurückgegebene Menge enthält alle häufigen Itemmengen.

Apriori-Gen

Die Sub-Routine Apriori-Gen wird sowohl bei der berechnung häufiger Mengen, als auch bei der Generierung von Assiotiationsregeln verwendet. Anstatt für alle möglichen Itemmengen den Support direkt zu Berechnen, wird durch Apriori-Gen auf Basis von bereits gefundenen häufigen Mengen eine Menge von Kandidaten zur weiteren Überprüfung generiert.

Die Routine erhält als eingabe eine Menge von häufigen $k-1$ -Itemmengen ( $L_{k-1}$ ) und gibt eine Menge von $k$ -Itemmengen ( $C_{k}$ ) als mögliche Kandidaten zurück. Sie basiert auf dem Prinzip, dass alle Teilmengen einer häufigen Itemmenge häufig sind, alle Obermengen einer nicht-häufigen Itemmenge aber auch nicht-häufig. Unnötige Support-Berechnungen werden so vermieden.

Generiere $k$ -Itemmengen durch Verschmelzung von je zwei $k-1$ -Itemmengen, die je $k-2$ Items gemein haben und füge sie $C_{k}$ hinzu.
Überprüfe für jede Menge $X$ in $C_{k}$ , ob alle $k-1$ -Teilmengen in $L_{k-1}$ enthalten sind. Falls nicht, entferne $X$ aus $C_{k}$ .

Beispiel

Die Eingabe zu Apriori-Gen sei:

L_{3}=\{\{a,b,c\},\{a,b,d\},\{a,b,e\},\{b,c,d\}\}

Schritt 1 der Apriori-Gen-Routine berechnet nun die folgende Kandidaten Menge:

C_{4}=\{\{a,b,c,d\},\{a,b,c,e\},\{a,b,d,e\}\}

Schritt 2 entfernt die Mengen $\{a,b,c,e\}$ und $\{a,b,d,e\}$ wieder aus $C_{4}$ , da $\{b,c,e\}$ und $\{b,d,e\}$ nicht in $L_{3}$ nicht enthalten sind. Beide Mengen sind also nicht häufig und Ihre Obermengen müssen nicht berücksichtigt werden.

Das Ergebnis von Apriori-Gen ist also

C_{4}=\{\{a,b,c,d\}\}

Generierung von Assotiationsregeln

Nur Itemmengen die bereits in sich häufig sind, müssen für diesen Schritt des Algorithmus berücksichtigt werden. Solche Itemmengen wurden von Schritt 1 des Apriori-Algoroithmus berechnet. Die von Schritt 1 verwendete Routine Apriori-Gen wird bei der Generierung von Assotiationsregeln erneut verwendet.

Für jede gefundene häufige Itemmenge wird versucht Assotiationsregeln zu erzeugen. Dabei wird mit möglichst kurzen (1-elementigen) Konklusionen begonnen, welche iterativ vergrößért werden. Der folgende Pseudocode wird für jede gefundene Itemmenge $Z$ ausgeführt:

Berechne Assotiationsregeln der Form $X\rightarrow Y$ mit $\mid Y\mid =1$ und $X=Z-Y$ mit $Konfidenz(X\rightarrow Y)>minconf$ .
Erzeuge $H_{1}$ mit Itemmengen bestehend aus je einer gefundenen Konklusion.
$H_{k-1}\rightarrow H_{k}$ $H_{k-1}\rightarrow H_{k}$
1. Erzeuge $H_{k}$ durch Apriori-Gen.
2. Für jede Konklusion $h_{k}\in H_{k}$ überprüfe $minconf$ von $(Z-h_{k})\rightarrow h_{k}$ . Falls $minconf$ nicht erfüllt ist, entferne $h_{k}$ aus $H_{k}$ .
3. Wenn $H_{k}=\emptyset$ , brich ab.
Gib $\bigcup H_{k}$ zurück.

Die erzeugten Regeln erfüllen alle $minsupp$ und $minconf$ .

Literatur

Jean-Marc Adamo: Data Mining for Association Rules and Sequential Patterns: Sequential and Parallel Algorithms. Springer, Berlin, New York 2001, ISBN 978-0-387-95048-8.

Weblinks

Gabriele Kern-Isberner: Wissenserwerb und Wissensentdeckung in Darstellung, Verarbeitung und Erwerb von Wissen 2007/2008
Katharina Morik: Assotiationsregeln in Wissensentdeckung in Datenbanken 2008

@@ Zeile 135: / Zeile 135: @@
 Die erzeugten Regeln erfüllen alle <math>minsupp</math> und <math>minconf</math>.
+== Literatur ==
+{{Literatur
+    | Autor=Jean-Marc Adamo
+    | Titel=Data Mining for Association Rules and Sequential Patterns: Sequential and Parallel Algorithms
+    | Verlag=Springer, Berlin
+    | Jahr=2001
+    | ISBN=978-0-3879-5048-8
+    | Ort=New York
+    | Originalsprache=en
+    }}
 == Weblinks ==