Union-Find-Struktur

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Eine Union-Find-Datenstruktur verwaltet die Partition einer Menge. Der abstrakte Datentyp wird durch die Menge der drei Operationen {Union, Find, Make-Set} gebildet. Union-Find-Strukturen dienen zur Verwaltung von Zerlegungen in disjunkte Mengen. Dabei bekommt jede Menge der Zerlegung ein kanonisches Element zugeordnet, welches als Name der Menge dient. Union vereinigt zwei solche Mengen, Find(x) bestimmt das kanonische Element derjenigen Menge, die x enthält, und Make-Set erzeugt eine Einermenge {x} mit dem kanonischen Element x.

Anwendungen[Bearbeiten]

Union-Find-Strukturen eignen sich gut, um Zusammenhangskomponenten von Graphen zu verwalten. Der Algorithmus von Kruskal erfordert beispielsweise eine solche Datenstruktur, um effizient implementiert werden zu können.

Definition[Bearbeiten]

Eine endliche Menge S sei in die disjunkten Klassen X_i partitioniert:

S = X_0 \uplus X_1 \uplus X_2 \uplus \ldots \uplus X_k mit X_i \cap X_j = \varnothing \quad\forall i, j \in \lbrace 0, 1, \ldots, k \rbrace, i \neq j.

Zu jeder Klasse X_i wird ein Repräsentant r_i \in X_i ausgewählt. Die zugehörige Union-Find-Struktur unterstützt die folgenden Operationen effizient:

  • Init(S): Initialisiert die Struktur und bildet für jedes x \in S eine eigene Klasse mit x als Repräsentant.
  • Union(r, s): Vereinigt die beiden Klassen, die zu den beiden Repräsentanten r und s gehören, und bestimmt r zum neuen Repräsentanten der neuen Klasse.
  • Find(x): Bestimmt zu x \in S den eindeutigen Repräsentanten, zu dessen Klasse x gehört.

Implementierung[Bearbeiten]

Eine triviale Implementierung speichert die Zugehörigkeiten zwischen den Elementen aus S und den Repräsentanten r_i in einem Array. Für kürzere Laufzeiten werden jedoch in der Praxis Mengen von Bäumen verwendet. Dabei werden die Repräsentanten in den Wurzeln der Bäume gespeichert, die anderen Elemente der jeweiligen Klasse in den Knoten darunter.

  • Union(r, s): Hängt die Wurzel des niedrigeren Baumes als neues Kind unter die Wurzel des höheren Baumes (gewichtete Vereinigung). Falls nun r Kind von s ist, werden r und s vertauscht.
  • Find(x): Wandert vom Knoten x aus den Pfad innerhalb des Baumes nach oben bis zur Wurzel und gibt diese als Ergebnis zurück.

Heuristiken[Bearbeiten]

Um die Operationen Find und Union zu beschleunigen, gibt es die zwei Heuristiken Union-By-Size und Pfadkompression.

Union-By-Size[Bearbeiten]

Bei der Operation Union(r,s) wird der Baum, der kleiner ist, unter den größeren Baum gehängt. Damit verhindert man, dass einzelne Teilbäume zu Listen entarten können wie bei der naiven Implementation (r wird in jedem Fall Wurzel des neuen Teilbaums). Die Tiefe eines Teilbaums T kann damit nicht größer als \log \left|T\right| werden. Mit dieser Heuristik verringert sich die Worst-Case-Laufzeit von Find von O(n) auf O(\log n). Für eine effiziente Implementation führt man bei jeder Wurzel die Anzahl der Elemente im Teilbaum mit.

Pfadkompression[Bearbeiten]

Um spätere Find(x)-Suchvorgänge zu beschleunigen, versucht man die Wege vom besuchten Knoten zur zugehörigen Wurzel zu verkürzen.

maximale Verkürzung (Wegkompression)[Bearbeiten]

Nach dem Ausführen von Find(x) werden alle Knoten auf dem Pfad von x zur Wurzel direkt unter die Wurzel gesetzt. Dieses Verfahren bringt im Vergleich zu den beiden folgenden den größten Kostenvorteil für nachfolgende Aufrufe von Find für einen Knoten im gleichen Teilbaum. Zwar muss dabei jeder Knoten auf dem Pfad zwischen Wurzel und x zweimal betrachtet werden, für die Laufzeit ist das jedoch egal.

Aufteilungsmethode (splitting)[Bearbeiten]

Während des Durchlaufes lässt man jeden Knoten auf seinen bisherigen Großvater zeigen (falls vorhanden); damit wird ein durchlaufender Pfad in zwei der halben Länge zerlegt.

Halbierungsmethode (halving)[Bearbeiten]

Während des Durchlaufes lässt man jeden zweiten Knoten auf seinen bisherigen Großvater zeigen.

Diese Methoden haben beide dieselben amortisierten Kosten wie die oberste Kompressionsmethode (Knoten unter die Wurzel schreiben). Alle Kompressionsmethoden beschleunigen zukünftige Find(x)-Operationen.

Laufzeiten[Bearbeiten]

Union-Find-Datenstrukturen ermöglichen die Ausführung der obigen Operationen mit den folgenden Laufzeiten (n=\left| S \right|):

Triviale Implementierung mit einem Array A (A[i] = x: Knoten i liegt in der Menge x), worst-case: Find O(1), Union: O(n)

Implementierung mit Bäumen:

  • ohne Heuristiken: Find O(n), Union O(1)
  • mit Union-By-Size, worst-case: Find O(\log(n)), Union O(1)
  • mit Union-By-Size, Pfadkompression, worst-case: Find O(\log(n)), Union O(1)
  • mit Union-By-Size, Pfadkompression, Folge von m Find- und n-1 Union-Operationen: O\left(n + m \cdot\alpha(n)\right)

Dabei ist \alpha(n) die Umkehrfunktion der Ackermannfunktion A(n,n). Sie wächst sehr langsam und ist für alle „praktischen“ Eingaben (n<10^{80}) kleiner als 5. Im Jahr 1977 hat Robert Tarjan gezeigt, dass für eine Sequenz m Find- und n-1 Union-Operationen jede Datenstruktur im Pointer-Maschinen Modell eine Laufzeit von \Omega\left(n + m \cdot\alpha(n)\right) benötigt.[1] Fredman und Saks haben 1989 gezeigt, dass diese untere Schranke auch im allgemeineren Cell-Probe Modell gilt.[2] Daraus folgt, dass die Datenstruktur mit Union-By-Size und Pfadkompression eine asymptotisch optimale Laufzeit besitzt, und es keine Union-Find-Datenstruktur geben kann, die sowohl Find als auch Union amortisiert in O(1) ausführt.

Weblinks[Bearbeiten]

Einzelnachweise[Bearbeiten]

  1. Robert E. Tarjan: A class of algorithms which require nonlinear time to maintain disjoint sets. In: Journal of Computer and System Sciences. 18, Nr. 2, 1979, S. 110–127. doi:10.1016/0022-0000(79)90042-4.,
  2. M. Fredman, M. Saks: The cell probe complexity of dynamic data structures. In: Proceedings of the Twenty-First Annual ACM Symposium on Theory of Computing., S. 345–354. doi:10.1145/73007.73040