Jaccard-Koeffizient

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Der Jaccard-Koeffizient oder Jaccard-Index nach dem Schweizer Botaniker Paul Jaccard (1868–1944) ist eine Kennzahl für die Ähnlichkeit von Mengen.

Intersection of sets A and B.svg
Union of sets A and B.svg
Schnittmenge (oben) und Vereinigungsmenge (unten) von zwei Mengen A und B

Definition[Bearbeiten | Quelltext bearbeiten]

Um den Jaccard-Koeffizient zweier Mengen zu berechnen, teilt man die Anzahl der gemeinsamen Elemente (Schnittmenge) durch die Größe der Vereinigungsmenge:

.

Für Mengen gilt

.

Je näher der Jaccard-Koeffizient an 1 liegt, desto größer ist die Ähnlichkeit der Mengen. Der minimale Wert des Jaccard-Koeffizienten ist 0.

Beispiel[Bearbeiten | Quelltext bearbeiten]

Die beiden Mengen und haben den Jaccard-Koeffizienten

Jaccard-Metrik[Bearbeiten | Quelltext bearbeiten]

Aus dem Jaccard-Koeffizienten lässt sich die Jaccard-Metrik ableiten. Diese Metrik berechnet sich nach der Formel

.

Allgemein:

.

Anwendungen[Bearbeiten | Quelltext bearbeiten]

Im Bereich Textmining und hier insbesondere der Duplikaterkennung ist die Jaccard-Ähnlichkeit ein bekanntes Maß für die Ähnlichkeit zweier Elemente. Dabei werden zwei Strings in Token zerlegt (z. B. geteilt an den Leerzeichen oder unter Verwendung von N-Grammen mit ). Die daraus entstehenden Mengen an Stringabschnitten werden wie oben beschrieben zur Berechnung der Ähnlichkeit der beiden Mengen verwendet.