Jaccard-Koeffizient
Der Jaccard-Koeffizient oder Jaccard-Index nach dem Schweizer Botaniker Paul Jaccard (1868–1944) ist eine Kennzahl für die Ähnlichkeit von Mengen.
Inhaltsverzeichnis |
Definition [Bearbeiten]
Um den Jaccard-Koeffizient zweier Mengen zu berechnen, teilt man die Anzahl der gemeinsamen Elemente durch die Größe der Vereinigungsmenge:
Für
Mengen gilt
Je näher der Jaccard-Koeffizient an 1 liegt, desto größer ist die Ähnlichkeit der Mengen.
Beispiel [Bearbeiten]
Die beiden Mengen
und
haben die Jaccard-Koeffizienten
Jaccard-Metrik [Bearbeiten]
Aus dem Jaccard-Koeffizienten lässt sich die Jaccard-Metrik ableiten. Diese Metrik berechnet sich nach der Formel
.
Allgemein:
.
Anwendungen [Bearbeiten]
Im Bereich Textmining und hier insbesondere der Duplikaterkennung ist die Jaccard-Ähnlichkeit ein bekanntes Maß für die Ähnlichkeit zweier Elemente. Dabei werden zwei Strings in Token zerlegt (z.B. geteilt an den Leerzeichen oder unter Verwendung von N-Grammen (n > 1)). Die daraus entstehenden Mengen an „String-Schnippseln“ werden wie oben beschrieben zur Berechnung der Ähnlichkeit der beiden Mengen verwendet.



.
.