Kosinus-Ähnlichkeit

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Kosinus-Ähnlichkeit ist ein Maß für die Ähnlichkeit zweier Vektoren. Dabei wird der Kosinus des Winkels zwischen beiden Vektoren bestimmt. Der Kosinus des eingeschlossenen Winkels Null ist eins; für jeden anderen Winkel ist der Kosinus des eingeschlossenen Winkels kleiner als eins. Er ist daher ein Maß dafür, ob zwei Vektoren ungefähr in die gleiche Richtung zeigen.

Typische Anwendungen finden sich im Vergleich von Dokumenten, von Multimedia-Objekten, im Textmining, im Data-Mining, im Auffinden von Plagiaten, bei Suchmaschinen oder in der Kryptographie bei der Entschlüsselung chiffrierter Texte. Durch Ermittlung der Kosinus-Ähnlichkeit der Zeichen-Platzierungsvektoren gelang 2011 die Entschlüsselung des Codex Copiale, eines Dokuments in Geheimschrift.

Mathematik[Bearbeiten]

Der Kosinus zweier Vektoren bestimmt sich aus dem Standardskalarprodukt:

\mathbf{a}\cdot\mathbf{b}
=\left\|\mathbf{a}\right\|\left\|\mathbf{b}\right\|\cos\theta

Die Kosinus-Ähnlichkeit zweier Vektoren a und b ist der Kosinus des eingeschlossenen Winkels θ

 \text{Kosinus-Ähnlichkeit} = \cos(\theta) = {a \cdot b \over \|a\| \|b\|} = \frac{ \sum_{i=1}^{n}{a_i \cdot b_i} }{ \sqrt{\sum_{i=1}^{n}{(a_i)^2}} \cdot \sqrt{\sum_{i=1}^{n}{(b_i)^2}} }

Die Kosinus-Ähnlichkeit reicht daher von −1, genau entgegengerichtet, bis 1, genau gleichgerichtet. Ein Wert von 0 bedeutet üblicherweise Unabhängigkeit (Orthogonalität). Zwischenwerte zeigen Ähnlichkeit oder Unähnlichkeit an.

Bei Textvergleichen nimmt man als Attribut-Vektoren a und b üblicherweise Häufigkeits-Vektoren des Dokuments an, deren Gewicht nie negativ sein kann. Daher liegt die Kosinus-Ähnlichkeit in diesem Fall stets zwischen 0 und 1.

Siehe auch[Bearbeiten]

Weblinks[Bearbeiten]