Tf-idf-Maß

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Das Tf-idf-Maß (von englisch term frequency ‚Vorkommenshäufigkeit‘ und inverse document frequencyinverse Dokumenthäufigkeit‘) wird im Information Retrieval zur Beurteilung der Relevanz von Termen in Dokumenten einer Dokumentenkollektion eingesetzt.

Mit der so errechneten Gewichtung eines Wortes bezüglich des Dokuments, in welchem es enthalten ist, können Dokumente als Suchtreffer einer wortbasierten Suche besser in der Trefferliste angeordnet werden, als es beispielsweise über die Termfrequenz allein möglich wäre.

Vorkommenshäufigkeit[Bearbeiten | Quelltext bearbeiten]

Die Vorkommenshäufigkeit (auch Suchwortdichte genannt) gibt an, wie häufig der Term im Dokument vorkommt. Ist beispielsweise das Dokument 5 der Satz

Das rote Auto hält an der roten Ampel.

dann ist

Um eine Verzerrung des Ergebnisses in langen Dokumenten zu verhindern, ist es möglich, die Vorkommenshäufigkeit zu normalisieren. Dazu wird die Anzahl der Vorkommen von Term in Dokument durch die maximale Häufigkeit eines Terms in geteilt.

Inverse Dokumenthäufigkeit[Bearbeiten | Quelltext bearbeiten]

Die inverse Dokumenthäufigkeit misst die allgemeine Bedeutung des Terms für die Gesamtmenge der betrachteten Dokumente.

Die inverse Dokumentfrequenz hängt nicht vom einzelnen Dokument, sondern vom Dokumentkorpus (der Gesamtmenge aller Dokumente im Retrievalszenario) ab:

Hier ist die Anzahl der Dokumente im Korpus und die Anzahl der Dokumente, die Term beinhalten.

Das Gewicht eines Terms im Dokument ist dann nach TF-IDF:

In den meisten Anwendungen dürfte es sinnvoll sein, dass ein vielfaches Vorkommen eines Terms nicht auch in gleichem Maße zur Relevanz beiträgt. In der Praxis wird der TF-Wert daher in der Regel normalisiert.

Literatur[Bearbeiten | Quelltext bearbeiten]

  • Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison-Wesley, Harlow u. a. 1999, ISBN 0-201-39829-X, S. 29–30.