Tf-idf-Maß

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von TF-IDF)
Wechseln zu: Navigation, Suche
Die Seiten Suchwortdichte und Tf-idf-Maß überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Beteilige dich dazu an der Diskussion über diese Überschneidungen. Bitte entferne diesen Baustein erst nach vollständiger Abarbeitung der Redundanz. Coyote III 20:30, 19. Jun. 2011 (CEST)

Das tf-idf-Maß (von engl. term frequency ‚Vorkommenshäufigkeit‘ und inverse document frequencyinverse Dokumenthäufigkeit‘) wird im Information Retrieval zur Beurteilung der Relevanz von Termen in Dokumenten einer Dokumentenkollektion eingesetzt.

Mit der so errechneten Gewichtung eines Wortes bezüglich des Dokuments, in welchem es enthalten ist, können Dokumente als Suchtreffer einer wortbasierten Suche besser gerankt (in der Trefferliste angeordnet) werden, als es beispielsweise über die Termfrequenz allein möglich wäre.

[Bearbeiten] Vorkommenshäufigkeit

Die Vorkommenshäufigkeit tfi,j gibt an, wie häufig der Term i im Dokument j vorkommt. Ist beispielsweise das Dokument 5 der Satz

Das rote Auto hält an der roten Ampel.

dann ist tfrot,5 = 2.

[Bearbeiten] Inverse Dokumenthäufigkeit

Die inverse Dokumenthäufigkeit misst die allgemeine Bedeutung des Terms für die Gesamtmenge der betrachteten Dokumente.

Die inverse Dokumentfrequenz idf hängt hingegen nicht vom einzelnen Dokument, sondern vom Dokumentkorpus, der Gesamtmenge aller Dokumente im Retrievalszenario, D ab:

idf_i = \log \frac{N}{n_i}

Hier ist N = | D | die Anzahl der Dokumente im Korpus und ni die Anzahl der Dokumente, die Term i beinhalten.

Das Gewicht w eines Terms i im Dokument j ist dann nach TF-IDF:

w_{i,j} = tf_{i,j} \cdot idf_i = tf_{i,j} \cdot \log \frac{N}{n_i}

In den meisten Anwendungen dürfte es sinnvoll sein, dass ein vielfaches Vorkommen eines Terms nicht auch in gleichem Maße zur Relevanz beiträgt. In der Praxis wird der TF-Wert daher in der Regel normalisiert.

[Bearbeiten] Literatur

  • Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison-Wesley, Harlow u. a. 1999, ISBN 0-201-39829-X, S. 29–30.
Meine Werkzeuge
Namensräume
Varianten
Aktionen
Navigation
Mitmachen
Drucken/exportieren
Werkzeuge
In anderen Sprachen