Inverse Dokumenthäufigkeit

aus Wikipedia, der freien Enzyklopädie

Wechseln zu: Navigation, Suche

Die Inverse Dokumenthäufigkeit (IDF) dient beim Information Retrieval zur Bestimmung der Trennfähigkeit eines Wortes bzw. Termes für die Indexierung von Dokumenten. Ein Wort, das nur in wenigen Dokumenten oft vorkommt, ist geeigneter als eines, das in fast jedem Dokument oder nur sehr gering auftritt. Zusammen mit der Termfrequenz wird sie zur Gewichtung von Wörtern bei der Automatischen Indexierung eingesetzt.

Die Inverse Dokumenthäufigkeit lässt sich berechnen als

IDF_{t}=\log\left(1+\frac{N_D}{f_t}\right)

wobei ND die Anzahl der Dokumente bezeichnet und ft die Anzahl der Dokumente, die den Term t enthalten. Die Addition mit Eins soll lediglich für positive Ergebnisse sorgen. Wenn die Dokumentenhäufigkeit wächst wird der Bruch kleiner.

Persönliche Werkzeuge
Buch erstellen