Invertierte Datei

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Die Artikel Datenbankindex und Invertierte Datei überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zusammenzuführen (→ Anleitung). Beteilige dich dazu an der betreffenden Redundanzdiskussion. Bitte entferne diesen Baustein erst nach vollständiger Abarbeitung der Redundanz und vergiss nicht, den betreffenden Eintrag auf der Redundanzdiskussionsseite mit {{Erledigt|1=~~~~}} zu markieren. Nichtich 01:23, 25. Dez. 2011 (CET)
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Die fraglichen Angaben werden daher möglicherweise demnächst entfernt. Bitte hilf der Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst. Näheres ist eventuell auf der Diskussionsseite oder in der Versionsgeschichte angegeben. Bitte entferne zuletzt diese Warnmarkierung.

Invertierte Dateien werden im Bereich des Information Retrievals als Grundlage für die Durchführung verschiedener Suchanfragen benötigt, beispielsweise für die Suche mit Booleschen Operatoren und Trunkierungen.

Dazu wird ein Index für eine Dokumentsammlung (beispielsweise eine Literaturdatenbank) angelegt, der den einzelnen suchbaren Begriffen jeweils die entsprechenden Dokumente zuordnet. Die invertierte Datei zu einem (Such-)Begriff verweist auf alle Dokumente, die mit diesem bestimmten Begriff verknüpft sind. Dazu erhält die invertierte Datei Informationen wie beispielsweise die Dokumentnummern bzw. deren Adressen in der Datenbank, eine Angabe, wie häufig der Begriff in der Gesamtdatenbank vorkommt (bzw. die Anzahl der Dokumente, in denen der Eintrag mindestens einmal vorkommt). Für das Retrieval und die Gewichtung der Suchergebnisse nützlich sind außerdem Angaben dazu, an welcher Position im Dokument der Begriff vorkommt (als wievieltes Wort, im wievielten Satz oder Absatz). Soll eine Linkstrunkierung ermöglicht werden, muss zusätzlich jeder Begriff rückwärts geschrieben mit angelegt werden.

Vorteil dieses Systems ist ein rascher Zugriff auf Dokumente, da nur der Index (und nicht die Dokumente selbst) durchsucht werden muss. Der Index lässt sich gut für die Erstellung von Retrievalsystemen nutzen. Suchmöglichkeiten können ausgeschöpft und die Suchoberfläche relativ frei gestaltet werden. Nachteilig sind jedoch zum einen der enorme Aufwand, den die Erstellung eines solchen Indexes erfordert, und zum anderen der große, benötigte Speicherplatz. Zudem muss der Index jedes Mal aktualisiert werden, sobald neue Dokumente hinzukommen.

Das Prinzip der Invertierten Dateien basiert auf einem System von Herman Hollerith, der 1890 als erster Lochkarten für die Auswertung einer Volkszählung in den USA einsetzte.

Die technische Umsetzung geschieht durch eine Indexstruktur.

Siehe auch[Bearbeiten]