Stoppwort

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Dieser Artikel behandelt Stoppwörter im Bereich der Suchmaschinen; zu Stoppwörtern in der Sexualität siehe Safeword.

Stoppwörter nennt man in der Informationsrückgewinnung bzw. im Information Retrieval Wörter, die bei einer Volltextindexierung nicht beachtet werden, da sie sehr häufig auftreten und gewöhnlich keine Relevanz für die Erfassung des Dokumentinhalts besitzen. Die Stoppwörter befanden sich bei älteren Suchmaschinen gewöhnlich auf einer Liste und wurden aus dem Text entfernt und nicht indexiert. Heute basieren die meisten Internet-Suchmaschinen auf Vollindexierung, dabei werden die Stoppwörter angezeigt, tragen aber nichts zur Suche bei.[1]

Es handelt sich üblicherweise bei den Stoppworten um die am häufigsten vorkommenden Worte einer Sprache. Man spricht dann auch von einer „festen Stoppwortliste“. Allen Stoppwörtern ist gemeinsam, dass sie vor allem grammatikalische/syntaktische Funktionen übernehmen und daher keine Rückschlüsse auf den Inhalt des Dokumentes zulassen.[2] Eine weitere Gemeinsamkeit ist ihre große Zahl: Sie treten in jedem Dokument sehr oft auf und kommen in sehr vielen Dokumenten vor, wodurch sie bei der Erschließung der Dokumente einen hohen Aufwand verursachen würden. Handelt es sich um die am häufigsten vorkommenden Worte einer Menge von Dokumenten (beispielsweise Akten und Berichte) spricht man von einer „berechneten Stoppwortliste“. Das Erkennen von Stoppwörtern macht Suchmaschinen effizienter. Würde man Stoppwörter bei einem Suchauftrag beachten, wäre nahezu jedes Dokument ein Treffer. Ein solches Suchergebnis wäre für den Anwender nutzlos.[3] Allerdings ist es nicht immer sinnvoll, Stoppwörter komplett auszublenden. Beispiele hierfür wären Rockgruppen wie „The Who“ oder im deutschen „Die Ärzte“. Daher ist es heute, bei Vollindizierung, möglich auch nach diesen Kombinationen suchen zu lassen.[4] Früher war dazu bei den meisten Suchmaschinen ein Operator notwendig, zum Beispiel „+“ oder die Phrasensuche.[5]

Allgemein übliche Stoppwörter in deutschsprachigen Dokumenten sind bestimmte Artikel ('der', 'die', 'das'), unbestimmte Artikel ('einer', 'eine', 'ein'), Konjunktionen (z. B. 'und', 'oder', 'doch') und häufig gebrauchte Präpositionen (z. B. 'an', 'in', 'von') sowie die Negation 'nicht'.[1] Im Englischen sind unter anderem 'a', 'of', 'the', 'I', 'it', 'you' und 'and' Stoppwörter. Abhängig von den zu erschließenden Dokumenten können Stoppwörter auch mehrsprachig vorliegen. Obwohl eher als Stoppzeichen zu benennen, werden häufig auch der Punkt (.), das Komma (,) und der Strichpunkt (;) als Stoppwörter bezeichnet.

Hans Peter Luhn, einer der Pioniere des Information Retrieval, prägte den Begriff der Stoppwörter und benutzte dieses Konzept im Design und in der Implementation des Indexers KWIC.[4]

Abzugrenzen ist das Stoppwort von den sogenannten Black Lists, dabei handelt es sich um eine Liste von unzulässigen Wörtern. Das Vorkommen eines solchen führt nicht zum Ausschluss des Wortes aus der Indizierung, sondern zur Elimination des gesamten Dokuments.[6]

Weblinks[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. a b Daniel Koch: Suchmaschinen-Optimierung: Website-Marketing für Entwickler. Pearson Deutschland, 2007, ISBN 978-3-8273-2469-6, S. 35.
  2. Mario Fischer: Website Boosting 2.0: Suchmaschinen-Optimierung, Usability, Online-Marketing. mitp Verlag, 2009, ISBN 978-3-8266-1703-4, S. 203.
  3. André Klahold: Empfehlungssysteme: Recommender Systems - Grundlagen, Konzepte und Lösungen. Springer-Verlag, 2009, ISBN 978-3-8348-0568-3, S. 25.
  4. a b Tom Slevin: Stop Words. Kids, Code, and Computer Science, November 2013, abgerufen am 11. Mai 2016.
  5. Philipp Wiedmaier: Suchmaschinenoptimierung am Beispiel von Google. Diplom.de, 2006, ISBN 978-3-8324-9838-2, S. 55.
  6. Michael Glöggler: Suchmaschinen im Internet: Funktionsweisen, Ranking Methoden, Top Positionen. Springer-Verlag, 2013, ISBN 978-3-642-59321-5, S. 56.