Wikipedia:Technik/Netzwerk/Suchmaschinen

Suchmaschinen und die Wikis

Diese Projektseite stellt technische Hintergrundinformationen zum Zusammenspiel von Wikis und Suchmaschinen zusammen.

Arbeitsschritte

Hinsichtlich der Funktionalität von Suchmaschinen sind drei Stufen zu unterscheiden:

Besuchen
- Die „Krabbler“ (crawler) suchen Webseiten aller Art auf.
- Deren Inhalte werden analysiert, auf interessante Informationen wie URL untersucht.
- Die Algorithmen der Suchmaschine entscheiden, ob eine URL in den Index aufgenommen werden soll.
- Ansonsten werden die Inhalte sofort wieder vergessen.
- Mit dem Attribut nofollow kann man der Suchmaschine anzeigen, ob es sich lohnen würde, den Verlinkungen zu folgen. Ob diese das beachten, ist deren Entscheidung.
Indexieren
- Die Entscheidung, eine URL permanent in die Datenbank aufzunehmen, heißt Indexierung.
- Das gilt dann für die Dauer der Existenz der Seite, also solange diese noch reagiert, oder bis nach mehreren Versuchen im wöchentlichen Abstand keine Antwort mehr erfolgt. Die Inhalte können sich ändern und werden dann in den Suchbaum eingepflegt, was sich aber erst mit einiger Verzögerung bemerkbar macht. Insbesondere nicht mehr vorhandene Informationen können noch einige Zeit weiterleben.
- Nur eine indexierte Seite kann in der Trefferliste einer Suchmaschine erscheinen. Nur dann sind Suchbegriffe mit einer URL verknüpft.
- Im Wiki kann vereinbart werden, welche Namensräume oder einzelnen Seiten indexiert werden sollen – genauer: welche nicht; Näheres siehe Wikipedia:Suchmaschinenindex. Ob sich Suchmaschinen daran halten, ist eine andere Frage. Mit dem Attribut noindex kann man das zumindest signalisieren.
- Suchmaschinen indexieren in der Regel nur statische Seiten, die auf die gleiche URL annähernd gleichbleibende Ergebnisse liefern. Willkürliche Datenbankabfragen oder komplexe Kombinationen von Suchkriterien sowie sehr dynamische Inhalte (Wetterbericht) bringen dem System Unmengen an URL, aber wenig Erfolge für die Suchenden und werden meist als solche erkannt und ausgesondert.
- Es existieren Kopien (mirror) der Wikis, die aber teilweise die Einschränkungen hinsichtlich der Indexierung nicht mitteilen. Etliche der einschlägigen Domains sind den Betreibern der Suchmaschinen jedoch bekannt, und da sie keine zusätzlichen und für die Suchenden interessanten Informationen liefern, werden diese Kopien auch systematisch ausgeblendet, um die Trefferliste attraktiv zu halten.
Ranking
- In der Trefferliste werden (nebst bezahlten Werbeeinträgen) solche Einträge zuerst gezeigt, von denen man sich verspricht, dass die Suchenden dadurch das beste Erfolgserlebnis haben werden und auf Anhieb finden, was sie suchen.
- Für das Ranking werden verschiedene Methoden verwendet, siehe etwa PageRank:
  - Zunächst einmal sollte eine gute Übereinstimmung mit den Schlagworten der Suchanfrage bestehen.
  - Die enzyklopädischen Artikel der Wikipedien bekommen etwa bei Google einen Bonus, weil sie das Informationsbedürfnis der Suchenden oft optimal befriedigen. Deshalb stehen unsere Artikel meist an einer der ersten Stellen.
  - Die Anzahl anderer Websites, die auf diese URL verlinken, signalisiert eine besondere Wichtigkeit und lässt das Ergebnis höher in der Trefferliste steigen.
- Wenn als besonders informativ eingestufte Seiten auf andere URL verlinken, dann werden auch die Ziel-URL höher eingestuft.
- Die Suchmaschinen können teilweise feststellen, auf welche Trefferseiten die Suchenden dann klicken; zumindest, wenn die Trefferliste über mehrere Seiten geblättert wird. Daraus kann zurückgeschlossen werden, welche URL aufgrund der kurzen Ausschnitte für die Suchenden besonders erfolgversprechend waren; diese sind demnach für die jeweilige Anfrage interessanter und steigen im Ranking (Ameisenpfad-Prinzip).

Die Details des Vorgehens sind geheim und werden ständig den Entwicklungen im Netz angepasst.

Linkspam (SEO)

Der Umstand, dass Wikipedia-Artikel nicht nur selbst ein hohes Ranking erhalten, sondern auch die von dort verlinkten URL als vermutlich zuverlässige Informationsquellen eingestuft werden und auf diese Webseiten etwas vom Glanz der Wikipedia abfärbt, wird missbräuchlich zur sogenannten Suchmaschinenoptimierung (SEO) eingesetzt.

Dazu werden in die Artikel Verlinkungen eingeschmuggelt, die keinen Mehrwert bieten und nur die Einstufung durch die Suchmaschinen beeinflussen sollen.

Die verlinkte Seite selbst muss noch nicht einmal die eigentlich zu fördernde Seite sein. Weil sie im Ranking steigt, steigen auch die auf ihr wiederum untergebrachten Verlinkungen, die dann auf die eigentliche Zielseite verweisen.

Einfach nur im Abschnitt „Weblinks“ eine kommerzielle Seite mit wenig Inhalt einzufügen ist oft nur für wenige Minuten von Bestand und wird meist nicht gesichtet. Deshalb gehen professionelle „Optimierer“ dazu über, sie als Belege von schon vorhandenen oder ergänzten Aussagen in Einzelnachweisen unterzubringen. Damit würde der Artikel scheinbar um einen Beleg bereichert. Weil auch das noch auffallen könnte, werden innerhalb derselben Bearbeitung gleich mehrere Belege eingefügt; zwei sind ergoogelt und seriös, wenn auch nicht unbedingt hilfreich – der dritte war das eigentliche Ziel. Das ist von Sichtern kaum noch zu entdecken; nur inhaltliche Fachleute im Thema würden vielleicht Verdacht schöpfen.

Verdächtige URL

Weltkonzerne haben keinen Linkspam nötig.
- Markenprodukte und Firmennamen, nach denen häufig gesucht wird, verbinden sich von selbst mit den Schlagwörtern der Suche und nehmen dann die ersten Plätze ein.
Kleine und mittlere Unternehmen, Freiberufler, Einzelpersonen sind eher an ihrer Aufwertung außer der Reihe interessiert.
Inhalte aus zweiter Hand, die auf der verlinkten Seite nur wenig aufbereitet wiedergegeben werden, sind unplausibel. Oft wird sogar die ursprüngliche Herkunft benannt. Falls diese noch online abrufbar ist, sollte die Originalseite verlinkt werden und kein Umweg über eine Zwischenstufe gegangen werden.
Kommerzielle oder vielleicht auch weltanschauliche Interessen sind augenfällig.
- Die Zielseite kann in eigener Sache für ihre Produkte, Dienstleistungen oder Ansichten werben.
- Die Zielseite kann eine inhaltliche Darstellung sein („Content“); aber der Kontext oder die übergeordnete Domain hat werbenden Charakter.
- Die beteiligten Seiten können mit Anzeigen für Dritte bestückt sein. Hier erbringt jeder Besuch der Seite durch Außenstehende ggf. schon eine Vergütung, erst recht das Folgen zu einer verlinkten Anzeige.
  - Davon abzugrenzen sind Inhaltsanbieter, die die Erarbeitung der Inhalte und die kostenlose Bereitstellung durch Werbung finanzieren. Das ist insoweit legitim, als sonst eine längerfristige gebührenfreie Verfügbarkeit unmöglich wäre; entweder durch Spenden (selbstloses Betreiben oder außenstehend), durch Steuern oder durch Annoncen und Verkauf muss jede offene Website ihre Kosten wieder decken – sonst könnte sie nicht existieren, nicht gepflegt werden.
- Produkte oder Dienstleistungen müssen ein großräumiges Absatzgebiet haben, und damit einen hinreichend großen Kreis potenzieller Kunden. Das ist immer der Fall, wenn eine Bestellung über das Internet möglich ist; ebenfalls wenn in einem Ballungsgebiet Interessenten erreichbar sind, die für eine wichtige Angelegenheit auch einmal hundert Kilometer mit dem Auto fahren würden, oder bei Ladenketten.
Unmittelbar nach der verdächtigen Einfügung wird die Zielseite unter einschlägigen Schlagworten nicht durch Suchmaschinen gefunden; zumindest nicht auf den ersten Seiten der Trefferliste. Wie kam man darauf, genau diese Seite einzufügen?

Maßnahmen

Nach der Revertierung oder parallel zur Analyse mittels der Weblinksuche erforschen, ob es noch weitere Links derselben Domain gibt.
- Falls ja: Wie und wann sind sie in die Artikel gelangt; durch wen?
URL notieren (auf der eigenen Festplatte, nicht auf einer weltweit sichtbaren Wiki-Seite) und im Wochenabstand überprüfen, ob erneute Einfügungen Bestand hatten.
- Sie können zwischenzeitlich kurzfristig wieder in Artikel eingefügt worden sein, wurden jedoch vielleicht schnell wieder entfernt. Möglicherweise blieb das aber auch unentdeckt.
Versionsgeschichte des Artikels durchsehen; gab es in letzter Zeit ähnliche Zurücksetzungen?
- Für eine URL eignen sich thematisch nicht allzu viele Artikel, um scheinbar einen Beleg unterzubringen. Deshalb kämen inhaltlich benachbarte Artikel noch in Frage, ansonsten würde der Versuch beim selben Artikel nach einigen Tagen wiederholt werden müssen.
Welche anderen Bearbeitungen hatte der Bearbeiter vorgenommen?
- Es kann ein völlig unbeteiligter und unschuldiger Wikipedianer eine vermeintlich gute Quelle gefunden haben; es kann aber auch ein erst kürzlich angelegter Account sein, der nicht vertieft inhaltlich an Artikeln gearbeitet hatte.
Falls gesichtet wurde: Ist der Sichter langjährig und erfahren und ein unauffälliger Edit war durchgerutscht, oder hat der Sichter gerade erst die Rechte erhalten und dies über Trivialkorrekturen?
- Es wurden Sichter-Accounts aufgebaut, die gezielt und ausschließlich Linkspam-Einfügungen anderer Accounts gesichtet hatten.
- Wie viele Minuten vergingen zwischen Einfügung und Sichtung?
  - Bei der Arbeitsteilung zwischen einfügendem und sichtenden Account wächst das Risiko der Entdeckung, je länger ein ungesichteter Beitrag auf Beobachtungslisten auffällt und in der Sichtungswarteschlange steht. Also erfolgt die Sichtung wenige Minuten später.
- Welche anderen Sichtungen wurden vorgenommen (Sichtungs-Logbuch)? Waren diese gleicher Art? Wie kam der Sichter so schnell auf ausgerechnet diese zweifelhaften Edits?
Bei hartnäckigen Wiedereinfügungen kommt die Aufnahme in die „Spam-Blacklist“ (SBL) in Betracht.

Wikipedia:Technik/Netzwerk/Suchmaschinen

Inhaltsverzeichnis

Arbeitsschritte

Linkspam (SEO)

Verdächtige URL

Maßnahmen

Navigationsmenü

Wikipedia:Technik/Netzwerk/Suchmaschinen

Arbeitsschritte

Linkspam (SEO)

Verdächtige URL

Maßnahmen

Navigationsmenü

Suche