Referrer-Spam

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Erfolgreicher Referrer-Spam taucht in den Ausgaben des Analyseprogramms Webalizer auf

Referrer-Spam (auch Logdatei-Spam) ist eine Sonderform des Suchmaschinen-Spamming. Hierbei werden Webseiten massenhaft aufgerufen, damit sie in den Referrer-Informationen der Statistiken der angegriffenen Webseiten auftauchen.

Hintergrund[Bearbeiten]

Viele Suchmaschinen geben einer Internetseite eine gute Position, sofern viele Links auf diese Seite zeigen.[1] Darüber hinaus werten viele Webseiten die Referrer aus, um beispielsweise zu analysieren, woher die Benutzer kommen. Dies erfolgt meist anhand der Logdateianalyse. Sofern diese online gezeigt werden – was besonders bei Weblogs beliebt ist (vgl. Backlink) –, ist es für Spammer interessant, sich in diesen Referrerlisten zu verewigen, da man davon ausgeht, dass diese Webstatistiken von Webcrawlern ausgelesen und für die Reihung bei Suchabfragen herangezogen werden.

Schaden[Bearbeiten]

Durch diese Form des Spammings entsteht in zweierlei Hinsicht ein Schaden für den Webseitenbetreiber. Einerseits werden auf diese Art die relevanten Informationen für die Auswertung der Logdateien verfälscht und andererseits zusätzlicher Datenverkehr generiert. Auf Seiten der Suchmaschinenbetreiber tritt ein Schaden hinsichtlich der dadurch verfälschten Suchergebnisse ein.

Rechtliche Betrachtung[Bearbeiten]

Bei gewerblich betriebenen Seiten kann man davon ausgehen, dass durch diese Form des Spammings, der die Erreichbarkeit des Servers gefährdet, ein Eingriff in das Recht am eingerichteten und ausgeübten Gewerbebetrieb in Betracht kommt. Theoretisch könnte man für private Seiten einen privatrechtlichen Anspruch aus der Selbstdarstellung auf einer Webseite konstruieren und als Ausprägung des allgemeinen Persönlichkeitsrechts begreifen.[2] Strafrechtlich relevante Sachverhalte ergeben sich analog zum Spam. Die in diesem Zusammenhang auftretende Frage, ob Referrer-Spam überhaupt Werbung ist, so ist dies jedenfalls in Bezug auf veröffentlichte Logdateianalysen und dadurch entstehende verbesserte Suchmaschinen-Rankings zu bejahen, teilweise auch darüber hinaus.[2]

Abwehrmechanismen[Bearbeiten]

Nofollow[Bearbeiten]

Eine einfache, wenngleich nur bedingt effektive Lösung, wäre der Einsatz des rel="nofollow"-Attributes, was dazu führt, dass derartige Verweise nicht zur Berechnung des PageRanks herangezogen werden können. Dass sich dies nicht auf das Verhalten von Spammern auswirkt und deren Anzahl nicht reduziert, scheint mittlerweile bewiesen.[3]

.htaccess[Bearbeiten]

Eine Möglichkeit, dem Referrer-Spam Einhalt zu gebieten, wäre eine Bad-Word-Liste mittels RewriteCond [4] in einer .htaccess-Datei, die den Status 403 (Zugriff verboten) sendet, wenn ein entsprechendes Wort in einem Referrer auftaucht.

RewriteEngine on
RewriteCond %{HTTP_REFERER} casino [OR]
RewriteCond %{HTTP_REFERER} poker
RewriteRule .* - [forbidden,last][5]

Alternativ kann man das Problem mit dem SetEnvIfNoCase [6] einschränken.

SetEnvIfNoCase User-Agent „IzyNews/1.0“ leecher=yes
SetEnvIfNoCase Referer izynews.de leecher=yes
order deny,allow
deny from env=leecher

Das Problem diesbezüglich ist, dass man die Bad-Word-Liste manuell ergänzen muss. Einen erweiterter Ansatz wäre, mit einer webbasierten Skriptsprache die Referrer zu notieren und auszuwerten, wie oft Referrer innerhalb einer gewissen Zeit vorkommen. Überschreitet der Zugriff von einer bestimmten Seite das vorgegebene Maß, so wird der Referrer automatisch in die .htaccess eingetragen und mittels eines Cronjobs die Logdatei bereinigt. Diesbezüglich kann man nur schwer festlegen, dass von einer bestimmten Seite ein vermehrter Datenverkehr erwünscht wird. Einen ähnlichen Ansatz verfolgt das Apache-Modul mod_evasive.

NGINX[Bearbeiten]

Beim Einsatz von NGINX ist es ebenfalls möglich die Zugriffe über die Konfiguration zu steuern.

server {
   location / {
       if ($http_referer ~* (url1.tld|url2.tld|url3.tld|spamkeyword) ) {
           return 405;
       }
   }
}

Somit wird serverseitig die Anfrage blockiert und nicht in die Logdateien protokolliert. "url1.tld" steht hierbei für die bekannte Domain die den Referrer-Spam generiert.

Google Analytics[Bearbeiten]

Teilweise werden auch Zugriffe in Trackingtools wie Google Analytics aufgezeichnet, obwohl kein Crawler, Bot oder echter User auf die Seite gegangen ist. Somit ist kein Eintrag in den Serverlogs zu sehen, aber in Google Analytics. Vereinzelt werden die Trackingcodes der eigenen Seite auf anderen Webseiten platziert um in der Statistik des Webmasters aufzutauchen. Für eine saubere Statistikauswertung, müssen diese Spam Referrals gefiltert werden. In Google Analytics ist es möglich diese Aufrufe in den "Einstellungen der Datenansicht" zu deaktivieren. Hierbei muss "Alle Treffer von bekannten Bots und Spidern ausschließen" aktiviert werden.

Google sind jedoch nicht alle Bots und Spider bekannt. Über einen Filter der Datenansicht, kann eine individuelle Verweis-Liste mit einem regulären Ausdruck gefiltert werden.

(?:([^. ]+)\.)?(?:([^.]+)\.)?(domain1|domain2|domain3)\.(com?|de|net)

Somit kann dem Spam in Google Analytics entgegengewirkt werden. Detaillierte Informationen mit Screenshots kann im Quellennachweis "Referral Spam und Ghost Referrals in Google Analytics" [7] gefunden werden.

Melden[Bearbeiten]

Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Die fraglichen Angaben werden daher möglicherweise demnächst entfernt. Bitte hilf der Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst. Näheres ist eventuell auf der Diskussionsseite oder in der Versionsgeschichte angegeben. Bitte entferne zuletzt diese Warnmarkierung.

Die Suchmaschinenbetreiber haben häufig entsprechende Randbedingungen gesetzt in denen gekaufte Links und andere unerwünschte Methoden als Ausschluss-Kriterien aus dem Index angegeben werden. Darum kann es dem Melder helfen, die Spam-Herkunfts-Domains bei den Suchmaschinen-Betreibern mit entsprechenden Log-Auszügen als Beleg zu melden, denn sie können dadurch aus dem Index entfernt werden, sofern mehrere Beschwerden / Meldungen aus verschiedenen Quellen eingehen. Damit dürfte die „Werbe-Strategie“ zum Bumerang für die Spam-Bot-Betreiber und Spammer-Domains werden, weil das genaue Gegenteil der beabsichtigten Wirkung eintritt. Das Ranking und die Listenpositionen steigen nicht, sondern die Domains werden aus den Trefferlisten verbannt.

Weitere Ansätze[Bearbeiten]

Darüber hinaus gibt es noch weitere Ansätze[8], die mit Hilfe eines in die entsprechende Website eingebauten PHP-Skriptes Spam verhindern.

Quellen[Bearbeiten]

  1. vergleiche dazu das Grundprinzip des PageRank-Algorithmus
  2. a b Arne Trautmann – Rechtliche Ansprüche nach Referer-Spam?
  3. ua. Web Spam, Propaganda and Trust (englisch) (Memento vom 13. März 2005 im Internet Archive)
  4. Apache Module mod_rewrite
  5. Jörg Kruse – Referer-Spam (II)
  6. Apache Module mod_setenvif
  7. Referral Spam und Ghost Referrals in Google Analytics. Detaillierte Informationen zum Verhindern von Referrer Spam.
  8. Bot-Trap.de – Ehrenamtliches Projekt gegen Web-Spam
Rechtshinweis Bitte den Hinweis zu Rechtsthemen beachten!