Sitemaps-Protokoll

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Dieser Artikel behandelt das standardisierte XML-Format; zur hierarchischen Repräsentation einer Website siehe Sitemap.

Das Sitemaps-Protokoll ermöglicht einem Webmaster, Suchmaschinen über Seiten seiner Website zu informieren, die von dieser ausgelesen werden sollen. Der Standard wurde am 16. November 2006 von Google, Yahoo! und Microsoft beschlossen. Es handelt sich um einen auf XML basierenden Standard.

Ziel des Sitemaps-Protokolls ist eine Verbesserung der Suchresultate. Der einheitliche Standard hilft bei der Etablierung dieser Art von „Etikettierung“ eines Webauftritts, da nicht, wie vor der Standardisierung, für jede Suchmaschine eine eigene Sitemap-Datei erstellt werden muss.

Geschichte[Bearbeiten]

Das Sitemaps-Protokoll basiert auf der Idee von Crawler-freundlichen Web-Servern.[1]

Google veröffentlichte im Juni 2005 die Technologie Sitemaps 0.84.[2] Mit dieser Technik konnten Webmaster eine Liste von Links auf ihre Seite veröffentlichen.

Im November 2006 machten MSN und Yahoo bekannt, dem Sitemaps-Protokoll zuzustimmen.[3] Die Revisionskennung wurde zu Sitemaps 0.90 verändert, aber das Protokoll blieb unverändert.

Im April 2007 schlossen sich Ask.com und IBM dem Standard an.[4] Zur gleichen Zeit kündigten Google, Yahoo und Microsoft Unterstützung zur Erkennung von Sitemap-Dateien durch den Robots Exclusion Standard an.

XML-Sitemap-Format[Bearbeiten]

Vorlage:Infobox Dateiformat/Wartung/MagischeZahl fehltVorlage:Infobox Dateiformat/Wartung/Entwickler fehltVorlage:Infobox Dateiformat/Wartung/Art fehltVorlage:Infobox Dateiformat/Wartung/Website fehlt

Sitemaps-Datei
Dateiendung: .xml, .gz, diverse
MIME-Type: application/xml, text/xml
Erweitert von: XML
Standard(s): [1]

Sitemap-Dateien sind gewöhnliche Textdateien, die sich der Extensible Markup Language bedienen. Sitemap-Dateien müssen die Zeichenkodierung UTF-8 verwenden.

Alternativ zu der umfangreichen XML-Notation können Sitemap-Dateien auch gewöhnliche Textdateien sein, die lediglich eine Liste von URLs enthalten, etwa in der Form

 http://example.com/seite1.html
 http://example.com/verzeichnis/seite2.html
 http://example.com/bild3.png

Zudem sieht der Standard vor, dass Sitemap-Dateien, egal welcher Form, auch gzip-komprimiert werden können.

Der Dateiname von Sitemap-Dateien ist, anders als bei robots.txt-Dateien, grundsätzlich irrelevant. Auch Dateiendungen spielen, selbst bei GZIP-Kompression, keine Rolle.

Beschränkungen[Bearbeiten]

Sitemap-Dateien dürfen nach Protokoll im Gesamten nicht mehr als 50.000 URLs beinhalten und höchstens 10 MB (10.485.760 Byte) umfassen. Bei Verwendung von komprimierten Sitemap-Dateien darf die nicht komprimierte Sitemap-Datei ebenfalls nicht größer als 10 MB sein. Diese Beschränkung kann umgangen werden, indem mehrere Sitemap-Dateien verwendet werden, zu der man eine „Haupt“-Sitemap anlegt, die auf maximal 50.000 Sitemaps verweist. [5] Auf diese Weise sind theoretisch 50.000 × 50.000 = 2.500.000.000 (2,5 Milliarden) URLs beschreibbar.

Beispiel[Bearbeiten]

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
 xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
 xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
 <url>
  <loc>http://example.com/</loc>
  <lastmod>2006-11-18</lastmod>
  <changefreq>daily</changefreq>
  <priority>0.8</priority>
 </url>
</urlset>

Einsendung von Sitemaps-Dateien bei Suchmaschinen[Bearbeiten]

Anders als robots.txt-Dateien werden Sitemaps-Dateien nicht zwangsläufig an einem besonderen Ort auf der Webpräsenz veröffentlicht, sondern einer beliebigen Suchmaschine direkt zugesendet (in einer einem Pingback ähnlichen Methode). Diese gibt daraufhin Statusausgaben bzw. Fehler beim Verarbeiten der Sitemaps-Datei zurück. Die bei dieser Einsendung übergebenen Daten, d. h., die Anfragemaske und das Ausgabeformat hängen stark von der verwendeten Suchmaschinen ab, der Sitemaps-Standard macht darüber keine Aussage.

Alternativ kann die Adresse einer Sitemap-Datei auch in die robots.txt aufgenommen werden, indem man an beliebiger Position die Zeile

 Sitemap: sitemap_url

einfügt, wobei sitemap_url die komplette URL zu der Sitemap darstellt.[6] Diese Information wird unabhängig von dem User-Agent-Kontext ausgewertet, daher spielt die Position der Zeile keine Rolle. Verfügt eine Webpräsenz über mehrere Sitemaps, dann sollte diese URL zur Haupt-Sitemap-Datei verweisen.

Weblinks[Bearbeiten]

  • Sitemaps.org – die offizielle Website zum Standard
  • xml-sitemaps.com - kostenlose Website, die zu einer gegebenen URL eine XML-Sitemap-Datei erstellt
  • gnuCrawl&Map – ein kostenloses Programm, mit dem XML Sitemaps für Suchmaschinen erstellt werden können

Einzelnachweise[Bearbeiten]

  1. M. L. Nelson, J. A. Smith, del Campo, H. Van de Sompel, X. Liu: Efficient, Automated Web Resource Harvesting. 2006 (http://public.lanl.gov/herbertv/papers/f140-nelson.pdf)
    O. Brandman, J. Cho, Hector Garcia-Molina und Narayanan Shivakumar: Crawler-friendly web servers, Proceedings of ACM SIGMETRICS Performance Evaluation Review, Volume 28, Issue 2, erschienen 2000
  2. Google-Blog
  3. http://www.google.com/press/pressrel/sitemapsorg.html
  4. Ask.com and IBM announced support
  5. http://sitemaps.org/de/protocol.php
  6. Wie: http://www.example.org/sitemap.xml