Internet Archive

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Internet Archive
Logo von Internet Archive
http://www.archive.org
Motto Universal access to human knowledge
Beschreibung Web-Archivierung
Registrierung optional
Sprachen Oberfläche engl.
Eigentümer Internet Archive, San Francisco CA[1]
Urheber Brewster Kahle
Erschienen 1996

Das Internet Archive in San Francisco ist ein gemeinnütziges Projekt, das 1996 von Brewster Kahle gegründet wurde. Es hat sich die Langzeitarchivierung digitaler Daten in frei zugänglicher Form zur Aufgabe gemacht.

Es speichert Momentaufnahmen von Webseiten, Usenet-Beiträgen, Filmen, Fernsehen, Tonaufnahmen (einschließlich von Live-Konzerten), Büchern und Software. Ein Spiegelserver der Daten von San Francisco befindet sich in der Bibliotheca Alexandrina. Im Oktober 2012 erreichte die Sammlung eine Größe von 10 Petabyte.[2]

Dienste[Bearbeiten]

Zum Web-Archiv gehört die Wayback Machine („Take Me Back“), mit der man die gespeicherten Webseiten in verschiedenen Versionen abrufen kann. Die Auswahl der zu speichernden Seiten erfolgt über den Dienst Alexa Internet. Alle dort hinterlegten URLs werden regelmäßig aufgerufen und archiviert. Der Gesamtumfang betrug im November 2009 etwa 150 Milliarden Seiten. Die Seiten werden erst ca. sechs Monate nach dem Indexieren öffentlich verfügbar gemacht.

In dem Million Book Project werden durch das Internet Archive Bücher, die durch das Ablaufen des Copyrights (US-amerikanisches Urheberrecht) oder aus anderen Gründen gemeinfrei geworden sind, digitalisiert und zum Herunterladen zur Verfügung gestellt. Die Digitalisate sind Teil der Open Library.

Es werden mehrere Scan-Center (2009 insgesamt zwölf) unterhalten, zum Beispiel in Richmond. Gescannt wird per Auftrag, berechnet werden pro Seite zehn US-Cent (Stand 2009). Die Auftraggeber, meist Bibliotheken, erhalten das Digitalisat, eine per OCR erstellte Textdatei, eine persistente Internetadresse sowie die Möglichkeit, die Digitalisate auf den Servern des Vereins zu hosten.[3] Weiterhin bestehen Kooperationsvereinbarungen mit selbst digitalisierenden Bibliotheken für einzelne Dienste, wie OCR und redundantes Hosting.

Die Library of Congress hat im Dezember 2006 sechs Ausnahmen des US-Copyright-Gesetzes Digital Millennium Copyright Act gewährt.[4] Das Internet Archive darf somit Computer-Software oder -Spiele, welche zu Abandonware[5] wurden, mit der Absicht der Erhaltung speichern, wenn die Originalhardware, -formate oder -technologie veraltet sind. 2013 begann das Internet Archive damit Spieleklassiker als spielbares Browser-Streaming via M.E.S.S.-Emulation anzubieten[6], z.B. das Atari-2600-Videospiel E.T. the Extra-Terrestrial.[7]

Internet Archive in San Francisco (1996–2009)
Neue Zentrale des Internet Archive seit November 2009 in einer ehemaligen Christian Science-Kirche
Internet Archive in der Bibliotheca Alexandrina. Hinter den Glasscheiben stehen die Racks mit den Archivcomputern.
Video einer Vorführung der Digitalisierungstechnik des Internet Archives von Brewster Kahle, 29. März 2013.

Das gesamte Archiv hat im Oktober 2012 die Größe von 10 Petabyte überschritten.[8] Das Archiv ist vom US-Bundesstaat Kalifornien seit Anfang Mai 2007 offiziell als Bibliothek anerkannt.[9]

Kritik, Rechtslage und Schwächen[Bearbeiten]

Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Die fraglichen Angaben werden daher möglicherweise demnächst entfernt. Bitte hilf der Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst. Näheres ist eventuell auf der Diskussionsseite oder in der Versionsgeschichte angegeben. Bitte entferne zuletzt diese Warnmarkierung.

Durch die offizielle Anerkennung als Bibliothek in den Vereinigten Staaten ist das Internet Archive grundsätzlich berechtigt, Inhalte innerhalb der USA zu sammeln und auch innerhalb der USA öffentlich zugänglich zu machen. Inwiefern Inhalte von außerhalb der USA gesammelt und auch außerhalb der USA öffentlich zugänglich gemacht werden dürfen, hängt dagegen von der Urheberrechtslage der betroffenen Länder ab.

Die Wayback Machine berücksichtigt Opt-out-Markierungen von Webseiten oder entfernt sie auf Wunsch der Rechteinhaber aus dem Archiv. So lässt sich durch einen entsprechenden Eintrag in der robots.txt-Datei[10] im Stammverzeichnis der Domain das Crawlen von Webseiten und die Anzeige von Archivinhalten durch die Wayback Machine sperren. Diese Opt-out-Vorgehensweise ist in vielen Ländern, und höchstwahrscheinlich auch nach europäischem und deutschem Urheberrecht, unzulässig. Allerdings können nur Inhalte von noch existierenden Webservern gesperrt werden, da auf nicht mehr existierenden Webservern keine robots.txt-Datei platziert werden kann. Andersherum kommt es vor, dass Webseiten später wieder durch einen anderen Besitzer registriert werden, welcher eine robot.txt setzt und damit unwissentlich den Zugriff auf die vorherigen Inhalte sperrt, obwohl kein Zusammenhang zwischen den beiden Besitzern besteht.

Problematisch an der Wayback Machine ist, dass auch Inhalte erhalten bleiben, die die Autoren nicht mehr vertreten. Auch rechtswidrige Inhalte, etwa üble Nachreden, werden über Jahrzehnte der Öffentlichkeit zugänglich gemacht. Sofern diese Vorfälle auf dem eigenen Webserver passiert sind, ist eine nachträgliche Sperrung/Löschung in der Wayback Machine mittels robots.txt-Datei möglich. Da in Zeiten des Web 2.0 Inhalte aber häufig auch in öffentlichen Foren und/oder Sozialen Netzwerken veröffentlicht werden, wo Autoren keine robots.txt platzieren können, besteht meist kaum eine Möglichkeit, diese Inhalte aus der Wayback Machine löschen zu lassen.

Eine weitere Schwäche der Wayback Machine besteht in der zeitlich stark verzögerten, sehr unregelmäßigen und oft unvollständigen Speicherung der Daten. So werden Grafiken, Multimedia-Elemente und dynamische Inhalte oft nur in geringem Umfang oder gar nicht gespeichert. Dadurch funktionieren manche der archivierten Webseiten nicht mehr oder entscheidende Inhalte, die zum vollständigen Verständnis notwendig sind, fehlen.

Die Wayback Machine bietet zudem keine Verknüpfungsmöglichkeiten von Webinhalten, die im Laufe der Jahre zwischen oder innerhalb von Webservern umgezogen sind. Schon kleinste Änderungen im URL einer Webseite führen dazu, dass die vorherige Version einer Webseite nur noch gefunden werden kann, wenn der Suchende von dem Umzug bzw. der URL-Änderung weiß.

Siehe auch[Bearbeiten]

Weblinks[Bearbeiten]

 Commons: Internet Archive – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise[Bearbeiten]

  1. Internet Archive: Contact
  2. http://archive.org/web/petabox.php
  3. Das digitale Alexandria. Die Zeit 4/2008
  4. Internet Archive wins copyright reprieve, The Register, 1. Dezember 2006
  5. Ross Miller: US Copyright Office grants abandonware rights (englisch) joystiq.com. Abgerufen am 7. Februar 2013.
  6. Tilman Baumgärtel: Timothy Leary, der Games-Entwickler - Wie erhält man historische Computerspiele? Das Internet-Archive streamt Dutzende Klassiker, in New York werden Games von Timothy Leary für die Forschung aufgearbeitet.. Die Zeit. 14. November 2013. Abgerufen am 14. November 2013: „Weil das Internet Archive die Spiele "streamt", man sie also nicht auf den eigenen Rechner lädt, verletzt man auch das Urheberrecht nicht, wenn man die Programme benutzt.
  7. Adi Robertson: The Internet Archive puts Atari games and obsolete software directly in your browser (englisch) The Verge. 25. Oktober 2013. Abgerufen am 29. Oktober 2013.
  8. 10,000,000,000,000,000 bytes archived!. In: Collections Team blog. Internet Archive. 26. Oktober 2012. Abgerufen am 27. Oktober 2012: „On Thursday, 25 October, hundreds of Internet Archive supporters, volunteers, and staff celebrated addition of the 10,000,000,000,000,000th byte to the Archive’s massive collections.“
  9. Internet Archive forum: Internet Archive officially a library
  10. Internet Archive, abgerufen am 14. August 2012

37.782305555556-122.47156944444Koordinaten: 37° 46′ 56″ N, 122° 28′ 18″ W