BagIt

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 12. Januar 2016 um 16:39 Uhr durch ChPietsch (Diskussion | Beiträge) (→‎Implementierungen: +Catmandu::BagIt). Sie kann sich erheblich von der aktuellen Version unterscheiden.
Zur Navigation springen Zur Suche springen

Das BagIt File Format definiert eine plattformunabhängige, hierarchische Verzeichnisstruktur und wird im Bereich der Speicherung und Übertragung digitaler Inhalte verwendet. Ein Verzeichnis, das entsprechend diesem Format aufgebaut ist, wird Bag genannt. Das Format wurde an der California Digital Library sowie an der Library of Congress entwickelt[1] und liegt aktuell als IETF-Entwurf[2] vor. Das Format findet auch zunehmend in Deutschland Verbreitung und wird beispielsweise im Digitalen Archiv des Landes Nordrhein-Westfalen[3] und in einem Projekt am Deutschen Literaturarchiv Marbach eingesetzt[4].

Spezifikation

Eine Bag muss aus dem Payload-Verzeichnis „data“ sowie den Metadatendateien „bagit.txt“ sowie „manifest-<alg>.txt“ bestehen. Die zu sichernden Inhalte müssen im Verzeichnis „data“ abgelegt sein. BagIt bezeichnet Metadatendateien als „Tags“. Die Tag-Datei „bagit.txt“ enthält immer zwei Zeilen, wovon die erste die BagIt-Version benennt, die zweite Zeile die Kodierung der Tagdateien, die immer UTF-8 sein muss. In der Datei „manifest-<alg>.txt“ werden alle Dateien, die sich im Payloadverzeichnis befinden, zusammen mit einer Prüfsumme aufgeführt. Der Name der Manifestdatei muss den Algorithmus enthalten, mit dem die Prüfsummen gebildet wurden.

Das folgende Beispiel zeigt eine Bag, deren Payloadverzeichnis eine JPG-Bilddatei enthält. Die Prüfsumme wurde mittels des MD5-Algorithmus erstellt.

bag/
|
|-- data
|   \-- nyancat.jpg
|
|-- manifest-md5.txt
|     51afb385ha019f34b671a3f0a615fae1 data/nyancat.jpg
|
\-- bagit.txt
      BagIt-version: 0.97
      Tag-File-Character-Encoding: UTF-8

Zusätzlich zu den zwei obligatorischen Metadatendateien nennt der Entwurf weitere fakultative Tagdateien und definiert deren Inhalt. Es ist außerdem möglich, eigene Tagdateien zu definieren. Der Entwurf beschreibt auch die Serialisierung einer Bag. Dies ermöglicht die Erstellung von Archivdateien mit tar oder zip.

Implementierungen

Eine Bag lässt sich mit Mitteln, die nahezu jedes Betriebssystem bereitstellt, erzeugen und auf Datenintegrität durch Checksummenvergleich überprüfen. Neben einem solchen manuellen Vorgehen gibt es Implementierungen, die den Prozess optimieren.

Einzelnachweise

  1. Library Develops Specification for Transferring Digital Content. Abgerufen am 19. März 2014.
  2. The BagIt File Packaging Format. Abgerufen am 19. März 2014.
  3. DA-NRW: Eine verteilte Architektur für die digitale Langzeitarchivierung. Abgerufen am 16. Juli 2014.
  4. Steffen Fritz: Die Anwendung des BagIt-Formats im Deutschen Literaturarchiv Marbach In: b.i.t. online Nr. 2, 2014, S. 102–106.