Dataset

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Ein Dataset bezeichnet eine größere, zusammenhängende Datenmenge, die abhängig vom Computer- und Entwicklungsumfeld unterschiedliche Bedeutungen hat: Ein 'Dataset' ist trotz sprachlicher Ähnlichkeit nicht zu verwechseln mit einem 'Datensatz', sondern ist entweder (im IBM-Jargon) identisch mit Datei oder enthält (bei .NET etc.) zweckspezifisch in Spalten und Zeilen aggregierte Informationen aus ggf. mehreren Datenbanktabellen.

Dataset (IBM-Großrechner)[Bearbeiten]

Hier ist Dataset eine andere Bezeichnung für eine Datei, die auf einem IBM-Großrechnersystem existiert. Ein Dataset-Name (DSN) kann maximal 44 Zeichen lang sein und besteht aus mehreren Qualifiern (Namensteilen), die durch Punkte voneinander getrennt werden. Jeder Qualifier kann maximal acht Stellen lang sein. Beispiel: MEIN.PRIVATES.TEST.DATASET.V1

In Anwendungsprogrammen wird in der Regel nicht direkt über den Dataset-Namen auf ein Dataset zugegriffen. Stattdessen erfolgt der Zugriff über einen logischen Namen (auch Data Definition (DD)-Name genannt), der auf ein entsprechendes DD-Statement eines Jobs verweist, das den DSN und optional weitere Angaben zur Verarbeitung enthält.

Datasets können in verschiedenen Dateiorganisationsformen existieren:

  • Sequentielle Dateien: Bei dieser Dateiform werden die Daten sequentiell von Dateianfang bis zum Dateiende geschrieben bzw. gelesen.
  • Direct Access Dataset: Die relative Adresse eines Datensatz wird mittels Hashfunktion aus dem Schlüssel berechnet.
  • Partitioned Dataset (PDS und PDSE): Eine Dateiorganisation, bei der das Dataset ein Verzeichnis mit Membernamen enthält, wobei jedes Member wieder eine einzelne sequentielle Datei darstellt. [1]
  • VSAM-Organisationsformen: Die Betriebssystemkomponente VSAM stellt unterschiedliche Organisationsformen zur Verfügung, deren leistungsfähigste, KSDS (key-sequenced dataset), den schlüsselbasierten Zugriff auf die einzelnen Datensätze unterstützt. VSAM-organisierte Dateien werden auch VSAM-Cluster genannt; zu den einzelnen VSAM-Organisationsformen siehe den Artikel VSAM.
  • ISAM Dataset (Indexed Sequential Access Method): Veraltete Organisationsform, die praktisch vollständig durch VSAM abgelöst worden ist. Ein ISAM Dataset besteht aus drei physischen Dateien (PRIME, INDEX und OVERFLOW).
  • HFS Dataset: Ein Plattenbereich, der zur Aufnahme von Unix-Dateien vorgesehen ist (in Unix-Terminologie würde man sagen: ein Loopback-Dateisystem).

Der Begriff des Datasets wird nur für Dateien auf dem Großrechner verwendet, die unter der MVS-Personality angelegt wurden. Dateien, die unter den Unix System Services (d. h. innerhalb eines HFS-Datasets) angelegt wurden, werden in der Regel nicht als Datasets bezeichnet.

Die Metadaten (Dateiattribute) der Datasets stehen teils im VTOC (bei Plattenspeichern) oder Tape Label (bei Magnetbändern), teils im Catalog.

Sequentielle Dateien können als Generation Data Groups (GDG) versioniert werden.

Dataset (.NET)[Bearbeiten]

In der .NET-Entwicklungsumgebung von Microsoft bezeichnet ein Dataset eine im Hauptspeicher verwaltete zusammengehörige Datenmenge in tabellarischer Struktur. Typischerweise werden deren Inhalte mit einer SQL-Abfrage aus ggf. mehreren Tabellen einer relationalen Datenbank ausgelesen und 'verbunden' (join), alternativ von einem Web Service angefordert, dann lokal in einem PC, auf einem Web Server oder Application Server bearbeitet und ggf. in die Datenbank zurückgespeichert. Synonym in manchen anderen Entwicklungsumgebungen: Recordset.

In der Serviceorientierten Architektur (SOA) werden Datenänderungen im Dataset in einem Diffgram zusammengefasst und dieses an den datenliefernden Web Service zurückgegeben.

Ein Dataset enthält also in der Regel zunächst eine Kopie der Daten aus einer bestimmten 'Sicht' auf die Datenbank, dient aber auch der Zwischenspeicherung neuer oder geänderter Daten. Er ist der zentrale Datenpuffer in ASPX- oder Smart-Client-Anwendungen.

Anmerkungen[Bearbeiten]

  1. Im Alltag wird der Begriff "Dataset" oft im Sinne von "Dataset Member" verwendet.