Data-Warehouse

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Data Warehouse)
Wechseln zu: Navigation, Suche

Ein Data-Warehouse bzw. Datenlager ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus Daten unterschiedlicher Quellen zusammensetzt. Die Daten werden von den Datenquellen bereitgestellt und per Loader (ETL) in das Data-Warehouse geladen und dort vor allem für die Datenanalyse und zur betriebswirtschaftlichen Entscheidungshilfe in Unternehmen langfristig gespeichert. Der Begriff stammt aus dem Informationsmanagement in der Wirtschaftsinformatik. Ein Data-Warehouse dient der Informationsintegration.

Der Erstellung eines Data-Warehouses liegen zwei Leitgedanken zugrunde:

  1. Integration von Daten aus verteilten und unterschiedlich strukturierten Datenbeständen, um im Data-Warehouse eine globale Sicht auf die Quelldaten und damit übergreifende Auswertungen zu ermöglichen.
  2. Separation der Daten, die für das operative Geschäft genutzt werden, von solchen Daten, die im Data-Warehouse z. B. für Aufgaben des Berichtswesens, der Entscheidungsunterstützung, der Geschäftsanalyse sowie des Controllings und der Unternehmensführung verwendet werden.

Das Data-Warehouse ist die zentrale Komponente eines Data-Warehouse-Systems. Daten werden aus verschiedenen Quellen extrahiert, durch Transformation bereinigt und vereinheitlicht, um danach in das Data-Warehouse geladen zu werden (ETL-Prozess). Dieser Prozess kann turnusgemäß durchgeführt werden, so dass im Data-Warehouse nicht nur Daten nach inhaltlichen Aspekten, sondern auch nach dem Aspekt Zeit – also langfristig – vorgehalten werden, was auch Analysen über die Zeit ermöglicht.

Inhaltsverzeichnis

[Bearbeiten] Definition

Es gibt derzeit keine einheitliche Definition für den Begriff „Data-Warehouse“. Weitgehend gilt jedoch:

Unterschiede bei den Definitionen finden sich vor allem im generellen Zweck eines Data-Warehouses sowie im Umfang und Umgang mit den Daten im Data-Warehouse.

Die Einschränkung „physisch“ ist notwendig, um das Data-Warehouse von dem „logischen“ föderierten Datenbanksystem abzugrenzen.

[Bearbeiten] Geschichte des Begriffs

Der Data-Warehouse-Begriff wurde Mitte der 1980er Jahre bei IBM geprägt und mit „information warehouse“ bezeichnet. Der Terminus „data warehouse“ wurde erstmals 1988 von Devlin verwendet. In jüngerer Zeit werden Data-Warehouse-Systeme auch als Business-Warehouse-Systeme (z. B. SAP) oder als Business-Intelligence-Systeme (Auswertungsorientierte Sicht) bezeichnet, wodurch die geschäftliche Bedeutung derartiger Systeme betont werden soll. Mittlerweile wird auch die Bezeichnung Datenlager in der deutschen Literatur verwendet.

[Bearbeiten] Betrieb eines Data-Warehouse (Data-Warehousing)

Der Gesamtprozess der Datenbeschaffung, Verwaltung und Auswertung eines Data-Warehouses wird auch als Data-Warehousing bezeichnet. Zum Data-Warehousing gehören:

In den Data Marts werden die Daten häufig als mehrdimensionale Matrizen im sogenannten Sternschema oder in verwandten Datenschemata wie Schneeflocken- und Galaxy-Schema abgelegt. Denkbar sind auch Mischformen wie das Sternflocken- bzw. Starflakeschema, die Vorteile aus den vorgenannten Modellen vereinen.

In den letzten Jahren hat sich mehr und mehr die Abkehr von turnusmäßiger Beladung hin zum Real-Time-Data-Warehousing vollzogen. Manche Branchen wie die Telekommunikationsindustrie und der Einzelhandel hatten Bedarf nach sofort verfügbaren Daten unter Wahrung der Trennung von operativen und auswertenden Systemen. Real-Time-Data-Warehousing ist die Voraussetzung für das aktive Data-Warehouse (englisch Active Data Warehouse, zugehöriger Prozess Active Data Warehousing, beide kurz ADW). Beim Active Data Warehousing werden zum einen die Ergebnisse der Analyse zeit- und ereignisgesteuert an interessierte Empfänger übermittelt, zum anderen ermöglicht das Active Data Warehousing die direkte Steuerung operativer Prozesse wie z.B. Workflows. Neben der Beschickung des Data-Warehouse mit zeitnahen Daten gehört zum Active Data Warehousing das unmittelbare Zurückspielen der Ergebnisse in die operativen Systeme. Damit beeinflussen Analyseergebnisse von Daten des Data-Warehouse wiederum die das Data-Warehouse speisenden operativen Systeme; man spricht daher vom Closed Loop.

[Bearbeiten] Data-Warehouse-Anwendungen

Ausschnitt aus dem Data-Warehouse-System

[Bearbeiten] Risiken

Die 59. Konferenz der Datenschutzbeauftragten des Bundes und der Länder vom 14./15. März 2000 weist in ihrer Entschließung zum Thema Data-Warehouse, Data Mining und Datenschutz auf das rechtliche Risiko hin, das mit diesen Verfahren verbunden ist. Insbesondere ist das Grundrecht auf informationelle Selbstbestimmung und für den Schutz der Privatheit in Gefahr. Grund ist die Möglichkeit der genannten Verfahren, personenbezogene Daten über ihre Zweckbindung hinaus zu speichern und zu nutzen, was unter bestimmten Umständen rechtswidrig ist. Als Empfehlung gilt, auf Techniken zu setzen, die eine anonymisierte oder pseudonymisierte Form der ursprünglich personenbezogenen Form der Daten verwenden.

[Bearbeiten] Siehe auch

[Bearbeiten] Literatur

[Bearbeiten] Weblinks

Meine Werkzeuge
Namensräume
Varianten
Aktionen
Navigation
Mitmachen
Drucken/exportieren
Werkzeuge
In anderen Sprachen