Data-Profiling

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 25. November 2014 um 04:11 Uhr durch Torana (Diskussion | Beiträge) (Änderung 135712752 von 57.66.176.21 rückgängig gemacht; siehe http://www.duden.de/rechtschreibung/iterativ). Sie kann sich erheblich von der aktuellen Version unterscheiden.
Zur Navigation springen Zur Suche springen

Data-Profiling bezeichnet den weitgehend automatisierten Prozess zur Analyse vorhandener Datenbestände (z. B. in einer Datenbank) durch unterschiedliche Analysetechniken. Durch das Data Profiling werden die existierenden Metadaten zu den Echtdaten validiert und neue Metadaten identifiziert. Zusätzlich werden bestehende Datenqualitätsprobleme validiert, die verursachenden Daten identifiziert und die Informationsqualität der analysierten Daten gemessen. Durch das Data Profiling werden keine Qualitätsprobleme in den Daten behoben, sondern nur die zugehörigen Metadaten korrigiert.

Der Data-Profiling-Prozess

Die Data-Profiling-Analyse ist ein iterativer Prozess, der in folgenden vier Einzelschritten (vgl. Apel et al. 2010, S. 110) abläuft:

  1. Daten integrieren,
  2. integrierte Daten analysieren,
  3. Ergebnisse darstellen und
  4. fachlich bewerten.

Data-Profiling-Verfahren

Die verschiedenen Data-Profiling-Verfahren lassen sich in Attribut-, Datensatz- und Tabellen-Analyse einteilen. Bei der Attribut-Analyse werden alle Werte in einer Tabellen-Spalte (= Attribut) sowie die Eigenschaften der Attribute einer Tabelle untersucht, in der Datensatz-Analyse alle Datensätze einer Tabelle und in der Tabellen-Analyse alle Beziehungen zwischen verschiedenen Tabellen. Für jede dieser drei Analysearten existieren viele unterschiedliche Data-Profiling-Verfahren.

Literatur

  • Detlef Apel, Wolfgang Behme, Rüdiger Eberlein, Christian Merighi. Datenqualität erfolgreich steuern. 2. Aufl. 2010, Hanser Fachbuch, ISBN 978-3-446-42501-9.