Datenbereinigung

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Die Artikel Data-Mining#Datenbereinigung und Datenbereinigung überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zusammenzuführen (→ Anleitung). Beteilige dich dazu an der betreffenden Redundanzdiskussion. Bitte entferne diesen Baustein erst nach vollständiger Abarbeitung der Redundanz und vergiss nicht, den betreffenden Eintrag auf der Redundanzdiskussionsseite mit {{Erledigt|1=~~~~}} zu markieren. Chire 17:03, 17. Apr. 2011 (CEST)

Zur Datenbereinigung (englisch data cleaning oder data editing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten (ursprünglich falschen oder veralteten), redundanten, inkonsistenten oder falsch formatierten Daten bestehen.

Wesentliche Schritte zur Datenbereinigung sind die Duplikaterkennung (Erkennen und Zusammenlegen von gleichen Datensätzen) und Datenfusion (Zusammenführen und Vervollständigen lückenhafter Daten).

Die Datenbereinigung ist ein Beitrag zur Verbesserung der Informationsqualität. Allerdings betrifft Informationsqualität auch viele weitere Eigenschaften von Datenquellen (Glaubwürdigkeit, Relevanz, Verfügbarkeit, Kosten...), die sich mittels Datenbereinigung nicht verbessern lassen.

Prozess zur Datenbereinigung[Bearbeiten]

Der Prozess zur Bereinigung der Daten gliedert sich in zwei aufeinanderfolgende Schritte (Apel, 2009, S. 157):

  1. Standardisierung
  2. Bereinigung der Daten

Daten vor der Bereinigung standardisieren[Bearbeiten]

Für eine erfolgreiche Bereinigung müssen die Daten zunächst standardisiert werden. Dazu werden diese zuerst strukturiert und danach normiert.

Die Strukturierung bringt die Daten in ein einheitliches Format, beispielsweise wird dabei ein Datum in ein einheitliches Datenformat gebracht (01.09.2009). Oder zusammengesetzte Daten werden in ihre Bestandteile zerlegt, z. B. der Name eines Kunden in die Namensbestandteile Anrede, Titel, Vorname und Nachname. Meistens sind solche Strukturierungen nicht trivial und werden mit Hilfe von komplexen Parsern durchgeführt.

Bei der Normierung werden die vorhandenen Werte auf eine normierte Werteliste abgebildet. Diese Normierung kann z. B. für die Anrede, den akademischen Titel oder Firmenzusätze durchgeführt werden. So können beispielsweise die Firmenzusätze e. Kfr. und Kfm durch den normierten Wert e. K. ersetzt werden, wodurch die spätere Bereinigung stark vereinfacht wird.

Daten bereinigen[Bearbeiten]

Für die Bereinigung der Daten stehen sechs Methoden zu Auswahl, die einzeln oder kombiniert angewendet werden können:

  • Ableiten aus anderen Daten: Aus anderen Daten werden die korrekten Werte abgeleitet (z. B. die Anrede aus dem Vornamen).
  • Ersetzen durch andere Daten: Die fehlerhaften Daten werden durch andere Daten (z. B. aus anderen Systemen) ersetzt.
  • Default-Werte verwenden: Es werden Default-Werte anstelle der fehlerhaften Daten verwendet.
  • Fehlerhafte Daten entfernen: Die Daten werden herausgefiltert und nicht weiter verarbeitet.
  • Duplikate entfernen: Duplikate werden über die Duplikaterkennung identifiziert, die nicht-redundanten Daten aus den Dubletten konsolidiert und daraus ein einziger Datensatz gebildet.
  • Zusammenfassungen auftrennen: Im Gegensatz zur Entfernung von Duplikaten werden hierbei fehlerhaft zusammengefasste Daten wieder getrennt.

Ablage der fehlerhaften Daten[Bearbeiten]

Nachdem man die Daten bereinigt hat, sollte man die originären, fehlerhaften Daten auf keinen Fall einfach löschen. Ansonsten wären die Bereinigungen nicht nachvollziehbar, außerdem wäre ein solcher Prozess nicht revisionssicher.

Eine Alternative ist die Speicherung des korrigierten Werts in einer zusätzlichen Spalte. Da zusätzlicher Speicherplatz benötigt wird, empfiehlt sich dieser Ansatz nur bei wenigen zu korrigierenden Spalten in einem Datensatz. Eine weitere Möglichkeit ist die Speicherung in einer zusätzlichen Zeile, was den Speicherbedarf aber noch stärker ansteigen lässt. Es bietet sich deshalb nur bei einer geringen Anzahl zu korrigierender Datensätze an. Die letzte Möglichkeit bei einer großen Anzahl zu korrigierender Spalten und Zeilen ist das Anlegen einer gesonderten Tabelle.

Literaturhinweise[Bearbeiten]

  • Detlef Apel, Wolfgang Behme, Rüdiger Eberlein, Christian Merighi: Datenqualität erfolgreich steuern. 2009, Hanser Fachbuch, ISBN 978-3-446-42056-4.

Siehe auch[Bearbeiten]