Data Masking

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Data Masking ist der englische Fachbegriff für die Anonymisierung bzw. Verfremdung von Daten. Die eingesetzten Methoden sind somit auch Maßnahmen des Datenschutzes.

Alternative Begriffe, mit denen aber inhaltlich das Gleiche gemeint ist, sind: Data Obfuscation, Data Sanitization oder Data Scrambling. Data Masking unterscheidet sich von der Verschlüsselung von Daten dadurch, dass es keine 1:1-Abbildung zwischen Originaldaten und verfremdeten Daten geben muss. Zudem bleiben die Daten meist lesbar.

Data Masking bezieht sich nicht allein auf personenbezogene Daten und ist daher weiter gefasst als die reine Anonymisierung und Pseudonymisierung von Personen- und Adressdaten. Vielmehr lassen sich alle denkbaren Datentypen „maskieren“. Ziel des Verfremdens der Originaldaten ist die sogenannte Data Leakage Prevention (Verhinderung von Datenlecks). Man versucht, über Data Masking das Problem von Datendiebstahl, Datenmissbrauch oder anderen Formen von Datenkriminalität dadurch zu lösen, dass man die Datenbasis selbst verändert: In Datenbanken, die für externe Personen zugänglich sind, wie z. B. Test- oder Trainingssysteme, speichert man keine Original- oder Produktivdaten, sondern die durch das Data Masking veränderten Informationen.

Masking-Methoden (Beispiele)

[Bearbeiten | Quelltext bearbeiten]
  1. Blacklist: Eine Blacklist enthält Ersetzungswörter für Originalwörter bzw. -Token (Find & Replace).
  2. Free text: eine frei definierbare Zeichenkette aus Buchstaben, Zahlen und Sonderzeichen
  3. Anagram: Anagramme auf Basis des Inhalts des Originalwerts
  4. Technical valid Credit Card Number: technisch gültige Kreditkartennummern, die dem Luhn-Algorithmus genügt
  5. Random Company Names: zufällige Unternehmensnamen, die sich aus Wörtern aus einer Beispieldatenbank und auch einer Unternehmensendung (z. B. GmbH) zusammensetzt
  6. Random First Name: zufällige Vornamen anhand einer Beispieldatenbank bzw. Bibliothek für Vornamen
  7. Random Last Name: zufällige Nachnamen anhand einer Beispieldatenbank für Nachnamen
  8. Random Names: zufällige vollständige Namen (also Vor- und Nachname)
  9. Random E-Mail-Address: Beispiel-E-Mail-Adressen bestehend aus Name (üblich sind Vorname.Nachname), '@', Firmenname, '.' und einer Endung wie com oder de (z. B. Michael.Müller@meine-firma.com)
  10. Telephone Number: realistische Telefon-/Fax-/Mobilnummern
  11. Replace each x-th Char with y: maskierte Wörter, durch Überdecken bestimmter Teile mit einem Sonderzeichen wie z. B. *
  12. Replace the first and last x Chars with y: maskierte Wörter, durch Überdecken von Wortanfang und -ende mit einem Sonderzeichen wie z. B. *
  13. Random Number between x% - y% of Original Value: numerische Zufallswerte in vordefinierten Grenzen, die abhängig von einem Basiswert sind
  14. x% of Original Value: numerische Werte, die jeweils ein durch Prozentangabe bestimmter Anteil eines Basiswertes sind
  15. Shuffle Values in Attribut: Die Originalwerte werden zufällig auf die einzelnen Tabellenzeilen neu zugeordnet.
  16. Adjust in the same proportion: Numerische Werte werden in der gleichen Weise verändert, wie jeweils die numerischen Werte in einem anderen Attribut.
  17. Adjust inverse proportional: Numerische Werte werden in der gegenteiligen Weise verändert (also genau invers), wie jeweils die numerischen Werte in einem anderen Attribut.
  18. Random date between x and y days of Original Value: zufällige Datums-Werte innerhalb vordefinierter Grenzen, die von einem Referenzwert abhängen

Anwendungsbeispiele

[Bearbeiten | Quelltext bearbeiten]
  • Verhinderung von Datenmissbrauch und Datendiebstahl: Beim Data Masking werden Daten nicht verschlüsselt, sondern so verfremdet, dass sie lesbar bleiben und ihren Kontext und ihre Informationsstruktur möglichst weitgehend behalten. Dies nutzt man z. B., um Test-, Demo- oder Trainingssysteme mit sicherheitsunkritischen Daten zu befüllen, die aus Originaldaten abgeleitet (maskiert) wurden. Man löst das Sicherheitsproblem direkt an der Datenquelle.
  • Einhaltung (Compliance) von Datenschutzregelungen: Andere Anwendungsbereiche beziehen sich auf die Einhaltung der zahlreichen Datenschutzgesetze und Richtlinien weltweit, wie z. B.: HIPPA, HITECH, PHI, GLBA, PCI DSS, SOA, Dodd-Frank Wall Street Reform, Consumer Protection Act, SB 1386, European Union (EU) Data Protection Directive, PIPEDA, ISO 27000 series, USA Patriot Act etc. Firmen in den von diesen Regelungen betroffenen Ländern sind verpflichtet, selektiv bestimmte – meist personenbezogene – Daten zu schützen. Dies kann über Verschlüsselung oder Data-Masking-Maßnahmen geschehen.

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  • vgl. § 3 Abs. 6 Bundesdatenschutzgesetz bzw. entsprechendes Landesrecht
  • Roning, Gerd und Gnoss Roland (2003). Anonymisierung wirtschaftsstatistischer Einzeldaten, in: Schriftenreihe „Forum der Bundesstatistik“. Band 42, herausgegeben vom Statistischen Bundesamt, Wiesbaden.