Big Data

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
QS-Informatik

Dieser Artikel wurde wegen inhaltlicher Mängel auf der Qualitätssicherungsseite der Redaktion Informatik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Informatik auf ein akzeptables Niveau zu bringen. Hilf mit, die inhaltlichen Mängel dieses Artikels zu beseitigen, und beteilige dich an der Diskussion! (+)
Begründung: --Crazy1880 08:16, 21. Feb. 2011 (CET)

Als Big Data werden besonders große Datenmengen bezeichnet, die mit Hilfe von Standard-Datenbanken und Datenmanagement-Tools nicht oder nur unzureichend verarbeitet werden können. Problematisch sind dabei vor allem die Erfassung, die Speicherung, die Suche, Verteilung, Analyse und Visualisierung von großen Datenmengen. Das Volumen dieser Datenmengen geht in die Terabytes, Petabytes und Exabytes.

Nach aktuellen Berechnungen verdoppelt sich das weltweite Datenvolumen alle 2 Jahre[1]. Diese Entwicklung wird vor allem getrieben durch die zunehmende maschinelle Erzeugung von Daten z. B. über Protokolle von Telekommunikationsverbindungen (CDR) und Web-Zugriffen (Logdateien), automatische Erfassungen von RFID-Lesern, Kameras, Mikrofonen und sonstigen Sensoren. Big Data fallen auch in der Finanzindustrie an (Finanz-Transaktionen, Börsendaten), sowie im Energiesektor (Verbrauchsdaten) und im Gesundheitswesen (Verschreibungen). In der Wissenschaft fallen ebenfalls große Datenmengen an, z. B. in der Geologie, Genetik, Klimaforschung und Kernphysik. Der IT-Branchenverband Bitkom hat Big Data als einen Trend im Jahr 2012 bezeichnet.[2]

Inhaltsverzeichnis

Beispiele [Bearbeiten]

Für Unternehmen bietet die Analyse von Big Data die Möglichkeit zur Erlangung von Wettbewerbsvorteilen, Generierung von Einsparungspotentialen und zur Schaffung von neuen Geschäftsfeldern. Beispiele sind:

Verarbeitung von Big Data [Bearbeiten]

Klassische relationale Datenbanksysteme sowie Statistik- und Visualisierungsprogramme sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommt daher eine neue Art von Software zum Einsatz, die parallel auf bis zu Hunderten oder Tausenden von Prozessoren bzw. Servern arbeitet. Dabei gibt es folgende Herausforderungen:

  • Verarbeitung vieler Datensätze
  • Verarbeitung vieler Spalten innerhalb eines Datensatzes
  • Schneller Import großer Datenmengen
  • Sofortige Abfrage importierter Daten (Realtime-Processing)
  • Kurze Antwortzeiten auch bei komplexen Abfragen
  • Möglichkeit zur Verarbeitung vieler gleichzeitiger Abfragen (Concurrent Queries)

Die Entwicklung von Software für die Verarbeitung von Big Data befindet sich noch in einer frühen Phase. Prominent ist der MapReduce-Ansatz, der bei Open-Source-Software (Apache Hadoop und MongoDB), sowie bei einigen kommerziellen Produkten (Aster Data, Greenplum u. a.) zum Einsatz kommt.

Kritik [Bearbeiten]

Kritik gibt es an "Big Data" vor allem dahingehend, dass die Datenerhebung und -auswertung oft nach technischen Aspekten erfolgt, also dass beispielsweise der technisch einfachste Weg gewählt wird, die Daten zu erheben und die Auswertung von den Möglichkeiten, diese Daten zu verarbeiten, begrenzt wird. Statistische Grundprinzipien wie das einer repräsentativen Stichprobe werden oft vernachlässigt. So kritisierte die Sozialforscherin Danah Boyd:[3]

  • Größere Datenmengen müssten nicht qualitativ bessere Daten sein
  • Nicht alle Daten seien gleich erzeugt
  • "Was" und "Warum" seien zwei unterschiedliche Fragen
  • Bei Interpretationen sei Vorsicht geboten
  • Nur weil es verfügbar ist, sei es nicht ethisch

So ermittelte ein Forscher beispielsweise, dass Nutzer eines sozialen Netzes nicht mehr als 150 Freundschaften pflegen würden – was jedoch lediglich eine technische Begrenzung des Netzwerkes war.[3] Und sicherlich würde nicht jeder alle seine Facebook-Freunde in einem Interview als Freunde benennen – der Begriff eines "Freundes" auf Facebook gibt lediglich eine Kommunikationsbereitschaft an.

Ein anderer kritischer Ansatz setzt sich mit der Frage auseinander, ob Big Data das Ende aller Theorie bedeutet. Chris Anderson, Chefredakteur bei WIRED beschrieb 2008 das Glaubwürdigkeitsproblem jeder wissenschaftlichen Hypothese und jedes Modells bei gleichzeitiger Echtzeitanalyse lebender und nicht lebender Systeme. Korrelationen werden wichtiger als kausale Erklärungsansätze, die sich oft erst später bewahrheiten oder falsifizieren lassen.[4]

Der schleswig-holsteinische Datenschutzbeauftragte Thilo Weichert warnt: "Big Data eröffnet Möglichkeiten des informationellen Machtmissbrauchs durch Manipulation, Diskriminierung und informationelle ökonomische Ausbeutung – verbunden mit der Verletzung der Grundrechte der Menschen" [5][6]

Einzelnachweise [Bearbeiten]

  1. Klaus Manhart: IDC-Studie zum Datenwachstum - Doppeltes Datenvolumen alle zwei Jahre. In: CIO. 12. Juli 2011, abgerufen am 11. Januar 2013.
  2. Trendkongress: Big Data, wenig Schutz. Abgerufen am 27. November 2012.
  3. a b Danah Boyd: Privacy and Publicity in the Context of Big Data. In: WWW 2010 conference. 29. April 2010, abgerufen am 18. April 2011 (html, englisch, Keynote WWW 2010).
  4. Siehe auch: Chris Anderson in WIRED und cum hoc ergo propter hoc
  5. Weichert fordert Hinterfragung und Erforschung von „Big Data“. 18. März 2013, abgerufen am 21. März 2013.
  6. Big Data: Sowohl Gefahr für die Demokratie als auch ökonomische Chance. 20. März 2013, abgerufen am 21. März 2013.

Siehe auch [Bearbeiten]

Weblinks [Bearbeiten]