Big Data

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Darstellung der Wikipedia-Aktivität eines einzelnen Users (hier: eines Bots) über einen längeren Zeitraum in Form von Farben – ein typisches Beispiel, um sich mit Hilfe einer Visualisierung in Big Data zurechtzufinden.

Big Data [ˈbɪɡ ˈdeɪtə] (von engl. big = groß, data = Daten) bezeichnet Daten-Mengen, die zu groß sind, um sie mit händischen und klassischen Methoden der Datenverarbeitung auszuwerten. Die Daten können aus vielfältigen Quellen wie Sensoren, Kameras oder der Überwachung von Internet-Verkehr stammen. Es sind neue Technologien nötig, um Big Data zu erfassen, zu verteilen, zu speichern, zu durchsuchen, zu analysieren und zu visualisieren.[1] Der Begriff ist unscharf definiert, gelangte um das Jahr 2010 in den deutschen Sprachraum und wird meist mit Datenvolumina in Größenordnungen von Terabyte, Petabytes und Exabytes assoziiert. Im Zuge der NSA-Affäre und sozialer Netzwerke wie Facebook wird Big Data aber auch zunehmend gleichgesetzt mit einer umfangreichen Überwachung und Analyse von Nutzerverhalten, sowie dem Versuch aus den so gespeicherten Daten ("Big Data als Rohstoff") einen wirtschaftlichen Nutzen zu ziehen. Der Begriff "Big Data" unterliegt als Schlagwort derzeit einem kontinuierlichen Wandel, derzeit mit einem Fokus auf intelligenten Produktionssystemen (Industrie 4.0) und dem Wunsch, die Daten besser analysieren zu können (Business Intelligence).

Hintergrund[Bearbeiten]

Berechnungen aus dem Jahr 2011 zufolge verdoppelt sich das weltweite Datenvolumen alle 2 Jahre.[2] Diese Entwicklung wird vor allem getrieben durch die zunehmende maschinelle Erzeugung von Daten z. B. über Protokolle von Telekommunikationsverbindungen (Call Detail Record, CDR) und Web-Zugriffen (Logdateien), automatische Erfassungen von RFID-Lesern, Kameras, Mikrofonen und sonstigen Sensoren. Big Data fallen auch in der Finanzindustrie an (Finanz-Transaktionen, Börsendaten), sowie im Energiesektor (Verbrauchsdaten) und im Gesundheitswesen (Verschreibungen). In der Wissenschaft fallen ebenfalls große Datenmengen an, z. B. in der Geologie, Genetik, Klimaforschung und Kernphysik. Der IT-Branchenverband Bitkom hat Big Data als einen Trend im Jahr 2012 bezeichnet.[3]

Beispiele[Bearbeiten]

Für Unternehmen bietet die Analyse von Big Data die Möglichkeit zur Erlangung von Wettbewerbsvorteilen, Generierung von Einsparungspotentialen und zur Schaffung von neuen Geschäftsfeldern. In der Forschung können durch Verknüpfung großer Datenmengen und statistische Auswertungen neue Erkenntnisse gewonnen werden. Staatliche Stellen erhoffen sich bessere Ergebnisse in der Kriminalistik und Terrorismusbekämpfung[4]. Beispiele sind:

Verarbeitung von Big Data[Bearbeiten]

Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Die fraglichen Angaben werden daher möglicherweise demnächst entfernt. Bitte hilf der Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst. Näheres ist eventuell auf der Diskussionsseite oder in der Versionsgeschichte angegeben. Bitte entferne zuletzt diese Warnmarkierung.

Klassische relationale Datenbanksysteme sowie Statistik- und Visualisierungsprogramme sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommt daher eine neue Art von Software zum Einsatz, die parallel auf bis zu Hunderten oder Tausenden von Prozessoren bzw. Servern arbeitet. Dabei gibt es folgende Herausforderungen:

  • Verarbeitung vieler Datensätze
  • Verarbeitung vieler Spalten innerhalb eines Datensatzes
  • Schneller Import großer Datenmengen
  • Sofortige Abfrage importierter Daten (Realtime Processing)
  • Kurze Antwortzeiten auch bei komplexen Abfragen
  • Möglichkeit zur Verarbeitung vieler gleichzeitiger Abfragen (Concurrent Queries)

Die Entwicklung von Software für die Verarbeitung von Big Data befindet sich noch in einer frühen Phase. Prominent ist der MapReduce-Ansatz, der bei Open-Source-Software (Apache Hadoop und MongoDB), sowie bei einigen kommerziellen Produkten (Aster Data, Greenplum, MIOedge u. a.) zum Einsatz kommt.

Kritik[Bearbeiten]

Kritik gibt es an "Big Data" vor allem dahingehend, dass die Datenerhebung und -auswertung oft nach technischen Aspekten erfolgt, also dass beispielsweise der technisch einfachste Weg gewählt wird, die Daten zu erheben und die Auswertung von den Möglichkeiten, diese Daten zu verarbeiten, begrenzt wird. Statistische Grundprinzipien wie das einer repräsentativen Stichprobe werden oft vernachlässigt. So kritisierte die Sozialforscherin Danah Boyd:[5]

  • Größere Datenmengen müssten nicht qualitativ bessere Daten sein
  • Nicht alle Daten seien gleichermaßen wertvoll
  • "Was" und "Warum" seien zwei unterschiedliche Fragen
  • Bei Interpretationen sei Vorsicht geboten
  • Nur weil es verfügbar ist, sei es nicht ethisch

So ermittelte ein Forscher beispielsweise, dass Menschen nicht mehr als 150 Freundschaften pflegen, was sodann als technische Begrenzung in sozialen Netzwerken eingeführt wurde – in der falschen Annahme, als "Freunde" bezeichnete Bekanntschaften würden echte Freundschaften widerspiegeln.[5] Sicherlich würde nicht jeder alle seine Facebook-Freunde in einem Interview als Freunde benennen – der Begriff eines "Freundes" auf Facebook gibt lediglich eine Kommunikationsbereitschaft an.

Ein anderer kritischer Ansatz setzt sich mit der Frage auseinander, ob Big Data das Ende aller Theorie bedeutet. Chris Anderson, Chefredakteur bei WIRED beschrieb 2008 das Glaubwürdigkeitsproblem jeder wissenschaftlichen Hypothese und jedes Modells bei gleichzeitiger Echtzeitanalyse lebender und nicht lebender Systeme. Korrelationen werden wichtiger als kausale Erklärungsansätze, die sich oft erst später bewahrheiten oder falsifizieren lassen.[6]

Der schleswig-holsteinische Datenschutzbeauftragte Thilo Weichert warnt: "Big Data eröffnet Möglichkeiten des informationellen Machtmissbrauchs durch Manipulation, Diskriminierung und informationelle ökonomische Ausbeutung – verbunden mit der Verletzung der Grundrechte der Menschen." [7][8]

Siehe auch[Bearbeiten]

Literatur[Bearbeiten]

Weblinks[Bearbeiten]

Einzelnachweise[Bearbeiten]

  1. Sabine Horvath: Aktueller Begriff – Big Data (PDF; 108 kB). Wissenschaftliche Dienste des Deutschen Bundestages, 7. November 2013
  2. Klaus Manhart: IDC-Studie zum Datenwachstum - Doppeltes Datenvolumen alle zwei Jahre. In: CIO. 12. Juli 2011, abgerufen am 11. Januar 2013.
  3. Trendkongress: Big Data, wenig Schutz. Abgerufen am 27. November 2012.
  4. Hilton Collins: Predicting Crime Using Analytics and Big Data. 24. Mai 2014, abgerufen am 23. Januar 2014.
  5. a b Danah Boyd: Privacy and Publicity in the Context of Big Data. In: WWW 2010 conference. 29. April 2010, abgerufen am 18. April 2011 (html, englisch, Keynote WWW 2010).
  6. Siehe auch: Chris Anderson in WIRED und cum hoc ergo propter hoc
  7. Weichert fordert Hinterfragung und Erforschung von „Big Data“. 18. März 2013, abgerufen am 21. März 2013.
  8. Big Data: Sowohl Gefahr für die Demokratie als auch ökonomische Chance. 20. März 2013, abgerufen am 21. März 2013.