Big Data

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Farbliche Darstellung der Aktivität eines Wikipedia-Bots über einen längeren Zeitraum: typisches Beispiel der Veranschaulichung von „Big Data“ mit einer Visualisierung

Der aus dem englischen Sprachraum stammende Begriff Big Data [ˈbɪɡ ˈdeɪtə] (von englisch big ‚groß‘ und data ‚Daten‘) bezeichnet Datenmengen, welche

  • zu groß,
  • zu komplex,
  • zu schnelllebig
  • zu schwach strukturiert

sind, um sie mit manuellen und herkömmlichen Methoden der Datenverarbeitung auszuwerten.[1] Im deutschsprachigen Raum ist der traditionellere Begriff Massendaten gebräuchlich.

„Big Data“ wird häufig als Sammelbegriff für digitale Technologien verwendet, die in technischer Hinsicht für eine neue Ära digitaler Kommunikation und Verarbeitung und in sozialer Hinsicht für einen gesellschaftlichen Umbruch verantwortlich gemacht werden.[2]

In der Definition von Big Data bezieht sich das „Big“ auf die drei Dimensionen volume (Umfang, Datenvolumen), velocity (Geschwindigkeit, mit der die Datenmengen generiert und transferiert werden) sowie variety (Bandbreite der Datentypen und -quellen).[3] Erweitert wird diese Definition um die zwei V's value und validity, welche für einen unternehmerischen Mehrwert und die Sicherstellung der Datenqualität stehen.[4] Der Begriff „Big Data“ unterliegt als Schlagwort einem kontinuierlichen Wandel; so wird mit ihm ergänzend auch oft der Komplex der Technologien beschrieben, die zum Sammeln und Auswerten dieser Datenmengen verwendet werden.[5][6] Die gesammelten Daten können dabei aus verschiedensten Quellen stammen (Auswahl):

„Big Data“ umfasst auch Bereiche, die als „intim“ bzw. „privat“ gelten: Der Wunsch der Industrie und bestimmter Behörden, möglichst freien Zugriff auf diese Daten zu erhalten, sie besser analysieren zu können und die gewonnenen Erkenntnisse zu nutzen, gerät dabei unweigerlich in Konflikt mit geschützten Persönlichkeitsrechten der Einzelnen. Ein Ausweg ist allein durch eine

  • Anonymisierung der Daten vor dem Ausbeuten, wenn nicht schon durch
  • Anonymisierung vor dem Auswerten

zu erreichen. Klassische Anwender sind Provider sozialer Netzwerke und von Suchmaschinen. Die Analyse, Erfassung und Verarbeitung von großen Datenmengen ist heute in vielen Bereichen alltäglich.

Big Data kann Geschäftsprozess-Verbesserungen in allen Funktionsbereichen von Unternehmen, vor allem aber im Bereich der Technologieentwicklung und Informationstechnik sowie des Marketings erzeugen.[9] Die Erhebung und Verwertung der Datenmengen dient dabei im Allgemeinen der Umsetzung von Unternehmenszielen oder zur staatlichen Sicherheit. Bisher haben vor allem große Branchen, Unternehmen und Anwendungsbereiche der Wirtschaft, Marktforschung, Vertriebs- und Servicesteuerung, Medizin, Verwaltung und Nachrichtendienste die entsprechenden digitalen Methoden für sich genutzt: Die erfassten Daten sollen weiterentwickelt und nutzbringend eingesetzt werden. Die Erhebung der Daten dient dabei meistens für konzernorientierte Geschäftsmodelle sowie Trendforschung in den sozialen Medien und Werbeanalysen, um zukunftsweisende und möglicherweise gewinnbringende Entwicklungen zu erkennen und in Prognosen umzumünzen.[10]

Hintergrund[Bearbeiten | Quelltext bearbeiten]

Mengen von Massendaten wachsen typischerweise exponentiell. Berechnungen aus dem Jahr 2011 zufolge verdoppelt sich das weltweite erzeugte Datenvolumen alle 2 Jahre.[11] Diese Entwicklung wird vor allem getrieben durch die zunehmende maschinelle Erzeugung von Daten z. B. über Protokolle von Telekommunikationsverbindungen (Call Detail Record, CDR) und Webzugriffen (Logdateien), automatische Erfassungen von RFID-Lesern, Kameras, Mikrofonen und sonstigen Sensoren. Big Data fallen auch in der Finanzindustrie an (Finanztransaktionen, Börsendaten) sowie im Energiesektor (Verbrauchsdaten) und im Gesundheitswesen (Verschreibungen). In der Wissenschaft fallen ebenfalls große Datenmengen an, z. B. in der Geologie, Genetik, Klimaforschung und Kernphysik. Der IT-Branchenverband Bitkom hat Big Data als einen Trend im Jahr 2012 bezeichnet[12]. Bei großen Datenkomplexen verbietet sich der unwirtschaftliche Aufwand für ein Speichern auf Vorrat. Dann werden lediglich Metadaten gespeichert oder das Auswerten setzt mitlaufend oder höchstens gering zeitversetzt mit dem Entstehen der Daten auf.

Weitere Bedeutungen[Bearbeiten | Quelltext bearbeiten]

Big Data bezeichnet primär die Verarbeitung von großen, komplexen und sich schnell ändernden Datenmengen. Als Buzzword wird der Begriff in den Massenmedien aber auch verwendet für

  • die zunehmende Überwachung der Menschen durch Geheimdienste auch in westlichen Staaten bspw. durch Vorratsdatenspeicherung
  • die Verletzung von Persönlichkeitsrechten von Kunden durch Unternehmen
  • die zunehmende Intransparenz der Datenspeicherung durch Delokalisierung (Cloud Computing)
  • der Wunsch der Industrie aus den vorhandenen Daten einen Wettbewerbsvorteil erlangen zu können
  • die Automatisierung von Produktionsprozessen (Industrie 4.0, Internet der Dinge)
  • die intransparente Automatisierung von Entscheidungsprozessen in Software[13][14]
  • der Einsatz neuer Technologien statt Standardsoftware (insbesondere in Unternehmen mit einer konservativen IT oft durch Verwendung von Software as a Service um firmeninterne IT-Einschränkungen zu umgehen)
  • die Entwicklung von eigenen Softwarelösungen („inhouse IT“) statt dem Einsatz von „off-the-shelf“ Software durch Fremdunternehmen
  • Werbung, basierend auf Daten über die Internet- und Handynutzung
  • die Organisation von Zusammenarbeit im Rahmen von People Analytics Projekten

selbst wenn in diesem Zuge teilweise weder große noch komplexe Datenmengen anfallen.[15]

Beispiele[Bearbeiten | Quelltext bearbeiten]

In der Forschung können durch Verknüpfung großer Datenmengen und statistische Auswertungen neue Erkenntnisse gewonnen werden, insbesondere in Disziplinen, in denen bisher viele Daten noch von Hand ausgewertet wurden; Unternehmen beispielsweise erhoffen sich von der Analyse von Big Data Möglichkeiten zur Erlangung von Wettbewerbsvorteilen, zur Generierung von Einsparungspotentialen und zur Schaffung neuer Geschäftsfelder, staatliche Stellen erhoffen sich bessere Ergebnisse in der Kriminalistik und Terrorismusbekämpfung.[16] Beispiele für erwartete Vorteile sind:

Die reine Analyse von Kundendaten ist jedoch noch nicht automatisch Big Data – oft handelt es sich bei vielen Anwendungen aus dem Marketing viel mehr um „Small-Data“-Analytics.[15]

Verarbeitung von Big Data[Bearbeiten | Quelltext bearbeiten]

Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Die fraglichen Angaben werden daher möglicherweise demnächst entfernt. Bitte hilf der Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst.

Klassische relationale Datenbanksysteme sowie Statistik- und Visualisierungsprogramme sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommen daher neue Arten von Datenspeicher- und Analyse-Systemen zum Einsatz, die parallel auf bis zu Hunderten oder Tausenden von Prozessoren bzw. Servern arbeiten. Dabei gibt es u. a. folgende Herausforderungen:

  • Verarbeitung vieler Datensätze
  • Verarbeitung vieler Spalten innerhalb eines Datensatzes
  • Schneller Import großer Datenmengen
  • Sofortige Abfrage importierter Daten (Realtime Processing)
  • Kurze Antwortzeiten (Latenz und Verarbeitungsdauer) auch bei komplexen Abfragen
  • Möglichkeit zur Verarbeitung vieler gleichzeitiger Abfragen (Concurrent Queries)
  • Analyse verschiedenartiger Informationstypen (Zahlen, Texte, Bilder, …)

Die Entwicklung von Software für die Verarbeitung von Big Data befindet sich noch in einer frühen Phase. Bekannt ist der MapReduce-Ansatz, der bei Open-Source-Software (Apache Hadoop und MongoDB) sowie bei einigen kommerziellen Produkten (Aster Data, Greenplum u. a.) zum Einsatz kommt.

Anwendung (Auswahl)[Bearbeiten | Quelltext bearbeiten]

Bei der Präsidentschaftswahl in den Vereinigten Staaten 2016 sowie bei dem Volksentscheid in Großbritannien über den Austritt aus der Europäischen Union im selben Jahr („Brexit“) hatten die überraschenden Gewinner jeweils die Firma Cambridge Analytica engagiert, die sich mit der Erhebung, Auswertung, Anwendung und Zuordnung sowie mit dem Verkauf hauptsächlich im Internet gewonnener persönlicher Daten beschäftigt und Methoden der Psychometrik anwendet, einem Ableger der Psychologie (siehe Psychografie).[18][19]

Kritik[Bearbeiten | Quelltext bearbeiten]

Datenschutz[Bearbeiten | Quelltext bearbeiten]

Hauptartikel: Datenschutz

Der Datenwissenschaftler Andreas Dewes hat in einer Untersuchung gezeigt, dass „anonymisierte“ Daten von Internetnutzern, die von Firmen gesammelt und verkauft werden, wieder entschlüsselt und Personen zugeordnet werden können: "Solche Daten, die sehr intim sein können, machen sicherlich in Einzelfällen auch erpressbar". Unter den von Dewes im Rahmen seiner Untersuchung aus den von Werbefirmen gekauften „anonymen“ Daten von ca. drei Millionen Deutschen Identifizierten waren Mitglieder des Deutschen Bundestags und von Landesparlamenten sowie weitere Personen des öffentlichen Lebens wie Richter, Polizeibeamte oder andere Funktionäre.[25]

Entsolidarisierung[Bearbeiten | Quelltext bearbeiten]

Mit Bezug auf die Versicherungsbeitragsanpassung mittels Big Data wird unter anderem die „Gefahr einer schleichenden Entsolidarisierung in der Versicherung“ hervorgehoben.[26]

Fehlende Normen[Bearbeiten | Quelltext bearbeiten]

Kritik gibt es an „Big Data“ vor allem dahingehend, dass die Datenerhebung und -auswertung praktisch ausschließlich nach technischen Aspekten erfolgt, also dass beispielsweise der technisch einfachste Weg gewählt wird, die Daten zu erheben und die Auswertung von den Möglichkeiten, diese Daten zu verarbeiten, begrenzt wird. Statistische Grundprinzipien wie das einer repräsentativen Stichprobe werden oft vernachlässigt. So kritisierte die Sozialforscherin Danah Boyd:[27]

  • Größere Datenmengen müssten nicht qualitativ bessere Daten sein
  • Nicht alle Daten seien gleichermaßen wertvoll
  • „Was“ und „Warum“ seien zwei unterschiedliche Fragen
  • Bei Interpretationen sei Vorsicht geboten
  • Nur weil es verfügbar ist, sei es nicht ethisch vertretbar.

Ein Forscher ermittelte beispielsweise, dass Menschen nicht mehr als 150 Freundschaften pflegen (Dunbar-Zahl), was sodann als technische Begrenzung in sozialen Netzwerken eingeführt wurde – in der falschen Annahme, als „Freunde“ bezeichnete Bekanntschaften würden echte Freundschaften widerspiegeln.[27][28] Sicherlich würde nicht jeder alle seine Facebook-Freunde in einem Interview als Freunde benennen – der Begriff eines „Freundes“ signalisiert bei Facebook lediglich eine Kommunikationsbereitschaft.

Eine entscheidende Frage ist auch, wem die von Privatpersonen gesammelten Daten gehören, wer die Verfügungshoheit über sie behält und wer ihre Nutzung kontrolliert.

Fehlende Regulierung[Bearbeiten | Quelltext bearbeiten]

Der schleswig-holsteinische Datenschutzbeauftragte Thilo Weichert warnt: „Big Data eröffnet Möglichkeiten des informationellen Machtmissbrauchs durch Manipulation, Diskriminierung und informationelle ökonomische Ausbeutung – verbunden mit der Verletzung der Grundrechte der Menschen.“[29][30]

Fehlende Substanz der Auswertungen[Bearbeiten | Quelltext bearbeiten]

Ein anderer kritischer Ansatz setzt sich mit der Frage auseinander, ob Big Data das Ende aller Theorie bedeutet. Chris Anderson, Chefredakteur beim Magazin Wired beschrieb 2008 das Glaubwürdigkeitsproblem jeder wissenschaftlichen Hypothese und jedes Modells bei gleichzeitiger Echtzeitanalyse lebender und nicht lebender Systeme. Korrelationen werden wichtiger als kausale Erklärungsansätze, die sich oft erst später bewahrheiten oder falsifizieren lassen.[31]

Hype, Schwammiger Begriff[Bearbeiten | Quelltext bearbeiten]

Der Begriff „Big Data“ wird gelegentlich auch dann verwendet, wenn Daten weder groß noch komplex sind oder sich nicht schnell ändern oder mit herkömmlichen Techniken problemlos verarbeitet werden können.[15] Die zunehmende Aufweichung des Begriffs führt dazu, dass er immer mehr ein aussageloser Marketingbegriff wird und vielen Prognosen zufolge innerhalb der nächsten Jahre eine starke Abwertung erfahren wird („Tal der Enttäuschungen“ im Hypezyklus).

Rezeption[Bearbeiten | Quelltext bearbeiten]

  • Kongress Alte Feuerwache Köln, September/Oktober 2016: Leben ist kein Algorithmus - Solidarische Perspektiven gegen den technologischen Zugriff[32]

Kunst[Bearbeiten | Quelltext bearbeiten]

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Literatur[Bearbeiten | Quelltext bearbeiten]

Sachbücher[Bearbeiten | Quelltext bearbeiten]

Belletristik[Bearbeiten | Quelltext bearbeiten]

Weblinks[Bearbeiten | Quelltext bearbeiten]

 Commons: Big Data – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. W. Christl: Kommerzielle digitale Überwachung im Alltag. PDF, auf: crackedlabs.org, November 2014, S. 12.
  2. R. Reichert: Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie. transcript Verlag, Bielefeld 2014, S. 9.
  3. Gartner IT Glossary: „Big data is high-volume, high-velocity and high-variety in formation assets that demand cost- effective, innovative forms of information processing for enhanced insight and decision making“. Abgerufen am 15. Januar 2016 von: http://www.gartner.com/it-glossary/big-data
  4. R. Bachmann, T. Gerzer, D. G. Kemper: Big Data – Fluch oder Segen? – Unternehmen im Spiegel gesellschaftlichen Wandels. Mitp Verlag, Heidelberg/ München/ Landsberg/ Frechen/ Hamburg 2014, S. 23ff, 2014, S. 27ff.
  5. President’s Council of Advisors for Science and Technology: Big Data: Seizing Opportunities, Preserving Values, Executive Office of the President, Mai 2014.
  6. Edd Dumbill: What is big data? An introduction to the big data landscape. auf: strata.oreilly.com, 11. Januar 2012.
  7. Innovationspotenzialanalyse. Fraunhofer IAIS, 2012, abgerufen am 17. Mai 2016.
  8. Hannes Grassegger, Mikael Krogerus: Ich habe nur gezeigt, dass es die Bombe gibt. auf: dasmagazin.ch, 48., 3. Dezember 2016.
  9. Rainer Schmidt, Michael Möhring, Stefan Maier, Julia Pietsch, Ralf-Christian Härting: Big Data as Strategic Enabler – Insights from Central European Enterprises. In: Business Information Systems (= Lecture Notes in Business Information Processing. Band 176). Springer International Publishing, 2014, ISBN 978-3-319-06694-3, S. 50–60, doi:10.1007/978-3-319-06695-0_5.
  10. Kommerzielle digitale Überwachung im Alltag. (PDF) auf: crackedlabs.org, S. 12 ff.
  11. Klaus Manhart: IDC-Studie zum Datenwachstum – Doppeltes Datenvolumen alle zwei Jahre. (Memento vom 2. Dezember 2013 im Webarchiv archive.is) In: CIO. 12. Juli 2011.
  12. Trendkongress: Big Data, wenig Schutz. Abgerufen am 27. November 2012.
  13. Stefan Schulz: Wir und unsere virtuellen Zombies. In: FAZ. 15. September 2014, abgerufen am 19. Februar 2015.
  14. a b Götz Hamann, Adam Soboczynski: Der Angriff der Intelligenz. In: Die Zeit. 10. September 2014, abgerufen am 19. Februar 2015.
  15. a b c Fergus Gloster: Von Big Data reden aber Small Data meinen. Computerwoche, 1. Oktober 2014, abgerufen am 5. Oktober 2014.
  16. Hilton Collins: Predicting Crime Using Analytics and Big Data. 24. Mai 2014, abgerufen am 23. Januar 2014.
  17. Ricardo Buettner: A Framework for Recommender Systems in Online Social Network Recruiting: An Interdisciplinary Call to Arms. In: 47th Annual Hawaii International Conference on System Sciences. IEEE, 2014, S. 1415-1424. doi:10.13140/RG.2.1.2127.3048
  18. a b c Hannes Grassegger, Mikael Krogerus: Ich habe nur gezeigt, dass es die Bombe gibt. auf: dasmagazin.ch, 48., 3. Dezember 2016, abgerufen am 10. Dezember 2016.
  19. a b c Peter Welchering: Politik 4.0: Online-Manipulation der Wähler. auf: deutschlandfunk.de, Computer und Kommunikation, 10. Dezember 2016.
  20. Ricardo Buettner: Predicting user behavior in electronic markets based on personality-mining in large online social networks: A personality-based product recommender framework. In: Springer (Hrsg.): Electronic Markets: The International Journal on Networked Business. 2016, S. 1-19. doi:10.1007/s12525-016-0228-z.
  21. The Time Has Come: Analytics Delivers for IT Operations. Data Center Journal, abgerufen am 18. Februar 2013.
  22. Big Data auf dem Bauernhof. Frankfurter Allgemeine Zeitung, abgerufen am 28. Februar 2017.
  23. Zwischen Verheissung und Bedrohung – Big Data in der Versicherungswirtschaft. In: Die Volkswirtschaft, Das Magazin für Wirtschaftspolitik 5-2014. Staatssekretariat für Wirtschaft (SECO) und Eidgenössisches Departement für Wirtschaft, Bildung und Forschung (WBF), Mai 2014, abgerufen am 1. Oktober 2016 (PDF). S. 23–25.
  24. Ben Waber: People Analytics: How Social Sensing Technology Will Transform Business and What It Tells Us about the Future of Work. Financial Times Prent. Int., 2013, ISBN 978-0-13-315831-1.
  25. deutschlandfunk.de, Interview, 28. Januar 2017, Andreas Dewes im Gespräch mit Stephanie Rohde: Es wird immer schwieriger, sich zu schützen (28. Januar 2017)
  26. Zwischen Verheissung und Bedrohung – Big Data in der Versicherungswirtschaft. In: Die Volkswirtschaft, Das Magazin für Wirtschaftspolitik 5-2014. Staatssekretariat für Wirtschaft (SECO) und Eidgenössisches Departement für Wirtschaft, Bildung und Forschung (WBF), Mai 2014, abgerufen am 1. Oktober 2016 (PDF). S. 25.
  27. a b Danah Boyd: Privacy and Publicity in the Context of Big Data. In: WWW 2010 conference. 29. April 2010, abgerufen am 18. April 2011 (englisch, Keynote WWW 2010).
  28. Marco Metzler: Die Mechanismen virtueller Beziehungsnetze. In: Neue Zürcher Zeitung. 16. November 2007.
  29. Weichert fordert Hinterfragung und Erforschung von „Big Data“. 18. März 2013, abgerufen am 21. März 2013.
  30. Big Data: Sowohl Gefahr für die Demokratie als auch ökonomische Chance. 20. März 2013, abgerufen am 21. März 2013.
  31. Siehe auch: Chris Anderson in WIRED und cum hoc ergo propter hoc
  32. bigdata.blackblogs.org (17. September 2016)
  33. freiheit.florianmehnert.de
  34. Stefan Schulz: Sie wissen alles. In: FAZ. 15. September 2014, abgerufen am 19. Februar 2015.
  35. Vera Linß: Sachbuch über Big Data – Gefährliche Datenfusion, Deutschlandradio Kultur, 15. September 2014, abgerufen am 19. Februar 2015.
  36. Michael Lange: Das wahre „Ich“ des Menschen, DeutschlandfunkWissenschaft im Brennpunkt. 20. März 2016.