Zum Inhalt springen

Data Science

aus Wikipedia, der freien Enzyklopädie
(Weitergeleitet von Datenwissenschaft)

Der Begriff englisch Data Science ‚Datenwissenschaft‘ bezeichnet die Wissenschaft von der Extraktion von Wissen aus Daten, um daraus zu lernen.[1][2] Mit „Daten” sind primär große Mengen digitaler Daten gemeint, die beispielsweise in Datenbanken gespeichert sind oder durch Services erzeugt werden.

Data Science ist ein neues interdisziplinäres Wissenschaftsfeld[3], welches mathematisch-statistisch basierte Methoden, Prozesse, Algorithmen und Systeme zur Extraktion von Erkenntnissen, Mustern und Schlüssen sowohl aus strukturierten als auch unstrukturierten Daten ermöglicht. Ein spezieller Fokus von Data Science liegt auf der Verwertung und Visualisierung der Daten.[4] Die Technik der Datenvisualisierung ist jedoch ein eigenes Fachgebiet, das unter anderem die Computergrafik umfasst.

Genauer gesagt versucht Data Science sich auf die „digitale Erfassung, Analyse und Visualisierung vergangener, aktueller sowie zukünftiger Phänomene unserer realen Welt, um datengetrieben den Prozess der Wissensgenerierung als bestmögliche Entscheidungsbasis für menschliches Handeln zu optimieren.“ zu fokussieren.[5]

Data Science findet sich auch als Teilbereich oder Aktivität anderer Wissenschaften, z. B. die Datenwissenschaften der Materialwissenschaften[6] oder in der Logistik und Produktion.[7]

Ein verwandter Begriff ist englisch Data Analytics ‚Datenanalyse‘, was im Zusammenhang mit Data Mining (der Gewinnung oder Erzeugung von Daten, vgl. die sogenannte „Datafizierung“) steht. Ein weiteres Konzept und Schlagwort ist Big Data (umfangreiche Daten) und die großen Sprachmodelle, viz. Large Language Models (LLM), welche große Mengen an Daten verarbeiten.

Data Science steht im Zusammenhang mit der digitalen Wirtschaft.

Data Science ist geprägt von der Anwendung und Nutzung digitaler Daten, die durch die digitale Revolution und das Informationszeitalter entstanden sind. Daten sind heute fester Bestandteil einer Vielzahl von technischen Geräten und wirtschaftlichen Abläufen – speziell im Zuge des Siegeszugs des Internets und seiner vielen digitalen Services wie dem Internet der Dinge. Letzteres und jedes Smartphone sind beispielsweise Datenquellen, die für die Datenwissenschaft interessant sind – neben hunderttausenden anderen Quellen (vgl. auch Big Data), die Daten erzeugen oder speichern, wie etwa große Datenbanken von Organisationen oder Unternehmen.

Die Datenwissenschaft versucht, mit diesen Daten einen Mehrwert zu schaffen. Dieser Mehrwert soll Teil einer sogenannten „Wissenshierarchie“ sein, beginnenden bei den Daten (Data), den Informationen (Information), dem Wissen (Knowledge), und der draus gewonnenen Einsicht oder Weisheit (Wisdom), auch bekannt als die DIKW-Hierachie oder DIKW-Pyramide.

Daten als Rohstoff

[Bearbeiten | Quelltext bearbeiten]

Klassische Daten aus Messungen (vgl. Messtechnik) wurden zuvor über Jahrzehnte hinweg mit anderen Methoden analytisch verarbeitet, speziell ohne Computertechnik und elektronische Datenverarbeitung (EDV). Diese Aufgabe ist fester Bestandteil wissenschaftlicher Arbeit in den Ingenieur- und Naturwissenschaften. Dazu zählen auch statistische Methoden (vgl. auch mathematische Statistik), die heute im Sinne der „Data Science“ zum Einsatz kommen.[8] Ingenieure, die heute in Forschung und Entwicklung tätig sind, üben teilweise die Tätigkeiten eines Data Scientists aus, da die Grundlagen ähnlich sind – und umgekehrt. Gleiches gilt auch für Softwerker oder andere Computer- oder IT-Spezialisten, die Daten verarbeiten. Ein Unterschied besteht jedoch beispielsweise darin, ob sich der Data Scientist auf eine spezielle Programmiersprache (z. B. Python oder R) fokussiert, um die Daten damit zu verarbeiten, oder ob er weitere Werkzeuge zur Visualisierung nutzt.

Daten sind dabei der „Roh-” und nach Bearbeitung der „Brennstoff” der Datenwissenschaft. Sie nutzt diese, um wiederum andere Prozesse anzutreiben oder positiv zu beeinflussen, auch zu optimieren. Im erweiterten Sinne sind Daten heutzutage notwendige Bausteine für die „moderne” künstliche Intelligenz, die Large Language Models (LLM) und andere Technologien wie das selbstfahrende Kraftfahrzeug.[9] Data Science ist jedoch vor allem im Umfeld moderner Internettechnologie, wie beispielsweise dem Cloud Computing, gefragt und etwa zeitgleich mit der Idee von „Big Data” (vgl. auch New Economy) groß geworden.[10]

Begriffsbildung

[Bearbeiten | Quelltext bearbeiten]

Der Begriff „Data Science“ existiert seit über 40 Jahren und wurde ursprünglich als Ersatz für den Begriff „Informatik“ von Peter Naur im Jahr 1960 verwendet. 1974 veröffentlichte Naur in der Concise Survey of Computer Methods[11] eine Umfrage über die zeitgenössische Datenverarbeitung, in welcher der Begriff „Data Science“ frei verwendet wurde.

1996 trafen sich die Mitglieder der International Federation of Classification Societies (IFCS) in Kobe für ihre zweijährliche Konferenz. Bei dieser Konferenz war zum ersten Mal der Begriff „Data Science“ im Titel der Konferenz enthalten.[12]

Die moderne Definition von Data Science wurde erstmals im Rahmen des zweiten japanisch-französischen Statistiksymposiums an der Universität Montpellier II (Frankreich) im Jahr 1992 entworfen.[13] Die Teilnehmer würdigten die Entstehung einer neuen Disziplin mit einem besonderen Fokus auf Daten aus verschiedenen Herkünften, Dimensionen, Typen und Strukturen. Sie prägten die Kontur dieser neuen Wissenschaft, die auf etablierten Konzepten und Prinzipien der Statistik und Datenanalyse basiert, unter weitgehender Nutzung der zunehmenden Macht der Computerwerkzeuge.

Im November 1997 gab C. F. Jeff Wu den Eröffnungsvortrag mit dem Titel „Statistik = Datenwissenschaft?“[14] für seine Ernennung zum H. C. Carver Professor of Statistics an der University of Michigan.[15] In diesem Vortrag charakterisierte er die statistische Arbeit als eine Trilogie von Datenerfassung, Datenmodellierung und -analyse und die Entscheidungsfindung. Abschließend rief er den Begriff „Datenwissenschaft“ ins Leben und befürwortete, dass die Statistik in „Datenwissenschaft“ und Statistiker in „Datenwissenschaftler“ umbenannt werden.[14] Später präsentierte er einen Vortrag mit dem Titel „Statistik = Datenwissenschaft?“, als ersten von seinen Mahalanobis-Memorial-Vorträgen.[16] Diese Vorträge ehren Prasanta Chandra Mahalanobis, einen indischen Wissenschaftler, Statistiker und Gründer des „Indian Statistical Instituts“.

2001 führte William S. Cleveland die Datenwissenschaft als eigenständige Disziplin in seinem Artikel „Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics“ ein.[17] In seinem Bericht stellte Cleveland sechs für ihn umfassende Gebiete der Datenwissenschaft vor: multidisziplinäre Untersuchungen, Modelle und Methoden für Daten, Rechnen mit Daten, Pädagogik, Werkzeug-Bewertung und Theorie.

Im April 2002 veröffentlichte der internationale Rat für Wissenschaft: Ausschuss für die Daten für Wissenschaft und Theorie, das Data Science Journal[18], welche sich auf die Problematik, wie die Beschreibung von Datensystemen, ihre Veröffentlichung im Internet, Anwendungen und gesetzlichen Problemen konzentrierte.

Kurz darauf begann die Columbia University 2003 die Zeitschrift The Journal of Data Science (JDS)[19] zu veröffentlichen, welche eine Plattform für alle Datenanbieter zur Verfügung stellte, um ihre Ansichten und Ideen zum Austausch zu präsentieren. Die Zeitschrift wurde größtenteils der Anwendung von statistischen Methoden und der quantitativen Forschung gewidmet.

2005 veröffentlichte das National Science Board (NSB) der National Science Foundation (NSF) den Bericht „Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century“[20], in welchem unter dem Begriff Data Scientists verschiedene Experten aufgeführt werden, die von entscheidender Bedeutung für das erfolgreiche Management digitalen Daten sind. Genannt werden unter anderem Informatiker, Datenbankexperten, Programmierer, Domänenexperten, Bibliothekare, Archivare sowie Experten im Bereich Software Engineering. Als Teil der Verantwortlichkeiten von Data Scientists wird insbesondere die Entwicklung innovativer Konzepte in den Bereichen Datenbanktechnologie und Informationswissenschaft betont. Hierunter fallen auch Methoden der Informationsvisualisierung, Datenanalyse und Wissensentdeckung in Datenbanken.

Ausbildung und Studium

[Bearbeiten | Quelltext bearbeiten]

Der Studiengang Data Science verwendet Techniken und Theorien aus den Fächern Mathematik, Statistik und Informationstechnologie, einschließlich der Signalverarbeitung, verwendet Wahrscheinlichkeitsmodelle des maschinellen Lernens, des statistischen Lernens, der Programmierung, der Datentechnik, der Mustererkennung, der Prognostik, der Modellierung von Unsicherheiten und der Datenlagerung.

Ausbildungsmöglichkeiten

[Bearbeiten | Quelltext bearbeiten]

Im deutschen Sprachraum bieten verschiedene Hochschulen auf Data Science spezialisierte Studiengänge an. Der Schwerpunkt liegt dabei auf Masterstudiengängen, inzwischen werden aber auch Bachelorstudiengänge angeboten. Darüber hinaus gibt es spezialisierte Weiterbildungsangebote sowie berufsbegleitende Studiengänge.[21]

Personen, die im Bereich Data Science arbeiten, werden als Data Scientist bzw. Datenwissenschaftler bezeichnet, wobei meist speziellere oder Spezialisierungen anderer, übergeordneter Berufsbezeichnungen üblich sind (z. B. Statistiker, Informatiker).

Medien berichten, dass Datenwissenschaftler sehr gefragte Experten sind.[22][23]

Ein Data Scientist sollte überzeugend und kreativ sein, aber auch ein gewisses Kommunikationstalent mitbringen, um sich mit verschiedenen Ebenen einer Organisation austauschen zu können. Er ist das Bindeglied und der Vermittler zwischen allen Ebenen eines Unternehmens und nimmt somit die Rolle des „Übersetzers“ ein, indem er die Ergebnisse für die einzelnen Fachabteilungen genauso verständlich aufbereitet wie für das Top Management. Zudem sollte ein Data Scientist aufgeschlossen genug sein, um neue Analysetools und innovative Analyseverfahren zu erforschen und zu nutzen. Unvoreingenommen sollte ein Data Scientist nach anderen Ansätzen suchen wollen und immer neue Fragen stellen. Zusätzlich setzt dieser Beruf ein gewisses Koordinationstalent voraus, nicht zuletzt weil bestimmte Aufgaben, wie zum Beispiel die Beschaffung der Daten, an andere Mitarbeiter delegiert werden können. Kontrolle und Steuerung sollten jedoch immer in der Hand des Data Scientist bleiben.[24]

Aufgabenbereich

[Bearbeiten | Quelltext bearbeiten]

Die Aufgabe eines Data Scientist ist es, aus großen Datenmengen Informationen zu generieren und Handlungsempfehlungen abzuleiten, die das Unternehmen befähigen, effizienter zu arbeiten. Dazu bedient er sich innovativer Analysetools und entwickelt Abfragen, die aus unübersichtlichen Datenmengen wertvolle Informationen destillieren. Anschließend werden Hypothesen abgeleitet, welche statistisch überprüft und für das Management als Entscheidungsgrundlage aufbereitet werden.

In allen Wirtschaftszweigen werden heute große Datenmengen ausgewertet. Der Mangel an Data Scientists macht es für Unternehmen schwierig, die Daten richtig zu nutzen und konkret Erkenntnisse daraus zu ziehen. Daten werden als das „neue Gold“ gehandelt. Zudem ist der Markt an Spezialisten, die mit Datenarchitekturen und Datenmodellen umgehen können, fast nicht existent.[25]

Auch in der Logistikbranche werden zukünftig immer mehr Data Scientists gesucht.

Eine weitere Branche ist die Gesundheitsbranche. Durch die genaue Analyse von Daten aus einem Krankenhausaufenthalt könnten individualisierte Behandlungen (Personalisierte Medizin) durch Ähnlichkeitsanalysen von Patientendaten abgeleitet und Medikationspläne optimiert werden.

In der Handelsbranche kann das Kaufverhalten der Menschen analysiert werden, um im weiteren Verlauf die Ursachen für Retouren herauszuarbeiten. So kann die Anzahl an Warenrücksendungen reduziert werden.

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. Vasant Dhar: Data science and prediction. In: Commun. ACM. Band 56, Nr. 12, 1. Dezember 2013, ISSN 0001-0782, S. 64–73, doi:10.1145/2500499 (englisch).
  2. John D. Kelleher, Brendan Tierney: Data Science. The MIT Press, 2018, ISBN 978-0-262-34702-0, doi:10.7551/mitpress/11140.001.0001 (englisch, mit.edu [abgerufen am 8. November 2025]).
  3. Rachel H. Ellaway, Patricia O’Sullivan: Is ‘data science’ science? In: Advances in Health Sciences Education. Band 30, Nr. 1, Februar 2025, ISSN 1382-4996, S. 5–9, doi:10.1007/s10459-025-10416-9 (englisch).
  4. Colin Ware: Information Visualization. 4th Auflage. Elsevier, 2021, ISBN 978-0-12-812875-6, doi:10.1016/c2016-0-02395-1 (englisch, elsevier.com [abgerufen am 8. November 2025]).
  5. Neue Dimensionen in Data Science, Was ist Data Science? (PDF) 23. September 2022, abgerufen am 22. September 2022.
  6. Stefan Sandfeld: From Data Science to Materials Data Science. In: Materials Data Science. Springer International Publishing, Cham 2024, ISBN 978-3-03146564-2, S. 15–30, doi:10.1007/978-3-031-46565-9_2 (englisch).
  7. Johannes Kröckel: Data Analytics: in Produktion und Logistik. 1st ed Auflage. Vogel Buchverlag, Würzburg 2019, ISBN 978-3-8343-3419-0.
  8. John W. Tukey: The Future of Data Analysis. In: Breakthroughs in Statistics: Methodology and Distribution. Springer, New York, NY 1992, ISBN 1-4612-4380-7, S. 408–452, doi:10.1007/978-1-4612-4380-9_31.
  9. Matthias Plaue: Data Science: Grundlagen, Statistik und maschinelles Lernen. Springer Berlin Heidelberg, Berlin, Heidelberg 2021, ISBN 978-3-662-63488-2, doi:10.1007/978-3-662-63489-9.
  10. Hartmut Ernst: Internet-Technologie. In: Grundkurs Informatik. Vieweg+Teubner Verlag, Wiesbaden 2003, ISBN 3-528-25717-2, S. 722–821, doi:10.1007/978-3-322-91968-7_15.
  11. Peter Naur: Concise Survey of Computer Methods. Studentlitteratur, Lund 1974, ISBN 91-44-07881-1 (englisch, archive.org [abgerufen am 8. November 2025]).
  12. Forbes, Gil Press: A Very Short History of Data Science. Mai 2013 (englisch).
  13. Escoufier et al., editors: Data Science and its Application. Academic Press, Tokyo 1995, ISBN 0-12-241770-4, Preface (englisch).
  14. a b Wu, C. F. J. (1997): Statistics = Data Science?. Abgerufen am 9. Oktober 2014.
  15. Identity of statistics in science examined. The University Records, 9. November 1997, The University of Michigan. Abgerufen am 12. August 2013.
  16. P. C. Mahalanobis Memorial Lectures, 7th series. P. C. Mahalanobis Memorial Lectures, Indian Statistical Institute. Abgerufen am 18. August 2013.
  17. William S. Cleveland: Data science: An action plan for expanding the technical areas of the field of statistics. In: Statistical Analysis and Data Mining: The ASA Data Science Journal. Band 7, Nr. 6, 2014, ISSN 1932-1872, S. 414–417, doi:10.1002/sam.11239 (englisch).
  18. Data Science Journal. 3. November 2025, abgerufen am 8. November 2025 (englisch).
  19. Journal of Data Science. Abgerufen am 8. November 2025 (englisch).
  20. Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century (2005) | NSF - National Science Foundation. NSF, 2005, abgerufen am 8. November 2025 (englisch).
  21. Informatik - Universität Regensburg. Abgerufen am 6. März 2023.
  22. Große Nachfrage nach Data Scientists. In: derstandard.at. 26. Februar 2015, abgerufen am 13. Mai 2022 (österreichisches Deutsch).
  23. Mathias Brandt: Infografik: Traumberuf Data Scientist. In: statista.com. 19. Februar 2015, abgerufen am 13. Mai 2022.
  24. Data Scientists – Die begehrtesten Alleskönner des 21. Jahrhunderts (Memento vom 28. Februar 2015 im Internet Archive), capgemini.com vom 20. Januar 2014, abgerufen am 28. Februar 2015.
  25. Steigender Bedarf an Data Scientists | Presseinformation | Bitkom e. V. Abgerufen am 16. Januar 2023.