Data Science: Arbeit am Rohstoff der Zukunft

Ein häufiges Missverständnis ist, dass gesammelte Daten bereits Information und Wissen darstellen. Wie die Herkunft des Wortes Information, in-Formation sein, andeutet, hat Information mit der Ordnung von Fakten zu tun. Um aus dem rasanten Zuwachs an Daten in Wirtschaft, Wissenschaft und Gesellschaft Wissen gewinnen zu können, sind neue Kenntnisse und Fertigkeiten im Umgang mit diesen Datenbeständen gefordert. Diese werden in der Datenwissenschaft, internationalisiert Data Science, vermittelt. Dabei geht es um die Entwicklung von Strategien maschineller Extraktion, Repräsentation und Interpretation von Wissen aus Daten.

Definition der Data Science (Datenwissenschaften)

Die Data Sciences werden als angewandte Schnittstellenwissenschaft aus Informatik, Mathematik, Lerntheorie und Ingenieurwissenschaften im Umgang mit Datenverarbeitungssystemen definiert. Ihr Ursprung in liegt in den Erfordernissen anderer Wissenschaften wie Astronomie, Sozialwissenschaften oder Medizin, bei denen die Notwendigkeit nach der Analyse großer Datenmengen entstanden war. Teleskope versorgen Astronomen inzwischen mit einer Flut von Messdaten, Sozialwissenschaften können theoretisch auf Milliarden frei verfügbarer Angaben in den sozialen Netzwerken zurückgreifen und die Medizin steht vor der Aufgabe die Ausbreitung von Krankheiten in der globalisierten Welt verstehen zu müssen. Diese unter der Sammelbezeichnung Big Data zusammengefassten Datensätze sind ohne Aufbereitung aber nicht nutzbar. In der Data Science kommen Methoden aus der Mathematik und der Informatik zum Einsatz um dieses digitale Reservoir zu erschließen. Ihr Gegenstandsbereich ist also der Umgang mit Daten.
Grundlegende Tätigkeiten für Datenwissenschaftlerinnen und -wissenschaftler sind neben der Aufarbeitung von Datenbeständen durch Mustererkennung, dem Aufdecken verborgener Korrelationen und Modellierung von Sachverhalten auch die Prognostik und das Geben von Handlungsempfehlungen, sowie das Management digitaler Daten, wozu beispielsweise die Datenarchivierung zählt. Dieses breit aufgestellte, anspruchsvolle Aufgabenspektrum wird unter dem Begriff der Data Analytics zusammengefasst. Voraussetzung dafür sind Kenntnisse aus der EDV, Datenbankprogrammierung sowie aus der jeweiligen Herkunftswissenschaft der Daten.

Data Science und Data Mining

Basis für die Untersuchung der gesammelten Daten ist das Data Mining, bei dem mithilfe deskriptiver und explorativer Statistik die internen Topologien, also die inneren Zusammenhänge der unstrukturiert scheinenden Datenmengen erforscht werden. Erst dadurch, die einzelnen Elemente zueinander in Beziehung setzen zu können, entsteht die Möglichkeit sie zu klassifizieren, ordnen und deuten. Neben der grundlegenden Destillation von Wissensbeständen kommen in den Data Analytics noch spezielle, an bestimmte Zielsetzungen gebundene Methoden zum Einsatz:
Induktive Statistik, die Statistik der Schlüsse, spielt in den Predictive Analytics eine Rolle, wenn aus dem aufbereiteten Datenmaterial Schlüsse gezogen oder Prognosen gemacht werden sollen. Das Process Mining konzentriert sich auf die Auswertung von Datenspuren die in betriebswirtschaftlichen Prozessen wie internen Arbeitsabläufen, Onlineverkäufen, Warenlogistik oder Kundenbetreuung entstehen. Diese Datenverarbeitungsprozesse können direkt in das operative Geschäft eingebunden und das aus ihnen gewonnene Wissen just-in-time in Entscheidungen mit einbezogen werden. Als unverzichtbar für die Data Sciences haben sich Verfahren des maschinellen Lernens herausgestellt, da es für Menschen unmöglich ist, der Datenflut alleinig Herr zu werden. Dafür müssen die Maschinen aber die Begriffe erst selbstständig erlernen, anhand derer die Daten dann bearbeitet werden können. Das derzeit erfolgreichste maschinelle Lernverfahren ist das Deep Learning. Es basiert auf einer Kaskade hierarchisch tief gestaffelter neuronaler Netzwerke, die sukzessiv Unterscheidungen treffen, aus denen dann Ordnungskonzepte abgeleitet werden können.

Die Data Sciences umfassen als Wissenschaft den Gegenstandsbereich der Daten. Hierbei geht es nicht nur darum, Wissen aus ihnen zu extrahieren, sondern auch dieses Wissen in geeigneter Form zu repräsentieren und interpretieren. Die Data Sciences stellen somit eine moderne Schlüsselwissenschaft dar.