Big Data und das verborgene Wissen der Daten

Die moderne Vernetzung produziert zunehmende Mengen an Daten, deren Bestand Schätzungen zur Folge inzwischen exponentiell anwachsen soll. Quellen der Datenentstehung sind dabei die zunehmend automatisierte Umgebung des Menschen, aber auch Wirtschaft und Wissenschaft erzeugen in ihren Arbeitsprozessen Daten.
Dieses gigantische, aber ungeordnete und nicht aufbereitete Datenvolumen wird als „Big Data“ bezeichnet. Herkömmliche Pflege und Einbindung dieser Datenbestände in geordnete Datenbanken kann aufgrund der schieren Menge dieser Daten kaum noch stattfinden. Stattdessen müssen zum Umgang mit Big Data heuristische und stochastische Methoden angewandt werden. Diese Aufbereitung findet vor allem maschinell statt.Ein großer Teil der erwähnten Datenbestände entsteht also inzwischen durch den zunehmenden Einsatz sogenannter intelligenter Umgebungen im Alltag. Kommunikationssysteme wie Mobiltelefone oder Social Media, aber auch zahlreiche, inzwischen vernetzte Sensoren im Heimbereich oder im Verkehrswesen produzieren allein durch ihren Einsatz in Alltag und privatem Umfeld riesige Datenmengen. Aber auch in der Wissenschaft, der Wirtschaft, besonders hier dem Finanzwesen, Medizin und Gesundheitswesen kommen ständig neue Daten hinzu.
Da es sich aber um vollkommen unstrukturierte Datensätze handelt, muss das in ihnen potentiell enthaltene Wissen erst erschlossen werden, das heißt aus ungeordneten Datensätzen verwertbare Informationen erzeugt werden. Es gibt zuerst einmal also eine Lücke zwischen den gesammelten Daten und den in ihnen enthaltenen Informationen.

Durch die „Big Data Analyse“ Zusammenhänge verstehen

Bei diesem im Datenwust versteckten Wissen kann es sich um bisher verborgene Zusammenhänge handeln. In der Wirtschaft wird versucht das Kaufverhalten und die Interessen von Kunden besser zu verstehen oder Produktionsprozesse und Unternehmensabläufe durch genaue Analyse der in diesen Abläufen entstehenden Daten zu optimieren. Die Logistik versucht durch Datenauswertung Warenströme effizienter zu gestalten. In der Wissenschaft werden Phänomene wie Verkehrsströme, Klima, Pandemien oder soziokulturelle Phänomene durch Big Data untersucht, um daraus Rückschlüsse auf die Entstehung von Staus, anthropogene Klimaveränderungen, die Ausbreitung von Seuchen oder die Dynamik von Schwarmverhalten ziehen zu können.

Die Erwartungen an die „großen Daten“ sind also hoch. Damit dieses enorme Reservoir an eventuellen Informationen abgeschöpft werden kann, entwickelt die Data Science, die Datenwissenschaft, Methoden zur Extraktion von Wissen aus diesen Daten. Mithilfe von Wahrscheinlichkeitstheorie, Informatik und Lerntheorie wird versucht, automatische Methoden zum Umgang und Repräsentation von Daten zu entwickeln. Diese in den Data Sciences entwickelten Methoden der maschinellen Auswertung werden unter dem Begriff Data Analytics zusammengefasst. Hierunter werden im weiteren Sinne auch sämtliche Strategien zur Handhabung von Big Data bezeichnet.

Diese Methoden kommen dann im sogenannten Data Mining zum Einsatz, einer systematischen Durchsuchung der Datenbestände nach inneren Verbindungen und auszumachenden Entwicklungen und Tendenzen. Die Idee dahinter ist es, wertvolles Wissen aus den Datensätzen zu „schürfen“, ähnlich wie Erz aus den Tiefen des Erdbodens zutage gefördert und aufbereitet wird.
Das gewonnene Wissen kann beispielsweise Unternehmen im Process Mining helfen, Geschäfts- und Unternehmensprozesse besser zu verstehen und zu optimieren. Anhand der während der Arbeitsprozesse entstehenden Datenspuren können Rückschlüsse zum Ablauf und zur möglichen Verbesserung dieser Prozesse gewonnen werden. Process Mining stellt somit einen betriebswirtschaftlich orientieren Spezialfall des Data Minings dar.

Deep Learning auf Big Data anwenden

Auch für die Forschung im Bereich der Künstlichen Intelligenz hat Big Data eine besondere Bedeutung. So kommt Big Data beim Ansatz des sogenannten Deep Learning zum Tragen. In dieser Variante maschinellen Lernens werden durch das Sammeln von Daten zunehmend komplexere Lernkategorien entworfen, die „aus der Erfahrung heraus“ von der künstlichen Intelligenz durch das Verarbeiten umfangreicher Datenmengen selbst entwickelt werden. Ausgehend von einfachsten Kategorien werden sukzessiv komplexere Begriffe generiert. Es entsteht eine „tiefe“ Hierarchie von zunehmend komplexeren Konzepten. Deshalb nennt sich dieses Verfahren auch Deep Learning, tiefes Lernen.Der Begriff Big Data fasst also die Entstehung und Auswertung riesiger Datenvolumina zusammen. Dabei kommen maschinelle Methoden der künstlichen Intelligenz zum Einsatz, deren Ziel es ist, die unaufbereiteten Datensätze für Menschen zugänglich zu machen und Wissen für Wirtschaft, Wissenschaft und Gesellschaft aus ihnen zu gewinnen.