Was sind Metadaten?

Metadaten sind zusätzliche Informationen und Eigenschaften die bei der Erfassung von größeren Datenbeständen (Big Data) einfach und explizit anfallen. Metadaten sind kein eigener Bestandteil der erfassten Daten selbst, sondern beschreiben Merkmale über die erfassten Daten wie das Datum der Erfassung, Erstellung oder Veränderung, Quellen, Verbreitung und Autoren, Geoinformation oder Verbindungsdaten aus Kommunikation zwischen Client und Server die durch den einfachen Aufruf einer Webseite durch den Browser oder bei der Nutzung von Telekommunikationsdiensten anfallen. Beim letzteren spricht man im Allgemeinen auch von Verkehrsdaten, Verbindungsdaten oder Verkehrsranddaten.

Was genau ist unter dem Begriff Data Mining zu verstehen?

Der Begriff des Data Mining taucht in der heutigen Zeit immer öfter im Bezug auf Computer und sehr große Datenmengen auf. In der Regel beschreibt dieser Begriff bestimmte Methoden und Algorithmen, die auf große Ansammlungen von Daten (sogenanntes Big Data) angewendet werden, um daraus Prognosen und Trends zu erzeugen. Natürlich handelt es sich bei diesen Trend nur um Prognosen, die nur zu einer bestimmten Wahrscheinlichkeit auftreten werden. Allerdings können mit Hilfe von Data Mining viele richtige Vorhersagen in vielen unterschiedlichen Bereichen der Wissenschaften getroffen werden. Der Begriff selbst würde sich aus dem Englischen zum „Abbau von Daten“ übersetzen, was allerdings nicht in Übereinstimmung mit der eigentlichen Definition liegt, da beim Data Mining neue Daten hinzugewonnen werden. Damit ist dieser Begriff auch relativ verwandt zu den Begriffen der Predictive Analystics und Data Analytics, die die grundlegende Analyse und Vorhersage aus großen Datenmengen bestimmen. Alle diese Begriffe und Methoden unterliegen der Data Science, die sich allgemein mit der effizienten Analyse von großen Datenmengen beschäftigt.

Wie genau funktioniert Data Mining?

Data-Mining

Der Prozess des Data Mining wird in der Regel in fünf Schritte aufgeteilt, die bei jedem Verfahren durchlaufen werden. Im ersten Schritt geschieht die Fokussierung der Daten. Nicht alle Daten müssen für eine Prognose ausgewertet werden. Hier ist meistens der Nutzer selbst gefragt, da er darüber bestimmen kann, welche Daten wichtig sind und welche weggelassen werden können. Darauf folgt die Datenbereinigung, bei welcher zum Beispiel unvollständige oder doppelte Datensätze gleich entfernt werden. Damit verringert sich später die Rechenzeit, die für den Prozess notwendig ist. Im dritten Schritt erfolgt dann die Transformation der Daten in ein passendes Format. Bestimmte Textbausteine werden analysiert, dabei kann es sich entweder um Zahlen oder um Text handeln. Hier gibt wieder der Benutzer ein bestimmtes Muster vor. Den vierten Schritt stellt das eigentliche Mining dar, in welchem die komplette Analyse durchgeführt wird. Im letzten Schritt wird aufgrund der Analyse eine Prognose der Daten erstellt.

Wann spricht man von Big Data?

Hier gibt es keine fest definierte Größe. Allgemein wird von Big Data (Großen Daten) immer dann gesprochen, wenn die Datenmenge zu groß wäre, um sie händisch zu analysieren. Hier sind dann Programme und Algorithmen notwendig, die die Analyse durchführen. Ein Computer kann diese Vorgänge viel schneller und effektiver durchführen als der Mensch.

Das Deep Learning

Deep LearningEng verbunden mit dem Abbau der Daten ist auch das sogenannte Deep Learning. Dieser Begriff bezeichnet dabei die automatische Erweiterung von neuronalen Netzen durch eine vorhergehende Analyse. Damit können Computerprogramme „dazulernen“, indem sie bestimmte Daten analysieren und daraus Schlüsse ziehen und Prognosen erstellen. Das Data-Mining stellt dabei eine wichtige Grundlage für diese Entwicklung dar. Im Process Mining werden damit bestimmte chronologische Abläufe direkt nacheinander analysiert, um bestimmte Muster und Algorithmen zu erkennen.