Data Mining und das Erkennen von Mustern

Data Mining ist der Rechen-Prozess zur Entdeckung von Mustern in großen Datensätzen mit Methoden an der Schnittstelle von künstlichen Intelligenz, maschinellem Lernen, Statistiken und Datenbank-Systemen. Es ist ein interdisziplinäres Teilfeld der Informatik. Das Gesamtziel des Data-Mining-Prozesses besteht darin, Informationen aus einem Datensatz zu extrahieren und in eine verständliche Struktur für die weitere Verwendung zu verwandeln. Neben dem Rohanalyse-Schritt handelt es sich um Datenbank- und Datenmanagementaspekte, Datenvorverarbeitung, Modell- und Inferenzbetrachtungen, Interessantitätskennzahlen, Komplexitätsüberlegungen, Nachbearbeitung von entdeckten Strukturen, Visualisierung und Online-Aktualisierung. Data Mining ist der Analyseschritt der „Wissensentdeckung in Datenbanken“ oder KDD.

Der Begriff ist eine Fehlbezeichnung, denn das Ziel ist die Extraktion von Mustern und Wissen aus großen Datenmengen, nicht die Extraktion (Abbau) von Daten selbst. Es ist auch ein Schlagwort und wird häufig auf jede Form von großformatigen Daten oder Informationsverarbeitung (Sammlung, Extraktion, Lagerung, Analyse und Statistik) sowie jede Anwendung von Computer-Entscheidungs-Support-System, einschließlich künstlicher Intelligenz, maschinelles Lernen und Business Intelligence angewandt. Das Buch Data Mining: Praktische maschinelle Lernwerkzeuge und Techniken mit Java (die meistens maschinelles Lernmaterial umfasst) wurde ursprünglich nur als praktisches maschinelles Lernen bezeichnet und der Begriff Data Mining wurde erst aus Marketinggründen hinzugefügt. Oft sind die allgemeineren Begriffe (großformatige) Datenanalyse und Analytik – wenn sie sich auf die tatsächlichen Methoden, die künstliche Intelligenz und das maschinelle Lernen beziehen – besser geeignet.

Big Data Mining

Die eigentliche Data-Mining-Aufgabe ist die automatische oder halb automatische Analyse von großen Datenmengen (Big Data), um bisher unbekannte, interessante Muster wie Gruppen von Datensätzen (Clusteranalyse), ungewöhnliche Aufzeichnungen (Anomalie Erkennung) und Abhängigkeiten (Assoziationsregel des Minings, sequenzielles Mustermining) zu erkennen. Dies beinhaltet in der Regel die Verwendung von Datenbank-Techniken wie räumliche Indizes. Diese Muster können dann als eine Art Zusammenfassung der Eingangsdaten gesehen werden und können in der weiteren Analyse oder z. B. im maschinellen Lernen und in der prädiktiven Analytik verwendet werden. Beispielsweise könnte der Data Mining-Schritt mehrere Gruppen in den Daten identifizieren, die dann verwendet werden können, um genauere Vorhersageergebnisse durch ein Entscheidungsunterstützungssystem zu erhalten. Weder die Datenerhebung, die Datenaufbereitung noch die Ergebnisinterpretation und die Berichterstattung sind Teil des Data Mining-Schrittes, gehören aber zum zusätzlichen KDD-Prozess als zusätzliche Schritte.

Die verwandten Begriffe Daten Dredging, Datenfishing und Daten Snooping beziehen sich auf die Verwendung von Data-Mining-Methoden, um Teile eines größeren Populationsdatensatz, die zu klein für zuverlässige statistische Schlussfolgerungen über die Gültigkeit von irgendwelchen Mustern, zu entdecken. Diese Methoden können jedoch bei der Erstellung neuer Hypothesen verwendet werden, um sie gegen die größeren Datenpopulationen zu testen.

Die Verarbeitung

Der KDD-Prozess (Knowledge Discovery in Datenbanken) wird häufig mit den folgenden Stufen definiert:

  • (1) Auswahl
  • (2) Vorverarbeitung
  • (3) Umwandlung
  • (4) Data-Mining
  • (5) Interpretation / Bewertung

Es existieren jedoch viele Variationen zu diesem Thema, wie der Cross Industry Standard Process for Data-Mining (CRISP-DM), der sechs Phasen definiert:

  • (1) Geschäftsverständnis
  • (2) Datenverständnis
  • (3) Datenvorbereitung
  • (4) Modellierung
  • (5) Bewertung
  • (6) Bereitstellung

Oder ein vereinfachtes Verfahren wie (1) Vorverarbeitung, (2) Data Mining und (3) Ergebnisvalidierung.

Die in den Jahren 2002, 2004, 2007 und 2014 durchgeführten Umfragen zeigen, dass die CRISP-DM-Methodik die führende Methodik des Data-Miners ist. Der einzige andere Data-Mining-Standard, der in diesen Umfragen genannt wurde, war SEMMA. Allerdings haben 3–4-mal so viele Leute den Umgang mit CRISP-DM gemeldet. Mehrere Teams von Forschern haben Rezensionen von Data Mining-Prozess-Modellen veröffentlicht und Azevedo und Santos führten einen Vergleich von CRISP-DM und SEMMA im Jahr 2008 durch.

Metadaten sind „Daten [Informationen], die Informationen über andere Daten liefern.“ Es gibt drei verschiedene Arten von Metadata: beschreibende-Metadaten, strukturelle-Metadaten und administrative-Metadaten, die im Metadaten Mining auftreten.

Vorverarbeitung

Bevor Data Mining Algorithmen für das Deep Learning verwendet werden können, muss ein Zieldatensatz zusammengestellt werden. Da das Data Mining in den Daten nur tatsächlich vorhandene Muster aufdecken kann, muss der Zieldatensatz groß genug sein, um diese Muster zu enthalten, während er gleichzeitig prägnant genug sein muss, um innerhalb einer akzeptablen Zeitgrenze abgebaut zu werden. Eine gemeinsame Quelle für Daten ist ein Data Mart oder Data Warehouse. Die Vorverarbeitung ist für die Analyse der multivariaten Datensätze vor dem Data Mining unerlässlich. Der Zielsatz wird dann gereinigt.

Data Mining

Data Mining umfasst sechs gemeinsame Aufgaben:

Anomalie-Erkennung (Outlier / Change / Abweichungs-Erkennung) – Die Identifizierung von ungewöhnlichen Datensätzen, die interessant sein könnten oder Datenfehler, die weitere Untersuchungen erfordern.

Assoziationsregel Lernen (Abhängigkeitsmodellierung) – Sucht nach Beziehungen zwischen Variablen. Zum Beispiel könnte ein Supermarkt Daten über Kundengewohnheiten sammeln. Mit Hilfe die Assoziationsegel kann der Supermarkt bestimmen, welche Produkte häufig zusammen gekauft werden und diese Informationen für Marketingzwecke nutzen. Dies wird manchmal als Marktkorbanalyse bezeichnet.
Clustering – ist die Aufgabe, Gruppen und Strukturen in den Daten zu entdecken, die in irgendeiner Weise „ähnlich“ sind, ohne bekannte Strukturen in den Daten zu verwenden.

Klassifizierung – ist die Aufgabe, die bekannte Struktur zu verallgemeinern, um auf neue Daten anzuwenden. Beispielsweise könnte ein E-Mail-Programm versuchen, eine E-Mail als „legitim“ oder als „Spam“ zu klassifizieren.

Regression – versucht, eine Funktion zu finden, die die Daten mit dem kleinsten Fehler modelliert.

Verdichtung – Bereitstellung einer kompakteren Darstellung des Datensatzes, inklusive Visualisierung und Reportgenerierung.

Ergebnisvalidierung

Data Mining kann unabsichtlich missbraucht werden und kann dann Ergebnisse erzeugen, die in der Data Science signifikant zu sein scheinen, aber das zukünftige Verhalten nicht vorhersagen (Predictive Analytics) und auf neuen Datenproben nicht reproduziert werden können und wenig Gebrauch haben. Wenn zu viele Hypothesen untersucht werden, ist es oft so, dass keine ordnungsgemäßen statistischen Hypothesentests durchgeführt werden können. Eine einfache Version dieses Problems beim maschinellen Lernen ist als Überfüllung bekannt, aber das gleiche Problem kann in verschiedenen Phasen des Prozesses auftreten und somit ein Zug / Test-Split – wenn überhaupt anwendbar – nicht ausreichen kann, um dies zu verhindern.

Der letzte Schritt der Wissensentdeckung aus Daten besteht darin, zu überprüfen, ob die von den Data-Mining-Algorithmen erzeugten Muster in dem breiteren Datensatz auftreten. Nicht alle Muster, die von den Data Mining Algorithmen gefunden werden, sind notwendigerweise gültig. Es ist üblich, dass die Data-Mining-Algorithmen Muster im Trainings-Set finden, die im allgemeinen Datensatz nicht vorhanden sind. Das heißt Überfüllung. Um dies zu überwinden, verwendet die Auswertung einen Testsatz von Daten, auf denen der Data-Mining-Algorithmus nicht trainiert wurde. Die gelernten Muster werden auf diesen Testsatz angewendet und die resultierende Ausgabe wird mit dem gewünschten Ausgang verglichen. Zum Beispiel würde ein Data-Mining-Algorithmus, der versucht, „Spam“ von „legitimen“ E-Mails zu unterscheiden, auf einem Trainings-Set von Beispiel-E-Mails trainiert werden. Sobald sie trainiert wurden, würden die gelernten Muster auf den Test von E-Mails angewendet, auf denen sie nicht trainiert worden war. Die Genauigkeit der Muster kann dann gemessen werden, wie viele E-Mails sie korrekt klassifizieren. Zur Bewertung des Algorithmus, wie z.B. ROC-Kurven, kann eine Anzahl statistischer Methoden verwendet werden.

Wenn die gelernten Muster nicht den gewünschten Standards entsprechen, ist es notwendig, die Vorverarbeitungs- und Data-Mining-Schritte neu zu bewerten und zu ändern. Wenn die gelernten Muster die gewünschten Standards erfüllen, dann ist der letzte Schritt, die gelehrten Muster zu interpretieren und sie zu Wissen zu machen.