Data Mining Blog

Selten startet ein Data Mining Blog am Puls der Informatik. Hier ist dies der Fall: blog.meta-data-mining.de. Relationale Datenbanken sind inzwischen jedem vertraut, ebenso wie die üblichen standardisierten Abfragen. Die Frage stellte sich, was sonst noch möglich sei. Hier finden Sie Informationen über den aktuellen Stand der Entwicklung und die enormen Möglichkeiten, die sich ihnen bieten.

Blog für Metadaten, Big Data, Data Mining und Co.

Metadaten kennen Sie. Eine Karteikarte, ein Kundenstamm mit Kontaktdaten, Telefonnummern und so weiter nutzt jeder. Sie weisen darauf hin, über wen oder was etwas wo gespeichert ist, so wie Sie sich in einer Bibliothek zurecht finden, wenn Sie ein bestimmtes Buch suchen.

Big Data sagt nichts über Schriftgröße oder die Größe eines Datensätze aus, gemeint ist die Menge der Rohdaten. Das können Zeitungsartikel sein, Berichte, Betriebsdaten oder Messdaten. Also alles, aus dem Sie Ihre Auswertung beziehen und in geordneter, maschinenlesbarer Weise abgespeichert haben. Diese Daten sagen noch nichts inhaltlich aus, sondern nur die Qualität ihrer Strukturierbarkeit.

Data Mining kennzeichnet die maschinelle Auswahl und den Verknüpfungsprozess, welchen ein Computer oder ein entsprechendes Computer-Netzwerk erheblich schneller vollziehen kann, als ein Mensch das je könnte. Die zugehörigen Regeln, „Kategorien“ genannt, dienen der Erkennung objektiver Muster aus der Menge der Rohdaten, der Big Data Menge. Die Rohdaten werden hierbei zunächst nicht verändert, so dass wiederholt ein Data Mining mit veränderten Kategorien durchgeführt werden kann. Auf diese Weise sind immer neue Erkenntnisse auf objektiver Grundlage möglich, sofern zusätzliche Downloads die Basisdaten nicht verändern. Jede Veränderung beeinflusst die Reproduzierbarkeit.

Nützliche Anwendungen von Data Mining

  • Prozessmodellierung, Download sämtlicher Prozessdaten mit Datenkonversion und -Strukturierung, Definition der Kategorie „Störungen aller Abläufe im Produktionsbereich XY im Zeitraum von xx.xx.xxxx bis yy.yy.yyy“
  • Marktbeobachtung, Download aller Artikel eines Verlages, Strukturierung, Kategorie „Anzahl aller Publikationen im Ressort, Autor, Nachrichtenagentur/selbst geschrieben, zeitliche Folge des Erscheinens“
  • Marketing, Download aller Umsatzdaten/Artikeldaten, Strukturierung, Kategorie „Personendaten der Kunden, gekaufte Artikel, nachgefragte Artikel, Reklamationen, Verfügbarkeit, Präsenz im Laden/Online, Herkunftsregion“,

und so weiter, nur als konkretes Beispiel. Aus den Rohdaten lassen sich jederzeit mittels neuer Kategorien wiederum reproduzierbare Ergebnisse erzielen, die nicht auf Meinungen einer Umfrage sondern auf Fakten beruhen. Diese können in unterschiedlicher Weise grafisch aufbereitet und präsentiert werden.

Deep Learning, Predictive Analytics und Data Science

Musste ein Anwender bisher Kategorien und Auswertungen manuell verarbeiten, kann dies inzwischen ebenfalls maschinell geschehen. Bereits während der Downloads der Daten und der strukturierten Speicherung können neue Kategorien entworfen werden. Automatisiert generiert eine künstliche Intelligenz diese neuen Kategorien, die in ebenfalls neue komplexe Konzepte integriert werden. Dieses Verfahren der Verfeinerung nennt man „Deep Learning“. Durch die übergeordneten Lernkategorien steuert sich die KI selbst.

Um aus validierten Ergebnissen Aussagen über ein zukünftiges Verhalten zu gewinnen, muss geprüft werden, ob der Rohdatenbestand (BigData) verändert ist. Dies geschieht, in dem per automatisiertem Download permanent neue Daten hinzugefügt werden und wirkt sich dementsprechend auf die Reproduzierbarkeit aus. Sie finden im Blog detaillierte Informationen zu dieser „Überfüllung“, wie dieser Effekt benannt ist.

Data Science kennzeichnet als Fachbegriff eine neue interdisziplinäre Wissenschaft, als Schnittstelle bestehend aus Informatik, Mathematik, Lerntheorie und Ingenieurswissenschaft. Sie bezieht sich auf den Umgang mit Datenverarbeitungssystemen, speziell Datenbanken, die zur Analyse sehr großer Datenmengen in Astronomie, Sozialwissenschaften, Medizin aber auch geschäftlichen Prozessen notwendig sind. Neben der Mustererkennung, Entdeckung verborgener Korrelationen und Modellierung automatisierter und strukturierter Prozesse, ermöglicht Data Science auch auf künstlicher Intelligenz basierende Handlungsempfehlungen.

Kommentar hinterlassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.