Predictive Analytics: Mit Daten in die Zukunft schauen

Seit jeher gehört es zu den großen Menschheitsträumen, die Zukunft vorhersagen zu können. Doch wo man früher unbeholfen orakeln, mutmaßen oder raten musste, eröffnen heute moderne Technologien der Data – Sciences bisher ungeahnte, neue Möglichkeiten. Die Rede ist hier von den sogenannten Predictive Analytics. Doch was verbirgt sich hinter diesem Begriff und was hat er mit Big Data, Data Mining, Business Intelligence oder Business Analytics zu tun?

Aus Daten werden Vorhersagen

Zuerst einmal das Grundsätzliche: Unter Predictive Analytics (PA) versteht man eine auf fortschrittliche Datenverarbeitung gestützte Prognosemethode. Es geht darum, aufgrund geeigneter Ausgangsdaten eine Vorhersage über die Entwicklung eines bestimmten Sachverhaltes oder Zusammenhangs für einen zukünftigen Zeitpunkt oder Zeitraum zu machen. Dazu wird aus den vorhandenen Daten mit Hilfe mathematischer Methoden, hier vor allem Stochastik, Wahrscheinlichkeitsrechnung und Methoden aus der Künstlichen-Intelligenz-Forschung ein Datenmodell entwickelt, das diese Voraussagen ermöglichen soll. Am bekanntesten ist hier das sogenannte Predictive Policing, einem Spezialfall der Predictive Analytics, einer polizeilichen Methode zur Verbrechensbekämpfung. Hier wird angestrebt, aufgrund statistischer Daten zu Tatorten, Tatzeitpunkten und der Art der Verbrechen, Aussagen über Wahrscheinlichkeiten zukünftiger Straftaten in bestimmten Regionen zu machen und entsprechend dieser Wahrscheinlichkeiten Schutzmaßnahmen zu treffen. Erste Versuche mit diesem Verfahren werden in Deutschland vereinzelt bereits durchgeführt. Das Predictive Policing ist aber nur eine der vielen Möglichkeiten, wie aus Computermodellen Vorhersagen werden können. Auch in der Wirtschaft spielen datengestützte Vorhersagemodelle eine zunehmend wichtige Rolle. PA tritt dabei als Teil von Business Analytics (BA) im Zusammenhang der Business Intelligence (BI) auf. Während es bei der BI darum geht, aus vorhandenen Daten über Geschäftsprozesse die gegenwärtige Unternehmenslage zu beurteilen oder anhand gesammelter Daten Geschäftsprozesse und Abläufe im Unternehmen zu optimieren, geht Business Analytics noch einen Schritt weiter: Auch in den BA wird mit gesammelten Daten operiert, doch diesmal soll nicht nur die Gegenwart besser verstanden und gegebenenfalls optimiert werden, sondern ein möglicher Ausblick auf die Zukunft unternommen werden.
Business Intelligence beschäftigt sich also mit der Vergangenheit, um daraus Schlüsse für die Gegenwart zu ziehen. In den BA geht es dabei hauptsächlich um die Aus- oder Wechselwirkungen von Ereignissen und Entscheidungen. Wie ändern sich Abläufe und Prozesse durch die Veränderungen in verschiedenen Bereichen? Was passiert zukünftig, wenn bestimmte Variablen verändert werden. Dies sind Fragen, mit denen sich die BI beschäftigen. Dabei kommt ein umfangreicher digitaler Werkzeugkasten zum Einsatz: Neben statistischen und quantitativen Methoden sind dies auch wieder Tools aus der Datenwissenschaft wie das Data-Mining und die darauf aufbauenden Predictive Analytics. Dies kann z.B. Onlineshops wichtig werden, um typische Warenkörbe, also welche Produkte oft zusammen gekauft werden, vorherzusagen, um dann das eigene Angebot zu optimieren oder dem Kunden passende Empfehlungen zu geben.

Daten und Muster als Rohstoff für Vorhersagen

Data-Mining (Daten schürfen) ist ein Grundbaustein der PA, doch wie genau funktioniert dies? In den modernen digitalen Umgebungen fallen eine Menge an Daten an, Kunden- oder Benutzerdaten, Daten aus Überwachungssystemen oder dem Gesundheitswesen. Doch diese als Big Data bezeichneten Bestände sind zuerst einmal ungeordnet und unerschlossen. Gespeicherte Datensätze machen noch keine Informationen aus, diese entsteht erst, wenn Ordnung in das digitale Material gebracht wird. Durch Data-Mining ist es möglich, in diesen riesigen Datensätzen Muster und verborgene Zusammenhänge zu erkennen und zu extrahieren. Es geht dabei um das Aufdecken innerer Beziehungen zwischen einzelnen Merkmalen innerhalb der Datenelemente. Die dadurch gewonnenen Muster lassen es zu, diese Elemente zu sortieren: Nutzer von Suchmaschinen nach ihren Suchgewohnheiten, Kunden von Onlineshops nach Alter, Wohnort und Artikelbestellungen oder Patienten nach Berufen und Krankheiten. Dabei bedient sich das Verfahren wieder anspruchsvoller Techniken, zu denen beispielsweise das Clustering, die Regressions- oder die Assoziationsanalyse gehören. Beim Clustering werden die Datenelemente in Gruppen in Abhängigkeit von verschiedenen, relevanten Merkmalen eingeordnet. In der Regressionsanalyse wird nach sinnvollen Verbindungen einzelner Variablen (die letztlich bestimmte Sachverhalte oder Merkmale beschreiben) gesucht, während bei der Assoziationsanalyse Ereignisse zusammengebracht werden. In der Assoziationsanalyse geschieht dies nach der Implikation der Wenn-dann-Bedingung: Wenn Ereignis A auftritt, dann tritt auch Ereignis B auf (Wenn ein Kunde eine Pizza kauft, dann kauft er auch einen Softdrink). Dies ist allerdings noch nicht als Vorhersage zu verstehen, sondern „nur“ als tatsächlich vorhandene Beziehung. Die Vorhersage ist erst Ergebnis einer weiteren Verarbeitung der gewonnenen Muster, die als Rohstoff für die PA dienen. Trotz der immer größer werdenden Datenmengen herrscht überraschenderweise noch immer ein großer Mangel an brauchbaren Daten, denn um durch die Modelle der PA tatsächlich auch zu Vorhersagen zu kommen, sind Datensätze aus der Vergangenheit nötig, die nicht immer vorliegen. Deshalb wird zusätzlich zum „klassischen Data-Mining“ zunehmend auch die Bearbeitung der Rohdaten durch künstliche neuronale Netzwerke wichtig. Diese Netzwerke sind in der Lage, große Mengen an Informationen zu verarbeiten, und besonders gut dafür geeignet, verschiedenste Muster in einer scheinbar ungeordneten Datenflut zu erkennen.

Zusammengefasst handelt es sich bei Predictive Analytics um eine fortschrittliche Prognosemethode, die aufgrund von durch Data-Mining aufbereiteter Daten versucht, aus bestehenden Abläufen und stattgefundenen Ereignissen in der Vergangenheit Aussagen über zukünftige Entwicklungen und Trends zu generieren. Im Data-Mining kommen unter anderem Verfahren und Methoden aus Informatik, Mathematik und künstlicher Intelligenz zum Einsatz, die es schließlich erlauben, Datenmodelle zu erstellen, aus denen die Wahrscheinlichkeit zukünftiger Ereignisse ermittelt werden kann.