Soccer team in a huddle

Data Mining: Warum sich die Investition lohnt

Feature | 19. Oktober 2017 von Uwe Schick 5

Ein Landwirt aus Sachsen-Anhalt spart mit Data Mining je Hektar sechs Kilo Stickstoff und erhöht den Ertrag um einen Doppelzentner. Ein Automobilhersteller korrigiert mithilfe des Data Mining Fehler, bevor ein Produkt in die Massenproduktion geht und Banken schätzen das Risiko bei jeder Kreditvergabe mit Data Mining gut ein. Jeder sieht: Data Mining lohnt sich.

Zugegebenermaßen gibt es keine einheitliche Definition für den Begriff Data Mining. „Beim Data Mining geht es darum, dass ich geschäftsrelevantes Wissen aus meinen Daten generiere. Dabei gehört Data Mining zum Bereich Data Analytics: Mit speziellen Techniken grabe ich tief in den Daten und kann zum Beispiel Muster und Zusammenhänge erkennen“, erklärt Dr. Sarah Detzler, Data Scientist bei der SAP, den Begriff. Data Mining liefert beispielsweise auf der einen Seite Erkenntnisse auf Basis historischer Daten, um herauszufinden, was gute Bewerber je nach individueller Situation zur Zusage bewegen könnte – Geld, Home-Office-Tage oder bestimmte Aufgaben? „Gerade aus dem HR-Bereich bekommen wir viele Anfragen, auch zum Thema Mitarbeiterbindung“, verrät Detzler.

Auf der anderen Seite forscht Data Mining in komplexen Datennetzen nach verborgenen Zusammenhängen: etwa, wenn eine Bank mit einem Data Mining-Tool die Wahrscheinlichkeit einer Kreditrückzahlung berechnet. Doch ganz gleich, ob einfache Statistik oder die tiefergehende Anlage von Stollen im Datenberg – ohne eine saubere Datenbasis geht nichts. Niemand stößt auf eine Goldader, wenn die geographischen Daten ungenau sind.

Data Analytics: Saubere Daten und Transparenz sind wichtige Voraussetzungen

Nahezu alle Unternehmen haben Probleme mit ihren Stammdaten. Doch hängt beim Data Mining alles von gut aufbereiteten Daten ab. Deshalb gleichen Unternehmen Informationen mit externen Datenbanken ab. Vor allem der Handel kauft viele Metadaten zu: korrekte Adressen oder Einkommensstatistiken zum Beispiel. Wichtig ist auch, Datenmasken von Grund auf so aufzubauen, dass Fehler vermieden werden. Beispielsweise sollte beim Feld für das Geburtsdatum kein Freitext zugelassen werden.

Doch nutzt Data Mining weitaus mehr Informationen als Stammdaten: Dazu gehören unter anderem Texte, Bilder und Streaming – also unstrukturierte Daten. Außerdem kommen bei vielen Projekten noch Daten aus unternehmensexternen Quellen hinzu: Wetter, Währungskurse oder Unterhaltungen in sozialen Medien. So nutzt die Polizei bereits eine Kombination aus aktuellen Wetterdaten und historischen Daten, um die Einbruchswahrscheinlichkeit zu bestimmen und auf Basis dieser Informationen die Routen der Einsatzwagen zu planen. Tatsächlich gingen die Einbruchsraten im Testgebiet zurück.

Datenbanken wie SAP HANA strukturieren mit semantischen Technologien zum Beispiel Texte und erkennen mit Textminingfunktionen Muster, identifizieren Schlüsselbegriffe und kategorisieren Dokumente. Berge an Textdokumenten werden damit nutzbar für umfangreiche Analysen. Dazu kann die In-Memory-Datenbank Raum- und Geodaten verarbeiten: Es lassen sich Spontankäufe auf einer Landkarte darstellen. Trends erkennen die Anwender am besten, wenn Daten im Zeitverlauf dargestellt werden. Anwender sehen so einen Zusammenhang zwischen dem Ertrag und möglichen Einflussfaktoren wie Rohstoffpreise, Wahlen in einem Land und Ferienzeiten. Auf diese Weise lässt sich die Liquidität eines Unternehmens wesentlich präziser planen.

Mit den analytischen Libraries in SAP HANA verläuft der Modellierungsprozess für Prognosen recht schnell. Mit den Modellen erkennen Unternehmen kontextuale Muster beispielsweise beim Energieverbrauch oder dem Netzwerkverkehr. Das gewonnene Wissen können diese Unternehmen nutzen, um Wettbewerbsvorteile zu gewinnen.

Doch derzeit verbringt fast jedes Unternehmen im Rahmen eines Data-Mining-Projektes noch rund 80 Prozent seiner Zeit damit, die Daten aufzubereiten. Lediglich rund 20 Prozent der Zeit fließt in den Algorithmus und die Modellerstellung. Wenn Daten erst einmal in jedem Unternehmen sauber und transparent sind, wird professionelles Data Mining zum echten Wettbewerbsfaktor.

Data Mining wird in Kürze zu 40 Prozent automatisiert sein

Bis vor einigen Jahren war Data Mining viel zu aufwändig: Wer ellenlange Excel-Tabellen durchforsten musste, konnte schwer Zusammenhänge aufdecken – und schon gar nicht Beziehungen zwischen Personen, Orten und Dingen sinnvoll herstellen, um Marketingkampagnen zu optimieren. Technisch ist das heute alles gut machbar, doch stellt sich immer noch die Frage: Lohnt sich die Investition?

Ein Ziel des Data Mining ist, für mehr Effizienz zu sorgen. Beispielsweise im Personalwesen: Was kostet es das Unternehmen, wenn ein zentraler Mitarbeiter zur Konkurrenz wechselt, und es die Arbeitskraft nicht schnell ersetzen kann? Was kostet es, wenn eine Maschine wegen einer unvorhergesehenen Reparatur stillsteht? Die Investition in Data Mining zahlt sich in solchen Fällen oftmals rasch aus: Mitarbeitern können die richtigen Angebote gemacht und Maschinen vorausschauend gewartet werden – das spart den Unternehmen viel Geld. Zwar spricht die zunehmende Automatisierung für einen Einsatz von Data Mining, doch müssen sich Unternehmen für jeden Anwendungsfall selbst ausrechnen, wie wirtschaftlich das Modell für sie ist.

Der Analyst Gartner sagt voraus, dass 2020 mehr als 40 Prozent der Aufgaben in der Data Science automatisiert sein werden. Dabei geht es um einfachere, wiederholbare Aufgaben, die oft aufwändig sind und keine tiefgreifenden statistischen oder algorithmischen Kenntnisse erfordern. „Data Scientists werden dann mehr Zeit für die NASA-Projekte haben“, sagt auch Detzler und meint damit die herausfordernden Projekte, die viele Datenquellen, -typen und herausfordernde Algorithmen einbeziehen.

Ein Automobilhersteller wertet beispielsweise bei der Entwicklung eines neuen Modells Daten von Testfahrten, Werkstattbesuchen des Vorgängermodells und der Prototyp-Produktion aus und entdeckt mit Analysemodellen Fehler, die ein Mensch in den Datenbergen nicht entdeckt hätte. Die Massenproduktion läuft damit reibungsloser. Oder ein Landwirt sammelt mit Drohnen und Sensoren an den Geräten Informationen über sein rund 1.000 Hektar großes Land. Er kann nun viel präziser düngen und spart unter anderem sechs Kilo Stickstoff je Hektar – also rund 9.000 Euro. Dazu wachsen die Bestände gleichmäßiger, lassen sich leichter ernten und der Ertrag der Felder ist um einen Doppelzentner je Hektar gewachsen. Alles dank Data Mining.

Wie geht ein Data Scientist vor?

Es geht bei Data Mining nicht darum, im Vorfeld genau zu planen, sondern beim Graben in den Daten vergangene Ereignisse zu verstehen und kommende vorauszusagen. Data Scientists sind Wissenschaftler, Forscher, Entdecker. Sie setzen beim Schürfen nach Goldnuggets auf die CRISP-DM-Methode (Cross Industry Standard Process for Data Mining): In deren Fokus stehen natürlich die Daten, deren Analyse den größten Teil der Arbeit ausmacht – also das Verständnis des Geschäfts, der Daten und deren Vorbereitung. „Bei der Analyse ist das Wissen des Fachbereichs über seine Daten viel wert. Der Fachbereich arbeitet jeden Tag mit den Daten und bringt daher viel Verständnis mit“, weiß Detzler. Nach der Analysephase folgen die Modellierung, die Evaluation und letztlich der Schritt in die Produktivität. „Jedes Projekt ist anders: Wenn ich für eine Fabrik Predictive Maintenance eingerichtet habe, kann ich das nicht 1:1 auf eine andere Fabrik übertragen.” Entsprechend sollte auch das Aufgabenfeld für die begehrten Data Scientists definiert werden: Sie kümmern sich um die NASA-Projekte. Fachanwender erhalten mit SAP Predictive Analytics Zugang zu statistischen Methoden, um so für die einfachen Probleme prädiktive Analysen selbst durchzuführen. Ergänzend können sie sich mit SAP Lumira, SAP Analytics Cloud und SAP Digital Boardroom die Ergebnisse der Data Mining-Modelle grafisch gut aufbereitet anzeigen lassen. Hierzu steht ein Self Service Dashboard bereit.

Auch wenn viele Unternehmen bisher ohne Data Mining erfolgreich sind: Wer sich bei wichtigen Entscheidungen und der Optimierung von Prozessen nicht auf seinen Bauch und unvollständige Daten verlassen möchte, kommt um Data Analytics und Data Mining nicht herum. Die Erkenntnisse können im Extremfall ganze Branchen umkrempeln. Viele Unternehmen haben sich schon auf den Weg gemacht.

Die Vorteile mit Data Mining in Kürze

Mit Data Mining können Unternehmen sonst unbeherrschbar große Datenmengen analysieren, Muster erkennen und geschäftsrelevante Erkenntnisse gewinnen.

  • Trends erkennen
  • Präzise Prognosen erstellen
  • Kundenbedürfnisse besser verstehen
  • Hypothesen überprüfen
  • Entscheidungsfindung vorbereiten

Beim Themennachmittag Smart HR – Analytics im Weitblick am 26. Oktober 2017 in der SAP-Geschäftsstelle in Hamburg erhalten Sie live Einblicke in das Data Mining. Referenten des Unternehmens CubeServ und der SAP beleuchten neue Schlagworte wie “People Analytics” und “Predictive” anhand ausgewählter Praxisbeispiele und Live-Demos. Sie erfahren wie moderne Analytics sowie die Personalbestands- und Kostenplanung dank neuster SAP-Technologien aussehen kann.

Außerdem erfahren Sie im On-Demand-Webseminar „Einführung in SAP Predictive Analytics am Beispiel Mitarbeiterabwanderung aus dem HR-Bereich wie Entscheidungen in immer kürzerer Zeit getroffen werden. Wie können wir aus den vorhandenen Daten Einblicke in die Zukunft gewinnen und diese Erkenntnisse für bessere Entscheidungen und Geschäftsergebnisse nutzen? Wie können wir statistische Verfahren einem größeren Anwenderkreis zugänglich machen?

Tags: , ,

Leave a Reply