Soccer team in a huddle

Data Lakes: Neue Erkenntnisse aus riesigen Datenmengen ableiten

Feature | 31. August 2017 von SAP News 4

Data Lakes schaffen die Voraussetzung dafür, dass alle Mitarbeiter beliebig lange auf benötigte Daten zugreifen können. Sie sind damit ein wichtiges Instrument, das Innovationen in allen Branchen ermöglicht. Wir zeigen Beispiele aus der Praxis und geben Tipps, wie Sie die Datenflut beherrschen können.

Das Internet hat Daten und Informationen für Milliarden Menschen auf der ganzen Welt zugänglich gemacht. Ausgerechnet in Unternehmen war der Zugriff auf Daten jedoch bislang einigen wenigen vorbehalten. Das hat sich nun geändert. Schneller und kostengünstiger Arbeitsspeicher, neue Speichertechnologien und Datenwerkzeuge ermöglichen es Unternehmen aller Größen, riesige Datenmengen ohne hohen Kostenaufwand zu erfassen und zu speichern. Dabei kann es sich sowohl um strukturierte Daten (beispielsweise Daten in den Feldern von Tabellen oder Datenbanken) als auch um unstrukturierte Daten (E-Mails oder Beiträge in sozialen Netzwerken) handeln. Auf diesen riesigen Data Lake können dann alle Mitarbeiter des Unternehmens zugreifen, um schnell zu neuen Erkenntnissen zu gelangen.

Lesen Sie, wie Unternehmen maschinelles Lernen nutzen, um auf Basis von Big Data Lösungen für die drängenden Fragen der Zeit zu finden.

Digitale Services für Landwirte

Dan McCaffrey verfolgt ein ehrgeiziges Ziel: Er möchte die weltweit drohende Nahrungsmittelknappheit bekämpfen. McCaffrey leitet ein Team von Data Scientists bei einem Tochterunternehmen des Agrarkonzerns Monsanto, The Climate Corporation (Climate), das derzeit eine Informationsplattform zur Erhebung riesiger Mengen von Agrardaten entwickelt. Durch maschinelles Lernen sollen diese Daten anschließend ausgewertet werden, um neue Muster aufzudecken. Landwirte können auf der Grundlage dieser Analysen dann die Bewirtschaftung ihrer Felder optimieren.

„Wenn die Weltbevölkerung im bisherigen Tempo weiterwächst, wird es 2050 zu viele Menschen geben. Und da die landwirtschaftliche Nutzfläche immer kleiner wird, müssen wir nach effizienteren Lösungen suchen, wie wir alle Menschen ernähren können. Zur Bewältigung dieser Probleme müssen wir auf wissenschaftliche Methoden zurückgreifen“, erläutert McCaffrey.

Um die richtigen Schlüsse ziehen zu können, benötigt Climate zunächst einmal Daten – und zwar in großen Mengen. Durch den Einsatz von Remote-Sensoren und anderen Verfahren sollen hierzu Daten von sämtlichen Ackerflächen in den USA erfasst werden. Diese Informationen werden anschließend mit Klima- und Wetterdaten und Bodenbeobachtungen kombiniert. Die Analysten von Climate können diese Daten in einer riesigen Datenbank zusammenführen, mit der sich durch Abfragen neue Erkenntnisse gewinnen lassen.

Die digitale Agrarplattform von Climate, auf deren Daten und Visualisierungen Landwirte einfach über ein iPad zugreifen können, wird darüber hinaus auch von den Sensoren moderner Traktoren gespeist. Die Landwirte können Informationen abrufen, die sie bei der Optimierung der Saatstärke, der Bodenqualität und der Düngemittelmengen unterstützen. Ziel ist es dabei, die Erträge zu steigern, sodass die Landwirte von höheren Margen profitieren.

Climate beschreitet neue Wege, um aus extrem großen Datenmengen wertvolle geschäftliche Einblicke zu erlangen. Unternehmen aus unterschiedlichsten Branchen von der Landwirtschaft über das Transportwesen bis hin zum Finanzdienstleistungssektor und Einzelhandel machen sich riesige Datenbanken – sogenannte Data Lakes – zunutze. Sie suchen dabei nach Zusammenhängen, die es ihnen ermöglichen, ihr Produktangebot zu erweitern, die Effizienz zu steigern, ihren Gewinn zu maximieren und völlig neuartige Geschäftsmodelle zu entwickeln.

Hinter den Kulissen von Climate gibt es einen Data Lake, der sich auf wissenschaftliche Methoden stützt und wichtige Einblicke liefert, beispielsweise Prognosen zur Fruchtbarkeit einer Ackerfläche. Durch die Kombination unterschiedlichster Daten entstehen präzise Modelle, die es Climate ermöglichen, den Landwirten individuelle Empfehlungen auf der Grundlage der bisherigen Erträge zu unterbreiten.

„Das maschinelle Lernen kommt dann wirklich zum Tragen, wenn ein breites Spektrum an Daten zur Bodenbestellung, Bodenbeschaffenheit, zum Wetter, zum Anbau, zur Ernte und zum Einsatz von Pflanzenschutzmitteln zur Verfügung steht“, erklärt McCaffrey. „Je mehr Daten wir einspeisen können, desto besser funktioniert das maschinelle Lernen.“

Aufdecken von Betrug durch Korrelation von Daten

Die Organisation Financial Industry Regulatory Authority (FINRA), deren Aufgabe die Beaufsichtigung der Marktteilnehmer im US-Wertpapierhandel ist, hat sich bei der Entwicklung von Strategien zur Bekämpfung von Betrug und Insidergeschäften bislang vor allem auf die Erfahrung ihrer Mitarbeiter verlassen. Nach wie vor ist diese Erfahrung eine wichtige Stütze, doch die FINRA greift nun zusätzlich auf einen Data Lake zu und ist so in der Lage, Muster aufzudecken, die dem menschlichen Auge verborgen bleiben.

Die Aufsichtsbehörde verarbeitet tagtäglich mehr als fünf Petabyte Transaktionsdaten aus unterschiedlichen Quellen. Infolge der Ablösung der herkömmlichen Datenbank- und Speichertechnologie durch einen Data Lake konnte die FINRA einen Self-Service-Prozess einrichten, über den Analysten Daten ohne Unterstützung durch die IT-Abteilung abrufen können. Hatte die Suche nach den benötigten Informationen früher noch mehrere Stunden gedauert, benötigen die Analysten nun nur noch 90 Sekunden.

Während sich herkömmliche Datenbanken gut dafür eigneten, Daten miteinander zu verknüpfen – um etwa sämtliche Transaktionen einer bestimmten Person nachzuverfolgen –, können die Anwender mithilfe der neuen Data-Lake-Konfigurationen nun auch Beziehungen aufdecken, von deren Existenz sie gar nichts wussten.

Die Datenexperten können nach verdächtigen Verhaltensmustern suchen, die auf Betrug, manipulierte Marketingunterlagen und den Verstoß gegen Vorschriften schließen lassen. Dadurch konnte die FINRA im vergangenen Jahr 373 Bußgeldbescheide in Höhe von insgesamt 134,4 Mio. US-Dollar ausstellen – laut Law360 ein neuer Rekord.

Auch Data Lakes sind komplex

„In den letzten 20 Jahren sind unzählige Millionen in Data-Warehousing-Lösungen geflossen. Unternehmen sollten nicht davon ausgehen, dass sie diese Daten nun einfach in einen Data Lake verschieben können“, so Mike Ferguson, Geschäftsführer des britischen Analystenhauses Intelligent Business Strategies. Ferguson ist jedoch überzeugt, dass dank der Effizienz von Data Lakes mehr Kapazitäten in Data Warehouses für Abfragen, Berichte und Analysen zur Verfügung stehen.

Zudem führt der Einsatz von Data Lakes auch nicht dazu, dass die Bereinigung und Verwaltung von Daten überflüssig werden – sie sind eine wichtige Voraussetzung dafür, dass hilfreiche Erkenntnisse aus den Daten abgeleitet werden können.

Unternehmen benötigen außerdem strenge Data-Governance-Prozesse. Es muss klar definiert werden, wer auf die Daten zugreifen, sie verteilen, ändern, löschen oder in sonstiger Weise bearbeiten darf. Unternehmen müssen außerdem sicherstellen, dass die erfassten Daten aus einer rechtmäßigen Quelle stammen.

Immer häufiger ist es Aufgabe eines Chief Data Officer (CDO), dafür zu sorgen, dass die wachsende Zahl der Mitarbeiter mit Zugriff auf Daten diese auch effektiv und verantwortungsbewusst nutzt. Einer Prognose des Marktforschungsunternehmens Gartner zufolge wird es bereits 2019 in 90 Prozent aller Großunternehmen einen CDO geben.

Data Lakes lassen sich auf verschiedene Weise konfigurieren: als zentrales oder verteiltes Repository mit Speichersystemen in der lokalen Infrastruktur, in der Cloud oder in einer Hybridumgebung. Manche Unternehmen haben auch mehrere Data Lakes implementiert.

„Viele meiner Kunden versuchen aus naheliegenden Gründen, einen zentralen Data Lake zu realisieren. Es ist wesentlich einfacher, Daten an einem zentralen Ort zu verwalten und zu erfassen“, so Ferguson. „Oft entsteht dadurch jedoch an anderer Stelle zusätzliche Komplexität. Viele von ihnen stellen fest, dass für die Verwaltung von Daten über mehrere Datenspeicher hinweg ein verteilter Data Lake erforderlich ist.“

Die enormen Kapazitäten von Data Lakes führen außerdem dazu, dass sich der einst überschaubare Datenfluss zu einem gewaltigen Strom entwickelt hat. „Neue Daten werden heute in extremer Geschwindigkeit und in sehr großen Mengen erzeugt“, erklärt Ferguson. „Wir müssen nach Lösungen suchen, wie wir Komplexität abbauen können. Meist heißt diese Lösung Automatisierung. Unternehmen erwarten, dass ihnen Informationsmanagement-Software wie ein Informationskatalog helfen kann, die Erfassung von Daten zu beschleunigen und diese automatisch zu klassifizieren, Profilen zuzuordnen, zu organisieren und leicht auffindbar zu machen.“

Wie Sie vermeiden, in der Datenflut zu ertrinken

  • Festlegen des ROI: Die Entwicklung eines Data Lake ist kein leichtes Unterfangen. Sie benötigen einen überzeugenden Business Case und einen messbaren ROI. Vor allem aber benötigen Sie Fragen, die sich mithilfe der Daten beantworten lassen. Dadurch können Sie den Nutzen eines Data Lake belegen.
  • Bestimmen der Dateneigentümer: In Unternehmen nimmt die Zahl der Geräte, die mit Sensoren ausgestattet sind, stetig zu. Damit wird auch die Frage nach dem Dateneigentum immer wichtiger.
  • Planen der Datenaufbewahrung: Früher konnten Unternehmen Daten nur selektiv aufbewahren, da die Speicherung mit hohen Kosten verbunden war. Nun können sie Daten in beliebigen Mengen sammeln und individuell entscheiden, wie lange diese aufbewahrt werden sollen.
  • Verwalten von beschreibenden Daten: Es gibt derzeit noch keine ausgereifte Software, die es ermöglicht, alle Daten in einem oder mehreren Data Lakes mit Tags zu versehen und diese Tags regelmäßig zu aktualisieren. Unternehmen sind nach wie vor auf Tools angewiesen, um durch die Verknüpfung von Metadaten auch Self-Services zu unterstützen und durch die Automatisierung von Metadaten die Aufbereitung, Integration und Analyse von Daten zu beschleunigen.
  • Entwickeln von Fertigkeiten im Bereich Datenpflege: In den Unternehmen gibt es zu wenige Mitarbeiter, die mit der Entwicklung von Daten-Repositorys vertraut sind. Viele wären jedoch bereit, sich die erforderlichen Kenntnisse anzueignen, wenn die Unternehmen in entsprechende Schulungen und Zertifizierung investieren.
  • Schnelles und flexibles Nutzen der gewonnenen Erkenntnisse: Früher mussten Daten in der IT-Abteilung angefragt werden. Nun können Daten zur Beantwortung geschäftlicher Fragen umgehend abgerufen werden. Unternehmen müssen somit auch in der Lage sein, die gewonnenen Erkenntnisse schnell und flexibel zu nutzen.
  • Sichern der Daten: Neben dem ewigen Problem von Hackerangriffen und Datenlecks sind zahlreiche Data-Lake-Anwendungen aufgrund der Tatsache, dass es sich um Open-Source-Software handelt, weniger gut geschützt als typische Unternehmenssoftware.
  • Messen der Datenqualität: Anwender benötigen für ihre Arbeit ein unterschiedliches Maß an Datenqualität. Data Scientists, die zahlreiche Datenpunkte analysieren, sind beispielsweise nicht immer auf absolut präzise Daten angewiesen, da sie mithilfe von maschinellem Lernen Daten gruppieren und nicht relevante Daten bei Bedarf aussortieren können. Ein Finanzanalyst hingegen benötigt für seine Arbeit vollständig korrekte Daten.
  • Vermeiden neuer Silos: Data Lakes sollten die bestehenden Datenarchitekturen wie Data Warehouses und Data Marts unterstützen.

Timo Elliott ist Vice President und Global Innovation Evangelist bei SAP.
John Schitka ist Senior Director für Solution Marketing und Big Data Analytics bei SAP.
Michael Eacrett ist Vice President für Product Management, Big Data, Enterprise Information Management und SAP Vora bei SAP.
Carolyn Marsan ist freiberufliche Journalistin und Autorin mit Schwerpunkt Wirtschaft und Technologie.

Dieser Artikel wurde ursprünglich im Digitalist Magazine veröffentlicht.

Tags: ,

Leave a Reply