Jetzt verfügbar: SAP Data Hub 2.3

SAP Data Hub verwaltet Metadaten und unterstützt entsprechende Prozesse. Nun ist eine neue Version davon verfügbar.

Die neueste Version von SAP Data Hub, Version 2.3, ist nun verfügbar. Highlights dieser Version sind ein neuer, frischer Look und eine benutzerfreundliche Oberfläche. Mit SAP Data Hub lassen sich jetzt noch effizienter Metadaten verwalten und datengestützte Prozesse in der gesamten Landschaft steuern und beschleunigen.

In dieser Version sind alle Komponenten vollständig containerbasiert. Das heißt, dass die zugrunde liegenden Komponenten wie Engines, Agents und Metadatenspeicher in SAP HANA jeweils in einer isolierten Ausführungsumgebung innerhalb von Kubernetes ausgeführt werden. Insofern wird dadurch die Installation erheblich vereinfacht und die Bereitstellung beschleunigt.

Im Folgenden werden die wichtigsten Funktionen und deren Vorteile vorgestellt.

1. Zentraler Einstiegspunkt für alle SAP-Data-Hub-Anwendungen

Das SAP-Data-Hub-Launchpad mit seiner modernen Oberfläche bietet einen zentralen Zugang zu allen anwenderorientierten Anwendungen. Dazu zählen etwa Systemverwaltung, Überwachung, SAP-Vora-Tools, Verbindungsmanagement, Metadata Explorer und Pipeline Modeler. Außerdem wird eine Systemverwaltung mit Lebenszyklus- und Repository-Funktionen eingeführt.

2. Vereinfachte Bereitstellung von SAP Data Hub in Cloud- und On-Premise-Umgebungen

Dank einer vollständig containerbasierten Architektur lässt sich SAP Data Hub auf jeder Plattform bereitstellen, die Kubernetes unterstützt. Dazu gehören Managed-Cloud-Services: AWS (EKS), GCP (GKE), Azure (AKS), Private Cloud oder On-Premise-Installationen wie Suse CaaSP.

In Zusammenarbeit mit Cisco bieten wir eine sofort einsatzfähige Unternehmenslösung an, in der leistungsfähige Hardware und ausgereifte Software nahtlos zusammenspielen. Mit der Cisco Container Platform auf der eigenen hyperkonvergenten Hardwarelösung Cisco Hyperflex stellt Cisco einen flexibel skalierbaren Container-Cluster mit vorgelagertem Kubernetes zur Verfügung. Diesen haben wir um einen Scality-Ring-Objektspeicher und Load Balancer von AVI Networks ergänzt und so die perfekte Grundlage für den On-Premise-Betrieb von SAP Data Hub in Hybrid-Cloud-Umgebungen im Unternehmensmaßstab geschaffen.

Ab dieser Version werden alle erforderlichen Komponenten einschließlich SAP HANA und der SAP-Vora-Engines für verteilte Laufzeiten in containerbasierter Form über eine Docker-Registry ausgeliefert. Damit entfällt die Installation einer separaten SAP-HANA-Instanz für externe Speicher oder eines Hadoop-Clusters für die Laufzeitausführung von SAP Vora.

Der Hauptvorteil einer vollständig containerbasierten Architektur besteht darin, dass die Datenverarbeitungsebene abgetrennt und idealerweise mit dem Hauptdatenspeicher zusammengelegt werden kann. Da SAP HANA nicht mehr auf einem separaten Server installiert werden muss, ist der Installationsprozess nun erheblich schlanker und einfacher. Alle wichtigen Cloud-Speicherplattformen, HDFS sowie On-Premise-Fileshares werden vollständig unterstützt.

3. Metadatenkatalog für einen besseren Überblick über die Datenbestände in der gesamten Landschaft

Mit dem neuen SAP Data Hub Metadata Explorer verbessern wir die Kontrolle über und Verwaltung von Metadaten, die über verschiedene Systeme und Datenquellen verteilt sind.

Zu den wichtigsten Funktionen gehören:

  • Herstellen von Verbindungen zu Datenquellen mit der Möglichkeit, in den zugehörigen Metadatenstrukturen automatisch einen Crawl durchzuführen
  • Erstellen von Referenzen auf Daten, sogenannte Datensets, und Speichern dieser Referenzen im Metadatenkatalog
  • Durchsuchen des Metadatenkatalogs, um relevante Daten zu finden
  • Erkunden von Daten in der Landschaft und Erstellen entsprechender Profile, um Erkenntnisse zur Datenqualität zu gewinnen
  • Vorkonfigurierte Unterstützung für SAP HANA, SAP Vora, Objektspeicher (wie S3 oder GCS), HDFS, SAP BW, Oracle

Mit diesen neuen Funktionen in SAP Data Hub 2.3 lassen sich Metadaten nun noch einfacher verwalten, und datengestützte Prozesse in verteilten Landschaften können einfacher umgesetzt werden. SAP Data Hub bietet allen, die mit Daten arbeiten – wie Datendesignern, Datenwissenschaftlern, Konstrukteuren, Architekten und Modellierern – die Möglichkeit, sich Einblicke unabhängig davon zu verschaffen, wo die Daten gespeichert sind, ob in einem Data Warehouse, einem Data Lake, einem Cloud-Speicher oder Ähnlichem.

4. Verbesserte Funktionen für Datenintegration und Anbindung

SAP Data Hub bietet ein breites Spektrum von Anbindungsoptionen mit Schwerpunkt auf Big-Data-Komponenten wie Hadoop, Cloud-Speicher, Services für maschinelles Lernen sowie Technologien für Nachrichtenaustausch in Echtzeit. Angesichts der Tatsache, dass das Produkt kontinuierlich weiterentwickelt und von immer mehr Kunden eingeführt wird, ist uns bewusst, dass wir eine native Anbindung an ein breites Spektrum von Datenbanken und Unternehmensanwendungen bereitstellen müssen. Deshalb führen wir ein neues gemeinsames Verbindungs-Framework ein, das als zugrunde liegende Infrastruktur dient. Ziel ist es, die speziell auf strukturierte Datenquellen zugeschnittenen nativen Funktionen für Anbindung und Integration schnell zu erweitern und zu verbessern.

Unter anderem bietet SAP Data Hub eine native Anbindung an folgende Datenquellen:

  • Relationale Datenbanken (wie Oracle) und Unternehmensanwendungen wie SAP S/4HANA oder SAP BW/4HANA
  • Beliebte Cloud-Speicherplattformen wie WASB, S3 und GCS
  • Offene Protokolle wie OData und OpenAPI
  • Services für Bereinigung und Anreicherung über die Integration von SAP Data Quality Management, Microservices für Lokationsdaten (DQMm)
  • Services für maschinelles Lernen wie Services von SAP Leonardo Machine Learning Foundation
  • Services und Technologien von Drittanbietern wie Spark, Livy und Google Pub/Sub

Das folgende Bild zeigt die Operatoren, die eine native Anbindung bieten:

Weiterhin gibt es Verbesserungen in Form einer optimierten Überführung von Datenströmen in SAP Vora sowie optimierter Persistenzeinstellungen:

  • Natives Streaming in persistenten SAP-Vora-Speicher
    • Unterstützung für DML-Vorgänge – Einfügen, Aktualisieren, Löschen, Upsert – in Streaming-Tabellen mit der Disk-Engine
    • Unterstützung für externe Cloud-Speicher als Sicherungsprüfpunkte
  • Unterstützt Datenreplikation in Echtzeit in SAP-Vora-Tabellen direkt mit SAP LT Replication Server

5. Einheitliche Oberfläche für die Modellierung mit SAP Data Hub Modeler

Schließlich haben wir auch die Benutzeroberfläche vereinheitlich und verbessert. In dieser Version wurden alle vorhandenen Modellierungsfunktionen in einer einzigen Oberfläche zusammengefasst, dem SAP Data Hub Modeler. Die folgenden Datenvorgänge werden nun als spezielle Operatoren bereitgestellt, die in jeder Datenpipeline verwendet werden können:

  • Workflow-Pipeline-Operatoren: Datenübertragungen (SAP HANA/SAP BW), Spark-Jobs und so weiter
  • Orchestrierung von Remote-Datenquellen: SAP-BW-Prozesskette, SAP-Data-Services-Job, SAP-HANA-Flussdiagramm
  • Transformationen strukturierter Daten:Projektion, Aggregation, Join, Union, Case
  • Datenmaskierung: Ausmaskieren, numerische Generalisierung, Mustervarianz und so weiter
  • Validierungsregeln: Grundfunktionen und angepasste Funktionen

Alles in allem bietet SAP Data Hub 2.3 mehr Funktionen mit einer flexiblen Architektur, die letztlich eine einfachere und schnellere Bereitstellung sowie eine Skalierung der Datenpipelines und die Durchsetzung der Governance ermöglicht.

Weitere Informationen über das Produkt erhalten Sie auf der Website mit der offiziellen Dokumentationoder in Videotutorials zu SAP Data Hub auf YouTube.

Wenn Sie praktische Erfahrung mit SAP Data Hub sammeln möchten, besuchen Sie die folgenden Webseiten:

Marc Hartz ist Product Management Lead für SAP Data Hub.