Ces dernières années, de nombreuses entreprises ont porté la panoplie des sources de données qu’elles analysent bien au-delà des systèmes d’entreprise classiques. Les sources de Big Data comme les Web Logs, les canaux de réseaux sociaux, les capteurs, les images, etc. se sont révélées être des actifs de données majeurs à partir desquels de précieux insights peuvent être extraits. La complexité des structures et l’importance du volume sont autant de raisons qui expliquent pourquoi ces données sont généralement gérées en dehors de l’entrepôt de données relationnelles, dans des data lakes et des stockages cloud. La plupart du temps, les entreprises font passer ces données dans un environnement Hadoop pour les filtrer, les agréger ou appliquer tout autre processus afin d’en extraire des informations structurées, qui doivent ensuite être mises en contexte avec les données métier stockées dans l’entrepôt de données classique.
Dans de tels scénarios, SAP Data Hub simplifie considérablement les tâches d’organisation, d’ordonnancement et de suivi du flux de processus complet, c’est-à-dire depuis l’ingestion des données dans Hadoop, jusqu’au moment où les données sont prêtes pour le reporting dans SAP BW/4HANA.
Présentation de SAP Data Hub
SAP Data Hub est une solution de gestion des paysages de données qui permet de réaliser des opérations de données agiles à tous les niveaux de l’entreprise. Elle facilite le partage des données, la création de pipelines ainsi que la gouvernance de toutes les données de ce paysage connecté. SAP Data Hub est une architecture de données ouvertes, qui est compatible avec Hadoop, les data lakes, le stockage cloud, les bases de données relationnelles, les applications métier et bien plus encore :
- Approche plus simple et plus scalable des opérations de données et de la gestion de paysage
- Accélération et élargissement du périmètre des projets concernant les données
- Conception d’applications agiles et pilotées par les données
- Archivage de la gouvernance centralisée des données et de la visibilité sur le lignage des données
- Orchestration des processus sur l’ensemble du paysage des données, par exemple l’exécution des pipelines de données, le déclenchement des chaînes de processus SAP BW, les jobs SAP Data Services et bien plus encore
Présentation de SAP BW/4HANA
SAP BW/4HANA est le produit SAP nouvelle génération d’entreposage des données. Il s’appuie sur plusieurs concepts de SAP BW et les améliore, grâce à sa combinaison avec la base de données SAP HANA. Ses principales caractéristiques sont les suivantes :
- Simplification – SAP BW/4HANA offre une approche drastiquement simplifiée de la création d’entrepôts de données, permettant de concevoir des solutions allégées en moins de temps.
- Ouverture – SAP BW/4HANA est compatible avec quasiment tous les types de données, qu’elles soient issues de systèmes SAP ERP classiques, de bases de données relationnelles ou des data lakes.
- Interfaces utilisateurs modernes – L’apparence de SAP BW/4HANA a été complètement revue et corrigée pour les utilisateurs métier, ainsi que pour les modélisateurs et administrateurs d’entrepôts de données.
- Hautes performances – SAP BW/4HANA exploite la puissance de la base de données SAP HANA pour toutes les tâches de traitement de données intensives, qu’il s’agisse de requêtes OLAP, de transformations des données ou d’analyses prédictives.
Exemple client concret
Voyons l’exemple concret d’un client. Il est question d’analyser les données de réseaux sociaux, afin de comprendre l’efficacité des campagnes marketing dans certaines régions et d’identifier les canaux consultés par les clients. L’analyse inclut plus de 30 sources de réseaux sociaux et ses résultats se présentent sous un format cohérent et consommable. Les données transformées sont ensuite combinées avec les données ventes et master data, dans un tableau de bord exécuté par SAP BW/4HANA.
La représentation technique d’un tel scénario est un workflow de données SAP Data Hub. Ces workflows de données orchestrent des processus sur l’ensemble du paysage des données, par exemple l’exécution des pipelines de données SAP Data Hub, le déclenchement des chaînes de processus SAP BW, les jobs SAP Data Services et autres.
Un tel workflow de données SAP Data Hub peut se composer de plusieurs tâches. Les tâches sont des opérations automatiques que vous pouvez exécuter, contrôler et suivre en fonction de certaines conditions définies par l’utilisateur. SAP Data Hub prend en charge différents types de tâches, notamment :
Chaîne de processus SAP BW | La création et l’exécution d’une tâche de chaîne de processus SAP BW au sein d’un workflow de tâches facilite l’exécution d’une chaîne de processus SAP BW dans un système SAP BW. |
Pipeline de données | La création et l’exécution d’une tâche de pipeline de données au sein d’un workflow de tâches facilite l’exécution d’un pipeline de données dans un système SAP Vora. |
Tâche d’opération sur fichier | La création et l’exécution d’une tâche d’opération sur fichier au sein d’un workflow de tâches facilite le traitement d’opérations sur fichier, comme par exemple la copie et la suppression d’ensembles de données. |
Graphique de flux | La création et l’exécution d’une tâche de graphique de flux au sein d’un workflow de tâches facilite l’exécution d’un graphique de flux dans un système Hadoop ou SAP Vora. |
L’illustration ci-dessous montre un workflow de données SAP Data Hub similaire à celui du scénario client susmentionné : les fichiers de données sont d’abord copiés d’un seau AWS S3 vers un cluster Hadoop, dans lequel les informations pertinentes sont extraites des données. Ces informations sont ensuite stockées dans des tables SAP Vora, puis chargées via une chaîne de processus SAP BW vers SAP BW/4HANA :
La vidéo de la chaîne YouTube SAP Data Hub suivante vous montre comment un tel scénario peut être mis en œuvre :
SAP HANA Academy – SAP Data Hub : utilisation des chaînes de processus SAP BW