Des capteurs aux processus métiers avec les Big Data Services et Data Hub de SAP

Un long chemin mène des capteurs aux processus métiers. Deux solutions SAP facilitent cette intégration : les Big Data Services, qui permettent de disposer d’un cluster Hadoop clés en main d’une part ; l’orchestrateur Data Hub, qui collecte, traite et assemble les flux de données, d’autre part.

Selon une étude de Bain & Company, le marché de l’Internet des Objets (IoT) devrait plus que doubler entre 2017 et 2021, avec des dépenses qui passeront de 235 à 520 milliards de dollars par an. Les datacenters et l’analytique seront les deux secteurs qui connaitront la croissance la plus importante : 50 % par an en moyenne. L’intégration – cruciale dans un contexte Big Data – connaitra pour sa part une croissance annuelle de 40 %.

Cette étude montre bien les défis liés à la montée de l’IoT, qui résident moins dans les objets eux-mêmes que dans les solutions requises pour stocker les données qu’ils feront remonter, les traiter et les intégrer à l’existant.

Les secteurs de l’industrie et des transports devraient massivement utiliser des objets connectés afin de suivre respectivement la production et le déplacement de biens. Mais l’IoT devrait toucher bien d’autres secteurs. Globalement, c’est l’ensemble des entreprises qui pourra tirer profit des deux solutions Big Data présentées ci-après.

Un cluster Hadoop managé

Les capteurs intelligents, logistiques ou industriels par exemple, font exploser le volume de données à traiter par les entreprises. Une offre Big Data en mode Cloud devient alors nécessaire pour stocker ces informations.

Hadoop est une solution Big Data Open Source performante, mais difficile à maitriser. Gérer une plate-forme Hadoop demande des équipes, du temps et des moyens financiers conséquents. Un service managé permet de se délester de cette charge. Issue du rachat d’Altiscale par SAP en 2016, la solution Big Data Services répond à ces critères en proposant un cluster Hadoop managé et prêt à l’emploi.

Les Big Data Services sont proposés sur la SAP Cloud Platform, avec un support assuré par une équipe SAP dédiée, un SLA proche des 100 % et la possibilité de déployer le cluster Hadoop dans toutes les régions du globe… y compris en France. Une véritable offre « Hadoop as a Service ».

Un orchestrateur pour les données

La seconde partie de notre solution s’appuie sur SAP Data Hub, un orchestrateur de données, capable de gérer aussi bien des sources Big Data que classiques.

Il permet tout d’abord de découvrir et gouverner les données. La qualité des informations IoT est évaluée, puis des règles d’accès sont définies. La seconde tâche de Data Hub consiste à gérer les données, qui sont profilées afin d’en déterminer la typologie, afin d’en comprendre les métadonnées. La troisième étape réside dans la mise en place de flux de données corrélant des sources IoT et celles de l’entreprise (CRM, ERP, etc.). C’est à ce niveau que des techniques de Machine Learning et d’analyse prédictive entrent en piste, afin de rendre les processus intelligents.

En résumé, Data Hub évalue la donnée IoT, l’encadre, la structure, puis l’insère dans les flux de données IT traditionnels, en apportant une couche d’intelligence. Par exemple un système de prédiction de panne.

Data Hub, une offre multi cloud et agnostique

SAP Data Hub offre plusieurs avantages, dont la capacité à être déployé sur de nombreuses plates-formes de Cloud public. Cet orchestrateur de données pourra donc être placé au plus près de l’infrastructure Cloud existante des entreprises. Les plates-formes de Cloud public suivantes sont ainsi supportées : AWS d’Amazon, GCP de Google et Microsoft Azure.

Autre point fort, la possibilité de consommer de multiples types de sources de données venant du Cloud, des bases de données ou d’applicatifs IT, via de nombreux connecteurs proposés nativement. Enfin, une architecture par API permettra de se connecter à tous types de services.

Data Hub est un outil IT adapté aux nouveaux métiers que sont les data analysts et data scientists. Là encore, SAP a su atténuer la complexité des solutions techniques employées. Data Hub se décompose ainsi en modules formant autant de conteneurs. Et c’est Kubernetes qui permet d’orchestrer ces différentes images Docker. Cette solution d’orchestration, très tendance dans le monde du Cloud, est aujourd’hui développée par de nombreux acteurs, dont SAP. Et elle est supportée sur les infrastructures Cloud d’Amazon, Google et Microsoft.

Aller au-delà des entrepôts de données classiques

Big Data Services et Data Hub permettent de casser les silos de données, en proposant une approche modernisée et flexible. Les données issues des capteurs sont déversées directement dans le cluster Hadoop fourni par les Big Data Services. Mais, contrairement à un silo de données traditionnel, ce sont des informations non structurées qui sont ici stockées.

C’est au niveau de Data Hub que les données sont évaluées, structurées, traitées puis amalgamées avec les flux classiques de l’entreprise. Le tout suivant des schémas de scheduling particulièrement souples. Nous pouvons ainsi imaginer :

  • des traitements en temps réel pour les informations critiques (panne majeure détectée par les capteurs), éventuellement en liaison avec une infrastructure IT locale ;
  • des traitements effectués à intervalles de quelques heures, par exemple pour suivre la production/distribution des commandes ;
  • des traitements quotidiens, hebdomadaires ou mensuels, suivant les rythmes classiques de l’entreprise.

La durée de traitement peut quasiment descendre jusqu’au temps réel. Mais gare alors à la taille du cluster Hadoop qui recevra et stockera plus de données en provenance des capteurs, tout en étant plus souvent sollicité par Data Hub.

L’IoT, pour quelles industries ?

Il est un domaine où l’usage de l’IoT apparait comme une évidence : les usines. Les capteurs peuvent suivre la production en temps réel et faire remonter toute défaillance. Au plus bas niveau, des systèmes informatiques de proximité (Edge Computing) traitent les cas les plus graves, le reste étant remonté vers le Cloud de l’entreprise. Via l’analytique et le Machine Learning, un système de maintenance préventive peut alors être mis en place.

Autre classique, la logistique, qui utilise des objets connectés pour suivre les colis. Par extension, ce système peut intéresser également le secteur de la finance, en permettant de renforcer la sécurité des transports de fonds (distribution et collecte d’argent).

Le monde de l’énergie profite déjà en partie des bénéfices de l’IoT. Les compteurs intelligents Linky remontent ainsi des données à Enedis, qui peut évaluer les habitudes de consommation des clients et prédire les pics de charge. Les sites de distribution d’électricité vont également adopter l’IoT afin de prévenir tout risque de panne sur le réseau.

Dans le secteur de la santé, les objets connectés pourront être des outils de surveillance du patient, au sein de l’établissement de santé ou à son domicile. Sans oublier les dispositifs directement implantés dans le corps des patients. Ces capteurs permettront de faire remonter les alertes en temps réel, et participeront ainsi à sauver des vies. Connectés, les outils de mesure (tension, rythme cardiaque…) enrichiront plus rapidement les bases de données des chercheurs, qui pourront ainsi améliorer les traitements et affiner les recommandations de santé.

Découvrez le couple Big Data services et Data Hub en action

Venez découvrir les Big Data Services et Data Hub lors de notre atelier organisé dans le cadre du congrès Big Data Paris 2019. Vous y verrez un flux de données IoT issu d’un capteur streamé par la solution Apache Kafka, laquelle remontera les informations vers un cluster Hadoop SAP Cloud Platform Big Data Services. Les données seront ensuite traitées et enrichies par d’autres sources, au travers de SAP Data Hub. Afin d’arriver en bout de chaine à des processus intelligents. Le tout de façon entièrement automatisée.