Le patrimoine des données stratégiques pour l’entreprise ne se réduit plus aux données structurées qu’elle sait stocker et traiter grâce à l’Analytics» et à la Business Intelligence (BI). Le paysage de la data doit s’ouvrir à de nouveaux horizons et les ingérer.
Entretien avec Olivier Enault, Pre-sale Information Excellence, SAP France
Comment tirer parti des énormes volumes de données, structurées ou non, qui ne résident pas sur le site central de l’entreprise ni dans un ‘data warehouse’ ? Comment valoriser les data provenant de l’IoT, des réseaux sociaux ou de sources exogènes en les recoupant avec celles traitées, stockées en interne? « Il faut pouvoir utiliser quantités de données externes, dispersées et souvent très volumineuses, structurées ou non (Big Data). Aux données du Système d’Information « legacy », il faut pouvoir adjoindre les données provenant des réseaux sociaux, du web ou de l’IoT », répond Olivier Enault.
Nouveau challenge pour les entreprises
Peut-on mettre en place de véritables ‘pipelines’ de traitement de toutes ces données hétérogènes sans les répliquer dans d’énièmes ‘data warehouses’?
« Précisément. Jusqu’ici, le SI des entreprises s’est appuyé sur les données du transactionnel ; et, pour des besoins de reporting et de prises de décision, on puise dans des ‘data warehouses’ qui permettent d’obtenir diverses vues à partir de requêtes modélisées.
La complexité croissante du paysage des data (Source SAP, 01/2018)
Aujourd’hui, la création de ‘data lakes’ (lacs de données) change la donne, avec la multiplication d’offres de stockage de données en mode ‘objets’ sur le Cloud (comme S3 chez Amazon AWS) capables de stocker plusieurs téra-octets. Il n’est plus question désormais de dupliquer ni de réinstaller de tels volumes de données sur un nouveau ‘data warehouse’ qui réunirait différents silos de données : « cette nouvelle approche conduit à construire des processus de traitement de bout en bout, en temps réel ou quasi temps réel, en laissant les données là où elles sont stockées. Elles peuvent se trouver à distance, sur d’autres sites – data centres déportés, établissements secondaires, entrepôts, sites de production… »
Les atouts de SAP Data Hub
Comment l’offre SAP Data Hub, introduite en septembre 2017, répond-t-elle à ces enjeux ?
« En pratique, elle permet de connecter une chaîne de traitement de données à différentes sources et supports de data, en local et à distance. La solution réalise toutes les opérations utiles : préparer les sources de données, nettoyer les données, les filtrer, les valider, en vérifier l’authenticité, pour pouvoir ensuite les combiner, les croiser avec différentes sources rendues accessibles. Elle orchestre et gère l’intégration entre données et processus métier dans l’ensemble du paysage data de l’organisation. Elle introduit des fonctions de surveillance. Ce qui permet de dépasser les limites entre Big Data et données d’entreprise, que ce soit ‘On Premise’ et/ou sur le Cloud. SAP Data Hub optimise également la vitesse d’exécution du pipeline de données avec un “push-down” ».
L’architecture de SAP Data Hub (source SAP, 09/ 2017)
Les environnements visés sont d’abord ceux du ‘Big data’ – des quantités de données emmagasinées en tera-octets, voire en péta-octets, dans des ‘frameworks’ Hadoop. Ceux-ci facilitent la création d’applications distribuées et « échelonnables », potentiellement sur des milliers de nœuds de traitement. « Ces données peuvent être croisées avec les « master data », c’est à dire les données du transactionnel « classiques » au sein du Système d’Information de l’entreprise. Il devient ainsi possible de construire, entre autres exemples, des profils de clients en combinant et recoupant des données qui peuvent résider partiellement sur des bases Hadoop et partiellement sur les bases de données relationnelles du SI ‘legacy’ de l’entreprise (comme SAP BW). La nouvelle voie consiste donc à réaliser des workflows capables de chainer des traitements exécutables de bout en bout. »
Des enjeux de gouvernance
Ces nouvelles approches sur le traitement de données multi-sources, multi-formats, structurées et non structurées, impliquent-elles de mettre en place une nouvelle gouvernance ?
« Elle n’existe pas dans les solutions Hadoop. Beaucoup de projets Big Data et IoT ont été initiés par différentes équipes – l’IT d’un côté, les métiers de l’autre ou parfois même au sein de la DSI – travaillant en parallèle sans réelle concertation. Certains projets ont démarré de façon isolée sur le Cloud public, avec des ‘data scientists’ qui ne maîtrisaient pas toutes les données ‘métier’ de l’entreprise. Or, il devient indispensable de s’organiser face à la complexité croissante du paysage des données. La synchronisation des data en temps réel devient également un enjeu important. »
La solution proposée doit donc permettre de construire de nouvelles relations autour des chefs de projets, entre les métiers et les spécialistes data, en y impliquant des dirigeants et des responsables de départements fonctionnels au sein de l’entreprise ?
« L’un des enjeux consiste notamment à structurer et définir les métadonnées. L’organisation doit, entre autres priorités, se déterminer sur ce que doit être le contenu des données dans Hadoop et quelle est la meilleure façon de les recouvrer. Elle doit également fixer et distribuer les droits d’accès aux informations, en fonction de profils ou groupes d’utilisateurs. »
Les technologies mises en œuvre
Au vu les volumes de données utilisées, sur quoi fonctionnent ces traitements massivement distribués ? Le ‘In-Memory’ s’impose-t-il?
« Pour des questions de coûts, ils s’appuient le plus souvent sur du ‘Serverless computing’, c’est à dire sur le Cloud public – donc des environnements virtualisés où l’allocation des ressources systèmes est allouée dynamiquement, et facturée, en fonction des flux de traitement (comme dans le cas d’AWS Lamda, ou d’Azure Functions). Ce mode de fonctionnement est compatible avec celui des microservices propres aux technologies de conteneurisation, comme Docker, Kubernetes, généralement sur des plateformes Nodes.js, Python, Scala, PHP, etc. Le traitement en mémoire, SAP HANA, n’est pas nécessairement utilisé ici, même si ce peut être le cas ».
Big Data, IoT et Machine Learning
Les applications se développent de plus en plus dans l’univers IoT : des milliers, voire des millions d’objets connectés, commencent à alimenter des bases Hadoop ou AWS S3.
« En conséquence, les données recueillies, stockées dans des ‘data lakes’ vont nécessiter des traitements Big Data en ‘pipelines’ et vont de plus en plus bénéficier de process d’apprentissage automatique ou « Machine Learning ». Beaucoup de cas d’applications IoT / Big Data voient le jour : « Dans la distribution ou les services, il va s’agir de traiter de multiples données, anonymisées ou non (selon l’accord des intéressés), transmises par des équipements à partir desquelles peut être établie une segmentation des profils d’utilisateurs, en fonction des tranches d’âge, de la situation géographique, des habitudes d’achat, etc. Il est alors possible de mieux cibler les offres. Le Machine Learning apporte des possibilités nouvelles ».
Et dans l’industrie ?
« Sur les chaînes de production, les données provenant de caméras vidéo (avec analyse d’images) et de capteurs (température, hygrométrie, comptage par lots avec horodatage, etc.) permettent de réaliser de la maintenance préventive et d’automatiser et d’optimiser le contrôle de qualité. Il s’agit bien là de traitements de bout en bout, à partir de données brutes, depuis le monitoring de surveillance jusqu’à des tableaux de bord et rapports détaillés permettant de remonter à la source – telle donnée horodatée de tel capteur. »
Par rapport aux ‘data warehouses’ déjà existants, les ‘data lakes’ en cours de constitution présentent-ils plus de complexité ?
« Oui, du fait des traitements massivement distribués, il devient plus difficile d’avoir une vue globale. L’orchestration de l’ensemble doit être effective et la traçabilité des données rigoureuse. En résumé, on sait aujourd’hui porter ce type d’applications Big Data / IoT sur des infrastructures Cloud mais les questions d’organisation et de gouvernance de la data restent critiques ».