Vi skal arbejde på data med fuld forretningskontekst og logik så tæt på kilden som overhovedet muligt. Hvis vi bruger fortidens filosofi flytter en stribe gammelkendte problemer med i cloud-æraen.
Mange virksomheder har med kyshånd taget imod mulighederne for at duplikere data over på cloud-platforme for at give forretningen fri leg i sandkassen til innovatrion, analyse og ledelsesinformation.
Men hvis løsningen udelukkende er teknisk, så svarer det til at sætte strøm til forældede forretningsprocesser. Forretningens virkelige problem i forhold til analyse er jo afhængighed af analytikere, arkitekter og data stewards. Og den nisse flytter med, hvis vi bare bruger hyperscalerne som en ny slags data lake (eller snarere ocean!).
Væk fra ETL
Vejen frem er snarere at flytte modelleringen ud til datakilden, og så erkende at det er forrretningen selv der skal kende og styre data og forme analyserne. Det hænger sammen med to megatrends. Nemlig at datamængderne kun har én kurs, og det er vild vækst. Den anden er, at det om få år er utænkeligt at drive forretning uden at have business analytics komplet og aldeles integreret i den ledelsesmæssige hverdag.
Vi skal altså så vidt muligt lægge afstand til fænomenet ETL (extract, transform, load), som jo var bindeleddet mellem operationelle data og data warehouse. Dette tekniske bindeled er både symbolet på forretningens afhængighed af analytisk og arkitektonisk kompetence fra it-funktionen, og det er samtidig en kilde til et af de afgørende problemer ved data warehouse-tilgangen.
Data mister nemlig meget hurtig deres kontekst, når de duplikeres eller transformeres. Det fører til analytiske fejlslutninger eller usikkerhed, når man ikke er 100 pct sikker på historik og sammenhæng omkring de data, man modellerer på. Og man bruger nemt dyrebar tid på at rekonstruere logik og forretningsmæssig kontekst. Her er der faktisk tale om en skjult skat på ens egne data.
Forretningen skal steppe op
Svaret er at skabe adgang til data uanset om de ligger i finans-, planlægnings-, kunde-, leverandør- og forsyningskæde-systemer. Og uanset om de ligger on-premise eller i skyen. Hele dette landskab af data, skal forretningen kunne arbejde med. Uden at skulle flytte dem. Og uden at miste historikken omkring data, fordi de kommer fra en cloud-udbyder eller en anden data-leverandør. Ikke noget med kopier, søer, varehuse og sandkasser. (Så vidt muligt, naturligvis).
For mig at se er det essensen af begreber som data mesh, data fabric og andre toneangivende koncepter. Data skal være løst koblede og de skal ligge solidt og robust på en platform, som giver nem adgang, høj tryghed og fuld kontekst. Og data skal ejes af forretningen.
Målet bør være at nedbryde skellet mellem forretningen og den fulde værdi af data. Barrierer i form af mangel på kompetence, kapabilitet og teknologisk låsning skal væk. Omvendt må forretningen steppe op i forhold til datadisciplin, styring af metadata og analytisk kompetence.
Direkte og ufiltreret adgang
I min optik er det ikke nok at sætte cloud-motoren til at forlænge den klassiske data warehouse-filosofi. Tiden er en anden. Vi skal have samme komponerbarhed omkring data, som vi arbejder på i forhold til funktionalitet.
Endemålet er jo at de forretningsmæssigt ansvarlige selv henter, selv analyserer og selv agerer ved hjælp af data. Det skal være agilt, ufiltreret og direkte. Ingen fordyrende og forsinkende tekniske, organisatoriske eller kompetencemæssige membraner.
I en tid med eksploderende datamængder er der ikke tid, kapacitet, økonomi eller mening i at samle kopier af data i separate miljøer.
Af Thomas Madsen, Head of SAP Data Lab Copenhagen i SAP Experience Center Copenhagen
Oprindelig publiceret i Computerworld den 29. marts 2023.