Enterprise Data Warehousing mit NetWeaver BI

Feature | 28. Oktober 2008 von Markus Severin, Hewlett-Packard 0

Die EDW-Schichten: Extraktion, DWH und Präsentation Ihre saubere Trennung führt dazu, dass SAP- und Fremddatenbestände (Q1, Q2 etc.) in den eigenen SAP NetWeaver-BI-Datenpool integriert werden können.

Unternehmen stehen häufig vor der Herausforderung, fremde Datenbestände schnell und widerspruchsfrei zu integrieren. Die von Inmon entwickelte Schichten-Architektur schafft einen einheitlichen Datenbestand, auf den alle Abteilungen Zugriff haben. Sie macht die Komplexität der unternehmensweiten Datenintegration beherrschbar und trägt so dazu bei, Fehlentscheidungen zu vermindern und etwaige Informationsverluste ganz zu vermeiden. Das Ergebnis: eine „Quelle der Wahrheit“ (single version of truth), das heißt ein abgestimmtes und übergreifend gültiges Unternehmensgedächtnis.

Die Drei-Schichten-Architektur

Das klassische Enterprise Data Warehouse (EDW) nach Bill Inmon besteht aus drei Schichten:

  • der Extraktionsschicht,
  • der Data-Warehouse-Schicht (DWH) selbst und
  • dem Präsentations-Layer, der die Daten sichtbar macht.

Einen der Hauptpfeiler der EDW-Konzeption bildet die saubere Trennung der drei Schichten und der darauf aufsetzenden Prozesse. Aufgrund technologischer Schwächen konnte diese Trennung in der Vergangenheit jedoch nicht immer konsequent eingehalten werden.

Im ersten Schritt der Trennung müssen sämtliche Fremddaten in die Persistent Staging Area (PSA) des unternehmenseigenen BI-Systems überführt werden. Dabei darf kein Daten verloren gehen, denn häufig sind die benötigten Datensätze später nicht mehr verfügbar. In der Data-Warehouse-Schicht werden die integrierten Daten dann mit den bereits bestehenden harmonisiert.

Keine leichte Aufgabe. Denn Firmen nutzen ganz unterschiedliche semantische Systeme, um ihre Geschäftsprozesse zu modellieren. Beispielsweise erhalten identische Kunden unterschiedliche Kundennummern. Oder hinter identischen Kundennummern verbergen sich unterschiedliche Kunden – die Folge sind Dateninkonsistenzen.

Zwar gibt SAP bereits logische Datenstrukturen und Nomenklaturen vor und hat mit den in SAP NetWeaver BI 7.0 eingeführten schreiboptimierten Data Store Objects (DSO) den Prozess der Integration und Harmonisierung beschleunigt. Das allein reicht aber nicht immer aus.

Daten-Inkonsistenzen vermeiden

Eine elegante Lösung bietet die konkatenierende (vereinende) Schlüsselerweiterung. Das Verfahren bindet Zusatzinformationen in jene Objekte ein, die Daten aufnehmen. Auf diese Weise werden Mehrdeutigkeiten aufgelöst. Die von SAP bereitgestellten Objekte (Business Content) sind dazu jedoch nur teilweise fähig. Sie müssen entsprechend modifiziert werden.

Doch nicht immer sind semantische Inkonsistenzen und Strukturkonflikte mit einer Schlüsselerweiterung lösbar. Ein konsequent dreistufiges EDW-Konzept gibt deshalb ein Regelwerk für den Aufbau eines harmonisierten Data Warehouse vor. Wenn möglich sollten optimierte DSOs für direktes Schreiben in der Data-Warehouse-Schicht eingesetzt werden. Sie verbessern die Leistung. Alternativ bieten sich Standard-Datastore-Objekte an, die über eine Delta-Funktion, also Änderungsprotokolle, verfügen.

Außerdem fließt bei jeder Fremddaten-Integration der Datenstrom direkt von dem PSA der Extraktionsschicht in die Data-Warehouse-Schicht. Erst hier werden die Daten dauerhaft gespeichert und damit das Unternehmensgedächtnis aufgebaut. Daten verschwinden nur nach Datenalterungsvorschrift wieder aus der Extraktionsschicht. Müssen weiter Quellsysteme in das EDW integriert werden, brauchen sie lediglich die Transformation von der Extraktions- in die DWH-Schicht nachzubilden. Dort nutzen die Fremddaten die bereits bestehenden Strukturen wie DSOs, Transformationsregeln, Datentransfer-Prozesse und Infocubes.

Klare Trennung nach Prozessen und Zuständigkeiten

Der aus San Diego, Kalifornien stammende Informatiker William H. „Bill“ Inmon gilt als „Vater des Data Warehousing“. Inmon hat über 35 Jahren Erfahrung in Datenbank-Management und Data Warehouse Design und entwickelte das Konzept der Informationsfabrik (Corporate Information Factory, CIF). Im Jahr 1999 gründete er zum
Thema Data Warehousing und CIF die Website BILLINMON.COM, die sich an Fachleute und Entscheidungsträger richtet. Er verfasste 45 Bücher und gründete mehrere Unternehmen.

Oberste Priorität hat die konsequente Trennung der Schichten durch schichtspezifische Namenskonventionen, Prozesse und Datenstrukturen. Obwohl Erweiterungen erlaubt sind, dürfen die harmonisierten Daten des Unternehmensgedächtnisses nicht gefiltert oder anderweitig verändert werden. Denn die Data-Warehouse-Schicht ist das Informationsfundament des Unternehmens und befüttert die Präsentationsschicht. Von hier aus greifen die verschiedenen Abteilungen auf genau die Informationen zu, die sie benötigen. Alle Analysen und Auswertungen finden deshalb ausschließlich im Präsentations-Layer statt. Reporting-Aufgaben haben im Data Warehouse, also der zweiten Schicht, nichts zu suchen – nur so bleibt die stabile Datenbasis erhalten.

Wichtig ist auch, dass die Zuständigkeiten innerhalb der einzelnen Schichten klar verteilt sind: Das Quellsystem ist zuständig für die Extraktion seiner Daten. Die Verantwortung für die Daten der Data-Warehouse-Schicht obliegt direkt dem DWH-Team. Um die aufbereiteten Informationen der Präsentationsschicht kümmert sich der anfordernde Fachbereich.

Zukunftssicheres Konzept

Die Version 7.0 von SAP NetWeaver BI enthält Integrationsmechanismen wie vorgefertigte Extraktoren für unterschiedlich strukturierte Quellsysteme, die bereits eine Business-Logik enthalten. Andere Content-Objekte sind aber nicht in der Lage, unvorhergesehene Datenstrukturen aufzunehmen. Das beschriebene Entwicklungskonzept für Enterprise Data Warehouses behebt diese Schwächen und gibt Kunden die Mittel an die Hand, auch auf unvorhersehbare zukünftige Herausforderungen schnell, flexibel und kosteneffizient zu reagieren.

Tags: ,

Leave a Reply