Geschäftskritische Auswertungen in Höchstgeschwindigkeit

Feature | 11. Januar 2005 von admin 0

High Performance Business Intelligence (High Performance BI) kommt allen Unternehmen zugute, die mit großen Datenmengen arbeiten, wie Handelsketten, Versorgungsunternehmen und Telefongesellschaften. Die Datenvolumen werden noch weiter wachsen, wenn neue Technologien wie RFID (Radio Frequency Identification) Einzug halten. High Performance BI hilft besonders Unternehmen, die regelmäßig Abfragen in Datenbanken (Queries) durchführen, bei denen auf Millionen – zum Teil auf bis zu einer Milliarde – Datensätze zugegriffen wird. Auch Anwendungen mit fest vorgegebenen Bearbeitungszeiten werden unterstützt, so etwa bei Betreibern von Call-Centern, die ihren Kunden feste Reaktionszeiten garantieren müssen oder Unternehmen, die mit unvorhersehbaren Abfragetypen auf verschiedenen Datensätzen und Aggregationen arbeiten. (Aggregationen sind Rechenvorgänge, bei denen Daten verdichtet und untereinander abgeglichen werden.) In diesen Fällen greifen herkömmliche Optimierungsstrategien und bisherige Caching-Strategien zur Organisation des Zwischenspeicherns nicht.

Neue Ansätze und Technologien

Die bisher verwendeten Verfahren, um auf BI-Daten zuzugreifen, sind zwar technisch ausgereift, stellen aber besonders hohe Anforderungen an den Administrator. Es ist oft sehr aufwändig, angemessene Reaktionszeiten für schwierige Analyseprozesse zu gewährleisten, etwa bei Abfragen der Verkaufszahlen von Produkten, die nach Artikelnummern und auf Verkaufsgebiete bezogen sind. Der Administrator musste bisher häufig angeforderte Queries analysieren und das Benutzerverhalten untersuchen. Er hatte für häufig abgefragte Daten Aggregate und Datenbank-Indizes aufzubauen und vieles mehr. Dies erforderte spezielles Fachwissen und beanspruchte wertvolle Ressourcen. Antwortzeiten für Queries, bei denen definierte Aggregate und Indexe vorlagen, wurden so zwar verbessert, Antwortzeiten für andere, möglicherweise ähnliche Queries blieben jedoch unverändert. Um die Performance zu optimieren, waren vom Administrator ein differenziertes Urteilsvermögen und viel Erfahrung gefragt.
High Performance Business Intelligence verdankt ihre Stärke neuesten Forschungsergebnissen auf dem Gebiet der Suchtechnologien, insbesondere bei skalierbaren und verteilten Recherchen (attribute search), bei der Datenverteilung und -partitionierung sowie der Komprimierung und Speicherverarbeitung (In-Memory-Verarbeitung). High Performance BI wird durch eine erweiterte Such- und Aggregations-Engine in SAP NetWeaver unterstützt, um strukturierte Geschäftsdaten effizienter und rascher zu verarbeiten.

Entwicklungsteam

Entwicklungsteam

Die Such- und Aggregations-Engine legt Tabellendaten aus Effizienzgründen spaltenweise im Hauptspeicher ab. Diese vertikale Zerlegung von Datentabellen steht der zeilenbasierten Speicherung in herkömmlichen relationalen Datenbanksystemen gegenüber. Bei einer herkömmlichen Datenbank müssen alle Daten in der Tabelle durchsucht werden, wenn kein vordefiniertes Aggregat für die Beantwortung einer Query vorhanden ist. Die neue Engine greift dagegen gezielt nur auf die relevanten Datenspalten zu. Sie sortiert die Spalten einzeln und stellt dann die wesentlichen Einträge an den Anfang. Das verbessert wesentlich die Performance, da die Datenflüsse kleiner sind, und es reduziert erkennbar die Ein- und Ausgabelast sowie den Hauptspeicherverbrauch.
Die Such- und Aggregations-Engine nutzt eine so genannte Dictionary-basierte Komprimierung. Dabei werden ganze Zahlen verwendet, um einen Text oder Werte in Tabellenzellen darzustellen. Die Verwendung ganzer Zahlen ermöglicht eine leistungsfähigere numerische Kodierung und intelligente Caching-Strategien. Wenn eine Spalte beispielsweise tausend Zeilen und einige der Zellen lange Texte enthalten, ist es wesentlich effizienter, zur Verarbeitung die Texte mit Zehn-Bit-Binärzahlen zu kennzeichnen und danach über ein Dictionary wieder aufzurufen. Dadurch lassen sich die Datenmengen, die bei verschiedenen Verarbeitungsschritten übertragen und zwischengespeichert werden müssen, durchschnittlich um den Faktor zehn reduzieren. Dies wiederum ermöglicht, die gesamte Query-Verarbeitung im Hauptspeicher durchzuführen, und reduziert den Netzwerkverkehr in verteilten Landschaften.
Die Engine ist in der Lage, riesige Datenmengen zu verarbeiten, ohne die Grenzen der installierten Speicherarchitekturen zu überschreiten. Früher mussten Datenvolumen von mehr als drei Gigabyte auf der Festplatte gehalten werden, da sie nicht in einen einzelnen Adressraum im Speicher passten. Dank High Performance BI lassen sich nun große Tabellen horizontal aufteilen und auf mehreren Maschinen speichern, wo sie schnell und parallel zu verarbeiten sind. Diese Skalierbarkeit ermöglicht es Anwendern von High Performance BI, hoch entwickelte Adaptive-Computing-Infrastrukturen wie zum Beispiel Blade-Server und Grid Computing zu nutzen.

Bis zu tausend Mal schneller

Die verwendeten Modelle und Algorithmen sind auf die SAP-NetWeaver-Komponente SAP Business Intelligence (SAP BI) maßgeschneidert. Damit sind die Besonderheiten der SAP-BI-Lösung in vollem Umfang zu nutzen, wenn zum Beispiel die Datentypen häufig als ganze Zahlen oder spezielle Tabellentypen in SAP BI definiert sind. Oder wenn Query-Pläne Verknüpfungsanweisungen (Join-Operationen) enthalten, die auf die logischen Datenmodelle von SAP BI (BI-Sternschemata) zugreifen, oder wenn Aggregationen eine hochgradig optimierte, binär codierte Dezimallogik anwenden. Dezimalzahlen werden Ziffer für Ziffer in Binärzahlen umgewandelt, um Rundungsfehler zu vermeiden, die bei Gleitpunktzahlen auftreten. Eine neue Optimierung implementiert die Addition für diese Zahlen flexibler, indem jede Addition in Teile zerlegt wird, die in Prozessor-Registern laufen.
Die Such- und Aggregations-Engine von SAP NetWeaver nutzt alle diese Ansätze und Technologien, um die Performance von SAP Business Intelligence deutlich zu verbessern. Im Vergleich zu herkömmlichen Verfahren bietet die neue Technologie im Durchschnitt die zehnfache Geschwindigkeit. In einigen Fällen sind Queries, die mit High Performance BI durchgeführt werden, sogar bis zu tausend Mal schneller. Auch wird die durchschnittliche Zeit für das Laden von Daten beträchtlich verkürzt.

High Performance BI in Aktion

High Performance BI in Aktion

Die Technologie ermöglicht einen schnellen Zugang zu beliebigen Daten bei geringem Verwaltungsaufwand. Sie beeindruckt insbesondere bei Szenarien mit unvorhersehbaren Abfragetypen, hohen Datenvolumen und hoher Abfragehäufigkeit. High Performance BI ersetzt nicht die vorhandene BI-Technologie, sondern sorgt für eine optimierte Performance. Da das Frontend unverändert bleibt, ist die neue Technologie ohne hohen Schulungsaufwand einzuführen. Unternehmen erhalten so die Möglichkeit, die Geschwindigkeit und Flexibilität von High Performace BI schon vom ersten Tag an zu nutzen, um ihre Geschäftsprozesse zu straffen. Flexibilität ist von entscheidender Bedeutung für wettbewerbsorientierte Unternehmen, die schnell auf neue Anforderungen reagieren müssen und sich mit ihren Innovationen durchsetzen wollen. High Performance BI steigert die Mitarbeiterproduktivität und senkt so die Gesamtbetriebskosten.

Andrew Ross

Andrew Ross

Leave a Reply