BI-Analysen von Twitter-Feeds

18. Oktober 2011 von Heather McIlvaine 0

SAP Data Services 4.0 brings meaning to unstructured text (collage: SAP.info)

SAP Data Services 4.0 verleiht unstrukturierten Texten Bedeutung (Collage: SAP.info)

Über SAP HANA wurde viel geschrieben. Sie wissen inzwischen bestimmt, worum es dabei geht: Daten werden columnar in Spalten gespeichert, so dass sie in sehr kurzer Zeit und in großen Mengen abgerufen werden können.

Doch Daten liegen in allen erdenklichen Formen und Größen vor. Während sich strukturierte Daten mit SAP HANA sehr gut verarbeiten lassen, stellen unstrukturierte Daten wie E-Mails, Twitter-Nachrichten, Blog-Beiträge, Sofortnachrichten, Videos und Bilder ein Problem dar.

Unstrukturierte Daten sind eine virtuelle Goldmine, aus der sich Kunden-, Marken- und Markterkenntnisse und sogar Kenntnisse über Kundenabsichten gewinnen lassen. Doch viele Firmen verfügen nicht über die Mittel, aus all diesen Hintergrunddaten relevante Geschäftsinformationen herauszupicken. Laut Nick Halstead, CEO von DataSift, bringt allein Facebook mehr als 20 Terabyte Daten täglich hervor. Wie hoch wird diese Zahl wohl in einigen Jahren sein?

Mit SAP BusinessObjects Data Services sind Unternehmen in der Lage, die Extraktion unstrukturierter Daten aus diversen Unternehmens- und Online-Quellen sowie die Analyse der Informationen zu automatisieren. Seit 16. September ist Release 4.0 der SAP-BusinessObjects-EIM-Lösung verfügbar. Mit diesem Release wurde die Data-Services-Anwendung um fortschrittliche Funktionen der Textanalyse erweitert. Auf den folgenden Seiten erfahren Sie, wie Data Services arbeitet und welchen Nutzen Unternehmen davon haben.

Differenzierte Stimmungsanalysen

Für die Analyse unstrukturierter Daten haben Unternehmen viele Gründe: Sie möchten den Kunden besser verstehen, die Aussagen der Mitbewerber über das eigene Unternehmen verfolgen, sichergehen, dass Mitarbeiter keine sensiblen Unternehmensdaten offenlegen (zum Beispiel Insiderhandel) oder Betrugsfälle aufdecken. Mit SAP Data Services 4.0 lassen sich diese Erkenntnisse gewinnen.

Der erste Schritt besteht im Einlesen der unstrukturierten Daten aus verschiedenen Online- und Unternehmensquellen: Websites, Social-Media-Sites, Antworten auf Umfragen, Contact-Center-Kommentare, gesetzlich vorgeschriebene Archive und Unternehmensunterlagen. Das stellt Unternehmen vor eine große Herausforderung, denn sie haben oft Datenvolumen im Petabyte-Bereich in ihren Datenbanken und verfügen über verschiedene Softwaresysteme, die über den gesamten Globus verteilt sind. SAP Data Services automatisiert diesen Prozess mit einem Datenintegrationswerkzeug für die Komponente SAP NetWeaver Business Warehouse. Sobald die Daten vorliegen, müssen sie im nächsten Schritt „bereinigt“ werden. Das bedeutet, dass beispielsweise Textdubletten entfernt oder Unternehmensnamen standardisiert werden.

Anschließend analysiert SAP Data Services die extrahierten Daten. Das umfasst Informationen wie Schlüsselwörter, Erstellungsdatum, Autor des Beitrags, Namen von Personen, Organisationen, geografische Regionen, Veranstaltungen und Produkte; E-Mail-Adressen, Telefonnummern und Kontonummern; Stimmungen, Einstellungen, Emotionen, Motive und Themen; sowie strukturierte Daten aus Datentabellen.

Linguistische Strukturen im Text machen es der Software möglich, den Text zu „verstehen“ und Themen, Motive und Muster zu erkennen. Die Analyse der Stimmungslage ist ein wichtiger Bestandteil dieses Prozesses. In der Vergangenheit basierte diese Technologie jedoch meist auf Schlüsselwörtern und die Daten wurden einfach in die Kategorien positiv, negativ oder neutral eingeteilt. Die erweiterten Stimmungsanalysen in Data Services 4.0 bringen weit differenzierte Ergebnisse hervor, da sie Gefühle, Meinungen und Kundenabsichten – Kauf eines Produkts oder Kündigung eines Abonnements – berücksichtigen. Dennoch sind Textanalysen nicht immer fehlerfrei. Jargon, Sarkasmus oder Übertreibungen, geschweige denn Rechtschreibfehler oder falsche Informationen, können die Ergebnisse verfälschen.

Eine interessante Funktion von SAP Data Services ist die Anpassung der Wörterbücher und Regeln, die der Textdatenverarbeitung zugrunde liegen. Möchten Sie beispielsweise Daten zu den Fusionen und Übernahmen des letzten Jahres analysieren, können Sie eine Regel definieren, die alle Phrasen mit folgender Struktur extrahiert: „Unternehmen, alle Formen der Verben kaufen, verkaufen oder übernehmen, Unternehmen“. Wenn darüber hinaus Kunden einen inoffiziellen Begriff verwenden, um auf Ihr Produkt zu verweisen, können Sie ihn dem Wörterbuch der Anwendung hinzufügen.

Erkenntnisse aus Datenwirrwarr

Einzig die Analyse unstrukturierter Daten liefert dem Unternehmen noch kein umfassendes Bild. Wahre Erkenntnisse werden erst gewonnen, wenn die Analysen unstrukturierter und strukturierter Daten ineinander greifen. Deshalb bietet SAP Data Services auch eine Anbindung an Vorgangsdaten. So lässt sich Text, der eine E-Mail-Adresse enthält, einem Kundenprofil und der zugehörigen Vorgangshistorie zuordnen. Kenntnisse darüber, ob ein Kunde sich in einem Online-Forum über ein Produkt beschwert hat, sind wichtig. Doch ebenso hilfreich ist es zu wissen, ob es sich um einen Alt- oder Neukunden handelt. Anonyme Beiträge können keinem bestimmten Kunden zugeordnet werden. Dennoch können Einblicke in die Meinung der Kunden zu einer Marketingkampagne mit den Ergebnissen und Verkaufszahlen der Kampagne in Verbindung gebracht werden.

Diese Prozesse – Datenextraktion, Bereinigung und Analyse – laufen alle auf derselben Plattform wie auch SAP BusinessObjects BI. Das bedeutet, Unternehmen brauchen keine zwei getrennten Systeme mehr verwalten, was die Gesamtbetriebskosten senkt. Ferner sind sie in der Lage, ihre vorhandenen Analysen der strukturierten Daten um die Analyse der unstrukturierten Daten zu erweitern.

Aktuell unterstützt SAP Data Services 4.0 sechs Sprachen: Englisch, Französisch, Deutsch, Spanisch, Japanisch und vereinfachtes Chinesisch. Stimmungsanalysen werden für die ersten vier Sprachen unterstützt.  Bis Ende 2011 wird die Anwendung weitere 25 Sprachen unterstützen. Dazu gehören Russisch, Koreanisch, traditionelles Chinesisch, Türkisch und Rumänisch.

Tags: ,

Leave a Reply