Smart Data braucht eine Modernisierung der BI-Landschaft
(Den Artikel als PDF downloaden)

Restriktionen traditioneller Business Intelligence und ihrer Architektur

In vielen Unternehmen wurde in den vergangenen Jahren oder sogar Jahrzehnten eine Data Warehouse (DWH)-basierte Anwendungslandschaft aufgebaut, um mit Hilfe von Berichten und Analysen das Performance Management und die strategische und taktische Entscheidungsfindung im Unternehmen zu unterstützen und so Business Intelligence (BI) zu etablieren. Die Basis hierfür bilden hauptsächlich unternehmensinterne, strukturierte Daten aus transaktionalen Systemen, die zu entscheidungsunterstützenden Informationen – meist in Form von Berichten oder Management Dashboards – aufbereitet werden. Die zur Verfügung stehenden Datenquellen und BI-Technologien sowie die organisatorischen Rahmenbedingungen in den Unternehmen bestimmen dabei maßgeblich, inwieweit sich der Anspruch von Business Intelligence in der Praxis tatsächlich umsetzen lässt. Erfahrungsgemäß gehören die folgenden Punkte zu den häufigsten Defiziten:


  • Mit Hilfe von Daten wird ein Bild oder Modell von Zuständen der realen Welt geschaffen. Je mehr relevante Daten in die Modellierung einfließen, umso genauer und aussagekräftiger kann ein solches Bild sein. Die in der traditionellen BI zur Verfügung stehenden internen Datenquellen können beispielsweise gut für das Controlling genutzt werden. In Bereichen wie der Markt- und Kundenentwicklung oder für strategische Geschäftsentscheidungen wird jedoch auf diese Weise nur ein eher grobes, unvollständiges Bild der realen Welt gewonnen, was sowohl die Aussagefähigkeit von Kennzahlen als auch die Qualität der entwickelten Modelle und darauf basierender Entscheidungsvorschläge oder Aktionen einschränkt.
  • Häufig befinden sich noch Versionen von Frontend-Werkzeugen im Einsatz, die Endanwendern die Analyse von Daten nur in begrenzten, vordefinierten Datenräumen mit vordefinierten Analysepfaden und im Rahmen der strikten Governance der traditionellen DWH/BI-Umgebung erlauben. Das ist für das Management Reporting durchaus ausreichend, nicht aber für Datenanalysen im Sinne von Smart Data.
  • Der Wunsch nach korrekten Daten, der sich im DWH als Single Point of Truth manifestierte, führt zu teils erheblichen Verzögerungen in der Informationsbereitstellung, so dass die Informationen nicht für zeitnahe Entscheidungen und die operative Entscheidungsfindung innerhalb der Geschäftsprozesse zur Verfügung stehen.
  • Das Anbinden neuer Datenquellen und die Aufbereitung und Integration der neu gewonnenen Informationen in das DWH bzw. die BI-Landschaft sind sehr zeit- und arbeitsaufwändig.
  • DWH/BI-Projekte sind häufig immer noch IT-getrieben und die zur Verfügung gestellten Kennzahlen und Datensichten entsprechen in puncto Informationsgehalt und Analysekomfort oder Flexibilität nur eingeschränkt dem tatsächlichen fachlichen Bedarf.
  • Häufige Datenreplikationen, z. B. vom DWH in unterschiedliche Data Marts mit speziellen Datensichten für einzelne Fachabteilungen oder für spezielle Analysen (Data Mining) führen zu einer komplexen Datenhaltungslandschaft mit hohen Kosten.


Innerhalb der traditionellen BI wurde und wird kontinuierlich an Verbesserungen gearbeitet, was sich in Konzepten wie operational BI, verbesserter Benutzerfreundlichkeit der Analyse- und Reportingwerkzeuge, der Einbindung regelbasierter Systeme für das Auslösen von Aktionen sowie der beginnenden Nutzung nicht-relationaler Datenbanken und in Memory Technologie zur performanten Verarbeitung großer Datenmengen widerspiegelt. Aber diese Modernisierungen verlassen nicht das Schema der klassischen DWH/BI-Schichtenarchitektur mit dem unternehmensweiten Data Warehouse (EDWH) als Idealbild und Zentrum. Die überwiegende Informationsnutzung bleibt auf das Management Reporting ausgerichtet, agiles Handeln auf Basis zeitnaher Informationen und Analysen kann nicht ausreichend unterstützt werden.



Die Digitalisierung als Treiber für Smart Data

Aber nun rüttelt die rasant zunehmende Digitalisierung der Informations- und Kommunikationsprozesse mit neuartigen Datenquellen und stetig wachsenden Datenvolumina an den Grundfesten der Informationsnutzung durch die traditionelle BI. Kaum ein Unternehmen kann sich den Auswirkungen der umfassenden Digitalisierung entziehen. Um wettbewerbsfähig zu bleiben, müssen Unternehmen kurzfristig auf immer mehr Signale von außerhalb des Unternehmens, d. h. des Marktes, ihrer Kunden oder selbst auf politische Ereignisse, adäquat und in kürzester Zeit reagieren oder sogar proaktiv agieren können. Das bedeutet, Informationen nicht nur für ein Management- Reporting, sondern umfassend zur Analyse und Steuerung aller Unternehmensbereiche zu nutzen, die eigenen Geschäftsmodelle auf den Prüfstand zu stellen und interne Prozesse durch Digitalisierung besser an die Markt- und Kundendynamik anzupassen. Dies verlangt geradezu danach, die Umsetzung des ursprünglichen Anspruchs von Business Intelligence mit neuen Mitteln zu ergänzen und sich zu einem geschickt und agil agierenden Unternehmen zu wandeln.

Wenn die Überzeugung zu diesem Wandel im Unternehmen erst einmal da ist, so wächst der Bedarf an Informationen und ihrer Verfügbarkeit rapide. Entscheider wollen alle Möglichkeiten ausschöpfen, um ein genaueres Abbild der Realität und damit eine bessere Entscheidungsgrundlage zu erhalten. Die Informationen sollen möglichst sofort und ohne große Vorverarbeitung für Analysen und Entscheidungsprozesse zur Verfügung stehen oder auch direkt in die Geschäftsprozesse integriert werden, je nach Erfordernis auch in Real-time. Entscheider wollen selbst in der Lage sein, Daten aus ihrem fach- Smart Data braucht eine Modernisierung der BI-Landschaft Dr. Gisela Löbel lichen Kontext heraus zusammenzuführen, zu analysieren und aufzubereiten. Und das auf ihnen gemäße, smarte Art und Weise. Für die Realisierung dieser Ansprüche hat sich der Begriff „Smart Data“ eingebürgert, worunter man eine smarte, d.h. geschickte und kluge Datennutzung versteht, die die Restriktionen der traditionellen BI überwindet.

Somit werden die Herausforderungen der Digitalisierung in Verbindung mit neuen Technologien zur Verarbeitung von Big Data zum Haupttreiber für die Modernisierung der BI-Landschaft.



Für eine smarte Datennutzung benötigte Fähigkeiten

Zurzeit probieren etliche Unternehmen die Verarbeitung von Big Data mit Hadoop und weiteren damit verbundenen Technologien und Systemen aus. Etwas überraschender Weise wird dabei manchmal händeringend nach geeigneten Use Cases gesucht, d.h. die Unternehmen sind noch nicht überzeugt davon, ob sie die neuen Technologien benötigen, haben andererseits aber auch Angst, eine Entwicklung zu verschlafen. Deshalb hat das Ausprobieren seine Berechtigung. Es kann aber eine Modernisierungsstrategie nicht ersetzen.

Ein sicherer Weg zu einer zukunftsorientierten BI-Architektur für eine smarte Datennutzung verläuft über den klassischen Ansatz einer BI-Strategieentwicklung, der sich an den geschäftlichen Anforderungen und den zu ihrer Umsetzung benötigten Fähigkeiten zur Gewinnung, Bereitstellung und Handhabung von Informationen orientiert. Bei der Entwicklung einer Strategie und Roadmap für eine BI-Modernisierung im Kontext von Smart Data liegt der Schwerpunkt auf der Ausbildung organisatorischer und IT-gestützter informatorischer Fähigkeiten, um sich den oben genannten Herausforderungen zu stellen.

Dazu zählen Fähigkeiten wie

  • Erkennen und Nutzbarmachen relevanter unternehmensinterner und -externer, auch nichttransaktionaler Datenquellen. Dazu gehören beispielsweise Informationen aus allen digitalen Kanälen, über die ein Kunde mit einem Unternehmen direkt kommuniziert, Informationen aus Social Media (z. B. Twitter, Foren, Blogs), RFID-Daten, Daten von Sensoren, aus M2M-Kommuniktion oder aus dem Internet of Things (IoT).
  • Aus diesen Daten aus unterschiedlichen Blickwinkeln heraus Informationen effizient zu extrahieren und mit der vorhandenen BI-Architektur zu integrieren. Dabei auch absichtslos auf die Daten zu schauen, sie für sich sprechen zu lassen und daraus neue Ideen zu generieren oder bisher unbekannte Wechselwirkungen aufzudecken.
  • Die Daten aus den neuen Quellen unter Einbeziehung von Informationen aus dem traditionellen DWH umfassend und mit fortgeschrittenen Methoden (Advanced Analytics) – bei Bedarf auch in Real-Time – zu analysieren. Dabei auch Verfahren zur Vorhersage einzusetzen oder sogar vorschrebende, d.h. eine vordefinierte Reaktion auslösende, Modelle zu entwickeln.
  • Offline entwickelte Modelle direkt in Geschäfts- oder Entscheidungsprozessen verfügbar zu machen.
  • Den Anwendern größtmögliche Freiheit und Flexibilität zu geben, um aus ihrem fachlichen Blickwinkel heraus Daten auszuwählen, zusammenzuführen und zu analysieren, und zwar ohne zeitliche Verzögerung durch den Umweg über das DWH.
  • Informationen zu teilen und damit die Zusammenarbeit bei der Entscheidungsfindung zu unterstützen (kollaborative BI).
  • Auf eingehende Informationen (Events) in (near) Real-Time reagieren zu können.
  • Systemseitig mit den wachsenden Datenvolumina zu skalieren und die Kosten im Zaum halten zu können.


Vor einer BI-Modernisierung sollte im Unternehmen geklärt werden, in welchem Tempo und mit welchen Prioritäten die einzelnen Aspekte von Smart Data umgesetzt werden sollen, welche Fähigkeiten in welcher Ausprägung wann und wofür konkret benötigt werden. Für welche Fragestellungen können neue Datenquellen tatsächlich geschäftlichen Nutzen bringen? Für welche Geschäftsprozesse ist Kundeninteraktion in Real-Time tatsächlich erforderlich? Welche neuen Analysen sollen von wem und für welchen Zweck durchgeführt werden? Welcher Grad an Autonomie wird für welche fachlichen Nutzer und für welche Aufgaben benötigt? Welche Anforderungen an Datenqualität, Governance und Datenmanagement ergeben sich aus den neuen Aufgabenstellungen? Wie hoch sind die Last und die Performance in der vorhandenen BI-Architektur? Wie hoch sind die Kosten und mit welchem Wachstum muss bei steigenden Datenvolumina gerechnet werden? Kurz gesagt: Es sind alle typischen Schritte von der Datenakquise über die Speicherung und das Datenmanagement bis hin zur Nutzung durch die Endanwender sowie zu Kosten und Performance zu hinterfragen und in Architekturanforderungen zu übersetzen. Wobei eines klar ist: smarte Datennutzung durch die Endanwender bedingt einen passenden Unterbau, der alle Schichten der Architektur und die übergreifenden Datenmanagementkomponenten tangiert.



Neue BI-Architekturkomponenten und ihre Integration mit dem traditionellen DWH

In der gegenwärtigen Diskussion zur BI-Modernisierung besteht weitgehende Einigkeit darüber, dass das traditionelle DWH mit seinen qualitativ hochwertigen Daten weiter seine Daseinsberechtigung hat. 1 Nur sehr wenige Unternehmen planen eine komplette Ablösung in einer Hadoop-basierten Umgebung. Dagegen findet ein hybrider Modernisierungsansatz, der eine Erweiterung der traditionellen DWH/BI-Architektur und ihre Integration mit neuen Komponenten unterstützt, breite Resonanz.

Die neuen, zusätzlichen BI-Architekturkomponenten fokussieren auf die Verarbeitung polystrukturierter Daten aus neuen, digitalen, meist unternehmensexternen Datenquellen (Big Data). Wenngleich Informationen aus den neuen Datenquellen auch in das Management Reporting einfließen können (z. B. zur Auswertung der Effizienz des Internetauftritts), so liegt der Schwerpunkt doch eindeutig auf der Seite von Analytics mit einer hohen Dynamik. Von verschiedenen Anbietern werden Architekturmodelle für die DWH-Erweiterung vorgeschlagen und auch mit entsprechenden Plattformen und Softwarelösungen untersetzt. Dieser Beitrag beschränkt sich toolunabhängig auf die logischen Architekturkomponenten wie sie z. B. von Claudia Imhoff und Colin White 2 beschrieben werden. In Anlehnung an diese Quelle sind es vor allem drei neue Komponenten, die für die agile Verarbeitung polystrukturierter Daten benötigt werden:



1. Information Extraction

Durch die Digitalisierung entstehen sehr viele neue Datenquellen mit neuartigen Datenstrukturen (z. B. Texte, Bilder, Videos, Sensorsignale), die herangezogen werden können, um ein genaueres Abbild von Zuständen und Vorgängen in der realen Welt zu gewinnen und diese Informationen zum Vorteil des Unternehmens zu nutzen. Aber nicht aus jeder neuen Datenquelle lässt sich a priori ein Mehrwert generieren. Smarte Datennutzung fängt an, wenn im Rahmen einer konkreten fachlichen Aufgabenstellung untersucht wird, welche klassischen und neuen Quellen für die Aufgabenstellung zwingend erforderlich sind und welche Quellen zusätzlich im Sinne der Verfeinerung des Realitätsabbildes herangezogen werden können. Momentan wird aufgrund kostengünstiger Möglichkeiten zur Datenhaltung der Ansatz vertreten, alle verfügbaren Daten zunächst im Originalzustand zu speichern und erst im Kontext einer konkreten Aufgabenstellung diese Daten im Hinblick auf ihren Informationsgehalt zu prüfen, sie zu verstehen und ihre Qualität einzuschätzen. Genau diesem Zweck dient die Information Extraction-Komponente. Hier werden die detaillierten Rohdaten im Batch Mode oder in Real-Time in einem relationalen oder nicht-relationalen Data Store (Data Lake 3), z. B. in einem Hadoop-File System gespeichert. Auf diese Rohdaten kann im Idealfall ohne weitere Einschränkung als datenschutzrechtlich unbedingt notwendig zugegriffen werden, um schnell interessante Daten zu finden und über den Wert einer Datenquelle für eine bestimmte Aufgabenstellung zu entscheiden. Relevante Informationen werden extrahiert und an andere Komponenten zur Weiterverarbeitung weitergeleitet. Dies kann eine der beiden anderen neuen Komponenten sein oder auch die Datenintegrations-Plattform des DWH.

Diese Komponente kann auch als Sandbox genutzt werden, um ohne großen Integrationsaufwand zu prüfen, ob eine bestimmte Datenquelle von Wert für das Unternehmen sein kann. Bei positivem Ausgang werden die entsprechenden Daten regelmäßig abgezogen und in den Data Lake integriert.



2. Investigative Computing Platform

Diese Komponente dient zur hoch performanten Datenexploration auf den vollen Daten (statt auf Stichproben). Die Daten dafür kommen aus der Information Extraction-Komponente und werden für die Analyse oder Modellentwicklung ggf. mit Daten aus dem DWH oder aus Data Marts zusammengeführt. In dieser Komponente erfolgt die offline-Entwicklung analytischer Modelle mittels Data Mining, z. B. für die Score-Entwicklung, Ursache-Wirkungs-Analysen, Was-wäre-wenn-Analysen, die Entwicklung von Business Rules oder für die Mustererkennung. Aber auch freie, ungeplante Datenanalysen werden durchgeführt, um bisher unbekannten Effekten auf die Spur zu kommen, z. B. veränderte Marktbedingungen frühzeitig zu erkennen und schnell darauf reagieren zu können.

Auch die Investigative Computing Platform kann als Sandbox genutzt werden und damit dem experimentellen Charakter erster Analysen Rechnung tragen.

Als technologische Basis gelangen in dieser Komponente hoch performante Datenbanken für relationale Daten (z. B. in Memory oder spaltenorientierte Datenbanken) oder Hadoop-basierte Technologie für polystrukturierte Daten zum Einsatz.

Die entwickelten Modelle und produzierten Analyseergebnisse können innerhalb der dritten neuen Komponente, der Real Time Analytics Platform, genutzt werden, an das DWH bzw. Data Marts oder an das CRM System weitergeleitet werden oder als direkter Input für Entscheidungen innerhalb von Geschäftsprozessen dienen.



3. Real-Time Analytics Platform

In dieser Komponente erfolgt die Real-Time Analyse von eingehenden Daten (z. B. Web Events, Sensordaten, IoT-Daten, Börsendaten), verbunden mit der unmittelbaren Auslösung einer Aktion bzw. Reaktion. Die benötigten analytischen Modelle werden entweder hier entwickelt oder aus der DWH-Umgebung oder der Information Extraction-Komponente importiert. Die Real Time Analytics Platform wird zur unmittelbaren Steuerung in Produktions- oder Serviceprozessen oder für Entscheidungen innerhalb von Geschäftsprozessen genutzt und gelangt darüber hinaus auch im operativen Performance- und Finanzmanagement zum Einsatz. Beispiele sind personalisierte Marketingaktionen in Real-Time, die Risikoanalyse von Finanzdaten oder die Verkehrsflussoptimierung. Auch für das Erkennen von Korrelationen in Datenströmen (z. B. zwischen Wetter und Produktverkäufen) kann die Komponente eingesetzt werden.



Datenmanagement in der erweiterten BI-Architektur


Die im vorigen Abschnitt beschriebenen drei Komponenten bilden das strukturelle Grundgerüst der Architekturerweiterung. Ihre vollständige Kontur erhält die Smart Data Architektur aber erst durch die spezifischen Regeln zum Datenmanagement (inklusive Datenqualitäts- und Metadatenmanagement sowie Data Governance) innerhalb der neuen Komponenten und die Integration mit den bestehenden Prozessen und Regelungen der traditionellen DWH/BI-Architektur.

Zunächst muss auch für den neuen Architekturbereich ein End- to-End-Datenmanagement etabliert werden. Dabei wird im ersten Schritt auf eine Datenmodellierung und Datentransformation verzichtet. Die Rohdaten werden in ihrer originären Form geladen. Eine Strukturierung und Interpretation (Semantikzuweisung) sowie ggf. Transformation erfolgt erst bei beabsichtigter Nutzung der Daten. Aus dem klassischen ETL-Prozess wird somit ein ELT-Prozess (Extract- Load-Transfer).

Es wird ein spezifisches Datenmanagement benötigt, um den Überblick über den Inhalt des Data Lake zu behalten, z. B. strenge Regeln für die Identifikation der Files und die Metadaten-Tags festzulegen.

Damit der Data Lake in der beabsichtigten flexiblen Weise genutzt werden kann, müssen die normalerweise geltenden Regeln zur Datennutzung und zum Datenmanagement abgeschwächt werden. So sollte innerhalb der Data Extraction Platform jeder Analysespezialist oder Fachanwender (via Frontendtool) bei Bedarf freien Zugriff auf Daten aus dem Data Lake haben. Die Datenqualität der Rohdaten wird nicht verändert, weil dies für eine Erstinspektion der Daten nicht erforderlich ist. Auch Anforderungen an Privacy können unter Einhaltung gesetzlicher Bestimmungen abgeschwächt werden, so lange die Daten keiner Verwendung zugeführt werden. Kommt man beim Erproben zu dem Schluss, dass eine Datenquelle künftig nicht genutzt werden soll, dürfen diese Daten auch aus dem Data Lake wieder gelöscht werden.

Soll eine Datenquelle dagegen künftig regelmäßig genutzt werden, so sind für die aus dem Data Lake extrahierten Informationen und deren weitere Aufbereitung Regeln für Data Privacy, Datensicherheit sowie Data Governance festzulegen. Dafür kann die Verfahrensweise für das DWH auf diese Daten ausgedehnt werden. Eine Ausnahme kann es für eine separate Umgebung für das Ausprobieren (Sandbox, Laboransatz) geben, die keine Verbindung zur Produktivumgebung hat. In dieser Umgebung können Fachanwender und / oder Analysespezialisten die Daten nach allen Regeln der Kunst analysieren. Dafür muss ggf. auch der virtuelle Zugriff aus Daten aus dem DWH von dieser Umgebung aus gewährt werden. Alle aus dieser explorativen Arbeit entstehenden Ergebnisse, die produktiv genutzt werden sollen, unterliegen dann in ihrer Verwendung wieder den üblichen strengen Regeln.

Auf die beschriebene Weise kann ein Interessenausgleich erfolgen zwischen den Endanwendern, die möglichst viel Analysefreiheit und Flexibilität wünschen und dem berechtigten Interesse der IT, in dieser komplexen Umgebung nicht im Chaos zu versinken.

Letzteres kann auch dann leicht passieren, wenn dem Erstellen und der Pflege eines Business Repository nicht genügend Aufmerksamkeit geschenkt wird. Das Repository sollte alle Bereiche umfassen, sowohl das DWH als auch alle interpretierten Daten, die aus dem Data Lake extrahiert wurden. Das Repository bildet das Nachschlagewerk für die Fachbereiche über die fachlichen Inhalte der erweiterten BI-Landschaft und ist Voraussetzung für eine korrekte Nutzung der Daten. Analysefreiheit ohne diese Kenntnisse wird alles andere als smart.

Am oberen Ende der Smart Data-Architektur stehen die Frontend- Tools mit ihren Fähigkeiten. Die Auswahl des richtigen Tools orientiert sich an den Aufgaben (Use Cases), die von der jeweiligen Anwendergruppe auszuführen sind. Für die Realisierung von Smart Data muss hier eine breite Palette möglich sein: die Erstellung flexibler Berichte auch jenseits vordefinierter Hierarchien, die Erstellung von Dashboards, die Durchführung von ad hoc Abfragen, die Ausführung einfacher Datenanalysen, Self Service BI im abgesteckten Umfeld usw. Entsprechende Tools sind am Markt verfügbar und somit ist eine Modernisierung auch in diesem Bereich möglich, wenn zuvor der datenseitige Unterbau durch eine erweiterte BI-Architektur geschaffen wurde.



Smart Data nur im Kontext von Big Data?

In den vorigen Abschnitten wurde bei der Modernisierung stark auf die Einbindung neuartiger Datenquellen fokussiert. Aber auch für Unternehmen, für die solche Datenquellen vielleicht (noch) nicht signifikant sind, kann die Notwendigkeit zu mehr Agilität, Flexibilität und Einbindung von Informationen in die Geschäftsprozesse bestehen. In diesem Fall kann ein zweiter Datenstrang parallel zum DWH aufgebaut werden, der den bisher häufig vorhandenen Operational Data Store ersetzt oder diesen auf eine performante Datenbanktechnologie zieht. Bei täglicher oder sogar mehrmaliger untertägiger Beladung macht ein solcher Datenpool durchaus Sinn und ermöglicht unter Verwendung derselben Komponenten und Mechanismen wie oben beschrieben zeitnahe Analysen auf Basis der verfügbaren Datenquellen und eine smarte Datennutzung.



Download

Laden Sie sich hier den vollständigen Artikel zum Thema "Smart Data" herunter und erfahren Sie, wie Sie Ihre BI-Landschaft modernisieren können: Download PDF "Smart Data"