Was genau versteht man unter dem Begriff Data Fabric?
Heiko Lenzing: Data Fabric ist ein Architekturmuster, um die vielfältigen Herausforderungen mit verteilten Daten zu adressieren, dass also unterschiedliche Quellen in einer Hybrid- und Multi-Cloud-Landschaft dynamisch orchestriert werden können, um geschäftsfähige Daten bereitzustellen, die Anwendungen, Analysen und die Automation von Geschäftsprozessen unterstützen.
Einfach gesagt: Es hilft Unternehmen dabei, den Bedarf der richtigen Daten zur richtigen Zeit, zu optimalen Kosten und mit durchgängiger Governance zu erfüllen, unabhängig davon, wo die Daten gespeichert sind.
Welche Herausforderungen haben Unternehmen im Datenmanagement?
Heiko Lenzing: Unternehmen fehlt die Transparenz, welche Daten sie besitzen und wo sich diese befinden. Es ist unklar, wie die Datennutzer den erforderlichen Zugriff erhalten können. Nicht zuletzt ist die Qualität der Daten nicht bekannt.
Deshalb führt die Bereitstellung von Daten zu hohen Aufwänden. Viele Daten werden erst gar nicht für Analysen erschlossen, die Eignung der Daten für eine bestimmte Analyse ist nicht bekannt.
Dann haben die Unternehmen Schwierigkeiten mit der Umsetzung der Governance. Die Qualitätsregeln und Zugriffsrechte müssen in Regelwerken gepflegt werden, nicht nur zu Beginn definiert. Hinzu kommen die Compliance-Anforderungen wie die Datenschutz-Grundverordnung (DSGVO / GDPR) und andere, teils branchenspezifische Anforderungen.
Durch die unvollständige Umsetzung der Compliance-Vorgaben drohen den Unternehmen Sanktionen, darunter erhebliche Bußgelder bei Verletzung der DSGVO. Die unzureichende Datenqualität und die fehlende Transparenz führen zu hohen, immer wiederkehrenden Aufwänden, wenn Daten zugänglich gemacht und genutzt werden sollen. Nicht zuletzt können die Unternehmen das enorme Potenzial, das in den Daten liegt, nicht umfassend für sich nutzen.
Was bietet Data Fabric im Vergleich zu einer klassischen Datenmanagement-Lösung?
Heiko Lenzing: Wenn man es im Rückblick betrachtet, was Unternehmen bisher im Datenmanagement für analytische Anwendungen getan haben, ging es zum einen darum, mit den vorhandenen Datensilos umzugehen und Data Warehouses aufzubauen, mit dem Ziel, die Datenstrukturen zu vereinheitlichen. Dann ging es darum, möglichst alle Daten in einem Repository vorzuhalten, einem Data Lake, der einfachen Zugang zu den Daten verschaffen sollte. Maßstab bei Datenmanagement und Datenhaltung waren und sind am Ende allerdings immer die operativen Applikationen, die mit den Daten arbeiten.
Data Fabric hingegen macht die Daten zugänglich, indem es die Nutzung abstrahiert von der Zugriffsmechanik, wie ich es gerne nenne, also den notwendigen Verfahren, um auf die Daten zugreifen zu können. Die Nutzer müssen sich nicht darum kümmern, wie sie auf die Daten zugreifen können, die Daten sind für den Nutzer einfach und unkompliziert verfügbar.
Gleichzeitig setzt Data Fabric die Data Governance durch, indem die Bereitstellung der Daten für den Nutzer bereits alle Vorgaben und Regelwerke berücksichtigt, der Nutzer muss sich nicht mehr darum kümmern und das Unternehmen begegnet potenziellen Risiken bei der Datennutzung.
Damit reduziert Data Fabric die Aufwände im Datenmanagement drastisch, die Zugriffe auf die Daten werden enorm beschleunigt, die Datenqualität wird sichergestellt und die Datennutzung folgt den durch das Unternehmen und die Compliance vorgegebenen Regeln.
Welche Rolle spielt hierbei Data Virtualization?
Heiko Lenzing: Datenvirtualisierung ist eine der Technologien, die in einer Data Fabric zur Anwendung kommt. Datenvirtualisierung legt eine logische Ebene über die physischen Datenbestände.
Anstatt die Daten aus verschiedenen On-Premises- und Cloud-Quellen mit dem Standard-ETL-Prozess (Extrahieren, Transformieren, Laden) physisch zu verschieben, verbindet sich das Datenvirtualisierungstool mit den verschiedenen Quellen, integriert nur die benötigten Metadaten und erstellt eine virtuelle Datenebene. So können die Anwender die Quelldaten in Echtzeit nutzen, gleichzeitig wird Datenredundanz vermieden.
Wie hilft Data Fabric einem Unternehmen konkret in der digitalen Transformation? Haben Sie Kennzahlen, wie sich zum Beispiel der Zugriff auf Daten beschleunigen kann, was das für die Produktivität bedeutet?
Heiko Lenzing: Hier gibt es interessante Zahlen von Analysten und aus Kundenprojekten:
So werden über 70 Prozent der bei Unternehmen vorhandenen Daten nicht analysiert, da die Transparenz fehlt und die Zugriffe auf die Daten schwierig zu realisieren sind. Data Fabric macht diese Daten zugänglich und führt sie der Wertschöpfung zu.
Ein zweiter, wichtiger Faktor: 60 bis 70 Prozent der Benutzerproduktivität geht für die Datenbeschaffung verloren, anstatt diese Produktivität in die Datennutzung einbringen zu können. Data Fabric verhindert diesen Produktivitätsverlust.
Projekte leiden unter der schlechten Datenqualität, zudem gehen Entwicklungsaufwände nicht in Innovationen, sondern müssen in die Schaffung von Datenzugriffen gesteckt werden. In unserer Data Fabric stellen wir mit Watson Query eine Funktionalität bereit, die eine intelligente Optimierung der Datenabfrage durchführt. Wir haben in Benchmarks einen um mehr als 50 Prozent schnelleren Zugriff durch diese Technik gesehen.
Eine weitere, bemerkenswerte Kennzahl: In einem Vergleich konnte unsere Data Fabric Implementierung Analysen achtmal schneller bei den halben Kosten gegenüber einer Vergleichslösung erzielen.
Hilft Data Fabric auch mit Blick auf Hybrid Work, ein Thema, das viele Unternehmen gegenwärtig umtreibt?
Heiko Lenzing: Sehr sogar. Bei Hybrid Work benötigen die Nutzer einen unkomplizierten Zugriff auf Daten, sie müssen unabhängig mit den Daten arbeiten können, ohne auf umfangreiche, externe Unterstützung angewiesen zu sein. Datennutzung muss im Self Service möglich sein, genau hier ist Data Fabric der Enabler. Gleichzeitig sorgt Data Fabric aber dafür, dass der unkomplizierte Zugriff auf die Daten den strikten Vorgaben der Data Governance entspricht.
Da die Datenzugriffe oder Daten-Pipelines unter der Governance der Data Fabric erfolgen, lassen sich die definierten Regularien durchsetzen, an jedem Standort, zu jeder Zeit.
Auch in Zeiten von Hybrid Work geht es am Ende ja darum, Wertschöpfung durch Datennutzung zu erreichen, in einer sicheren und regelkonformen Form.
Hierfür gilt es, eine Datenplattform als technische Basis der Data Fabric aufzubauen, die die Vorteile einer hochintegrierten und durchgängigen Lösung bietet, um Integrationsaufwand und Reibungsverluste zu minimieren und klare und nachvollziehbare Data Governance sicher durchzusetzen.
Was hat es mit dem IBM Watson Knowledge Catalog auf sich? Welche Rolle spielt hier KI?
Heiko Lenzing: Zunächst ist unser Watson Knowledge Catalog ein Datenkatalog, mit dem Datennutzer benötigte Daten ohne großen Aufwand auffinden, vorbereiten, interpretieren und dann verwenden können. Die Lösung dient Nutzern als Wissensressource, um Self-Service-Zugriff auf Daten zu erhalten, denen sie vertrauen können, und geht zu diesem Zweck weit über die klassischen Funktionen eines Datenkatalogs hinaus und deckt Themen wie Datenqualität und Governance zentral mit ab.
Man kann sagen, der IBM Watson Knowledge Catalog ist der zentrale Dreh- und Angelpunkt der IBM Implementierung von Data Fabric. Der IBM Watson Knowledge Catalog kennt alle Daten-Assets, die Regelwerke für Zugriffsrechte, Datenmaskierung und Datenqualität bis hin zur Definition von im Unternehmen zulässigen Referenzdaten, und steuert so durchgängig den Aufbau von Datenpipelines und am Ende die sichere Nutzung qualitätsgesicherter Unternehmensdaten unter einer einheitlichen Governance.
Die Künstliche Intelligenz (KI) von IBM Watson z.B. in unserer AutoCatalog Funktion sorgt dafür, dass in der zentralen Registratur für Unternehmensdaten der Betriebsaufwand minimiert wird, das System kann leicht auf Veränderungen reagieren, es wird elastisch für Veränderungen. Die KI sorgt für einen selbstlernenden Katalog, eine hochgradige Automatisierung bei der Erkennung und Kategorisierung der Daten. Auch die Richtlinien für die Datennutzung werden fortlaufend und selbstlernend optimiert, hier unterstützt die KI in der AutoPrivacy Funktion.
AutoCatalog automatisiert die Erkennung und Klassifizierung von Daten, um einen Echtzeitkatalog von Datenbeständen aus unterschiedlichen Datenlandschaften zu verwalten. AutoPrivacy wurde entwickelt, um mithilfe von KI die Identifizierung, Überwachung und anschließende Durchsetzung von Richtlinien für sensible Daten im gesamten Unternehmen intelligent zu automatisieren. Beide Funktionalitäten, AutoCatalog und AutoPrivacy, sind kritische Fähigkeiten, um eine intelligente Data Fabric zu implementieren und betreiben zu können.
Und was ist IBM Cloud Pak for Data und welche Rolle spielt KI hier?
Heiko Lenzing: IBM Cloud Pak for Data ist eine durchgängige Daten-Plattform, die das gesamt Spektrum von der Datenbeschaffung bis zur Anwendung z.B. in produktiven KI-Modellen unterstützt. Cloud Pak for Data stellt die erforderlichen Funktionen zum Aufbau einer Data Fabric zur Verfügung, mit dem dann eine Verbindung zu Datensilos und der Zugriff darauf ermöglicht wird – und zwar lokal, in der Cloud, oder in hybriden Umgebungen, ohne dass die Daten bewegt werden müssen.
IBM Cloud Pak for Data automatisiert komplexe Datenverwaltungsaufgaben, indem sie KI nutzt, um verteilte Daten über mehrere Umgebungen hinweg zu erkennen, zu verstehen, darauf zuzugreifen und sie zu schützen. Unsere zukunftsweisende neue Watson Query Funktion in Cloud Pak for Data nutzt KI, um Kunden zu helfen, Antworten auf verteilte Abfragen bis zu achtmal schneller als bisher zu erhalten und die Kosten dafür im Vergleich zu anderen untersuchten Data Warehouses zu halbieren.
Watson Query automatisiert und optimiert die Art und Weise, in der Kunden auf Daten zugreifen, sie integrieren und verwalten, ohne sie jemals verschieben zu müssen – unabhängig davon, wo die Daten liegen oder wie sie gespeichert sind.
Können Sie die Vorteile einer intelligenten Data Fabric mit KI auch an einem Anwendungsbeispiel illustrieren?
Heiko Lenzing: Was ein Data Fabric in der Praxis leisten kann, zeigt das Beispiel der ING-Bank, die IBM Cloud Pak for Data einsetzt.
Ich möchte an dieser Stelle einmal Ferd Scheepers, Chefarchitekt von ING Tech Group Services, zu Wort kommen lassen. Er sagte zu den Anforderungen von ING: „Wir brauchen eine einheitliche Ebene, um Daten zu kartieren, KI zu verwenden, um zu verstehen, was die Daten bedeuten, Richtlinien durchzusetzen, um zu verhindern, dass Daten über Ländergrenzen hinweg verschoben werden, wo Ländergesetze verhindern, dass personenbezogene Daten ein Land verlassen“, so die umfassenden Anforderungen von ING an die Datennutzung und den Datenschutz.
„Genau das verspricht ein Data Fabric“, so Ferd Scheepers weiter. „Aktive Metadaten, die bestimmen, was wir mit Daten tun können und was nicht, Daten konsistent über Regionen und Clouds hinweg verfügbar machen, damit die Datennutzer diese Daten verwenden können, wo und wie sie benötigen, ohne ein einjähriges IT-Projekt, um an die benötigten Daten zu kommen“.
Wie kann man am besten einsteigen in die Nutzung einer intelligenten Data Fabric?
Heiko Lenzing: Meine Erfahrung aus zahlreichen Projekten hat gezeigt: Man sollte klein anfangen und dann wachsen, also erst einmal einen Use Case umsetzen und mit wenigen Datenquellen beginnen. Aber man sollte von Anfang an das volle Repertoire an Technologien und vor allem Data Governance in Data Fabric nutzen und strikt durchsetzen.
Einbinden in das Projekt sollte man ein Team das die Funktionen (Daten-)Architektur, Daten-Management und Compliance abdeckt, aber auch die späteren User sollte man einbeziehen.
Einen schnellen Start ermöglicht unsere Cloud-basierte Lösung Cloud Pak for Data as a Service. Hierfür ist kein bzw. minimaler Aufwand für Infrastruktur notwendig, aber man erhält vom Start weg die volle Funktionalität.
Vogel IT-Medien GmbH
Max-Josef-Metzger-Str. 21
86157 Augsburg
Telefon: +4982121770
Telefax: +49 (821) 2177-150
https://www.vogel-it.de