DataWorks Summit Europe 2019: Enterprise Data Cloud als Vision

Die Cloudera Data Platform verspricht "API first", Service-Orientierung und hohe Rechenleistung bei ruhenden und bewegten Daten in der Cloud.

1

(Bild: Cloudera)

28.03.2019, 07:21 Uhr

Lesezeit: 6 Min.

Developer

Von

Michael Matzer

"In etwa sechs Monaten soll die gemeinsame Plattform von Hortonworks und Cloudera zur Nutzung in der Public Cloud zur Verfügung stehen", verkündete Wolfgang Huber, Clouderas Senior Regional Sales Director in Central Europe, auf dem DataWorks Summit Europe 2019 in Barcelona. Zunächst werde die Cloudera Data Platform (CDP) auf Amazon Web Services und Microsoft Azure bereitstehen, etwas später folgen Google Cloud Platform (GCP) und die IBM Cloud. "Wir unterstützen die IBM Cloud vor allem, weil Hortonworks und IBM eine enge Partnerschaft verbindet", ergänzt Huber. Erst in der zweiten Jahreshälfte sollen Kunden CDP auch On Premises in einer Private Cloud nutzen können. Dazu soll es ein bis zwei Updates pro Monat geben.

Fusion von Cloudera und Hortonworks

Nach der zum Jahresauftakt besiegelten Fusion führt die neue Cloudera Data Platform CDP die Cloudera Distribution of Hadoop (CDH) und die Hortonworks Data Platform HDP zusammen. CDP besteht aus 32 Komponenten, darunter die Data Science Workbench, Cloudera Data Warehouse und Cloudera DataFlow. Die CDP schließt Analysefunktionen wie DataFlow ebenso ein wie Data Engineering, Data Warehouse, Operational Database und Machine Learning. Sie bietet zudem eine gemeinsame Ebene für Identität, Orchestrierung, Management und Betrieb.

Als Grund für den offenbar bereits seit dreieinhalb Jahren diskutierten Merger nennt Huber, dass "Cloudera und Hortonworks über eine Codebasis verfügen, die zu 70 Prozent identisch ist. Daher passen sie bestens zusammen und ergänzen einander mit dem Rest." Die Kunden hätten häufig nach einer Ergänzung aus der jeweils anderen Distribution gefragt. Clouderas Alleinstellungsmerkmal in seiner CDH liegt auf dem Gebiet KI, nämlich in Form der Data Science Workbench (DSW). Sie unterstütze als Portal einerseits die klassische IT, die einen Hadoop Data Lake nutzt, andererseits auch Developer und deren Kollaboration. Hortonworks habe 2018 seine Governance- und Admin-Fähigkeiten verstärkt, aber auch die Nutzung von IoT und Edge Computing ausgebaut.

Auch auf der Business-Seite sei die Bilanz positiv: "Beide Firmen", fährt Huber fort, "haben die gleiche Zielklientel, sodass der Merger eine Verdopplung der Kundenbasis und der Vertriebskapazität darstellt." Daher bedeutete der 3. Januar 2019, als die Fusion in Kraft trat, den Startschuss für Up- und Cross-Selling im gemeinsamen Vertrieb. Cloudera hat weltweit über 2000 Enterprise-Kunden. Mit dieser Klientel wolle das neue Unternehmen weiterwachsen und neue Kunden hinzugewinnen. An den bestehenden Verträgen soll sich zumindest vorerst nichts ändern.

Unternehmen fehlt es an Data Maturity

Für Hadoop-Entwickler könnte dies eine erhebliche Ausweitung ihres Marktes bedeuten. Denn der steht laut einer Gartner-Studie erst am Anfang einer Reifung der Hadoop-basierten Analytik. "Mehr als 87 Prozent der Unternehmen verfügen laut Gartner noch nicht über Data Maturity", sagt Huber. Zwar sammelten die Unternehmen große Datenmengen in Data Lakes, benötigten aber Modelle, um diese mit den Daten zu trainieren – beispielsweise um damit autonomes Fahren realisieren zu können. Die nötige Datensicherheit soll dabei ein von Cloudera kommendes Security Framework namens Shared Data Experience (SDX) gewährleisten.

Da beide Firmen Open-Source-Software nutzen, spielt die Open-Source-Entwicklergemeinde eine große Rolle, erläuterte Huber. Die Distributionen mit ihren zahlreichen Komponenten verfügen über entsprechende APIs, über die sich die Community einbringen kann. "Für uns gilt: API first. Cloudera wird für viele Partner entsprechende Konnektoren zur Verfügung stellen", sagte Vikram Makhija, Vice President und General Manager Cloud bei Cloudera. "Wir unterstützen Agile Development mit einer API zu jeder CI/CD-Toolchain." Tatsächlich können Entwickler CDP-Komponenten wie Cloudera DataFlow per API in ihre Umgebungen integrieren.

Data at Rest – Data in Motion

Die künftige Cloudera Data Platform kann nach Makhijas Angaben überall laufen und wird sich sowohl für ruhende Daten (data at rest) – mit Hadoop – als auch für bewegte Daten (data in motion) eignen. Letzteres ist vor allem für IoT und Edge Computing bedeutsam. Um das nötige IoT-Streaming realisieren zu können, stellt die CDP die Komponente Cloudera DataFlow (CDF) bereit. Sie ermöglicht Streaming mit Apache Kafka und Apache NiFi. Es gebe bereits kleine MiNiFi-Agenten für die Bereitstellung in Endgeräten in größeren Umgebungen. Die Agenten stellen die nötige Datenverarbeitungsintelligenz bereit, sodass nicht ständig große Datenmengen übers Netzwerk fließen müssen, sondern nur kleine Pakete – entweder die Deltas oder vorverarbeitete Ergebnisse.

Vikram Makhija, Vice President und General Manager Cloud bei Cloudera

(Bild: Cloudera)

Als KI-Prozessor am IoT-Edge kann sich Makhija unter anderem einen Raspberry Pi vorstellen. CDF unterstützt nach seinen Angaben zwei Verwendungszwecke von Streaming, nämlich Complex Event Processing (CEP) und einfaches Flow Management, sodass sich sowohl simple als auch komplexe Algorithmen und Modelle am Edge nutzen lassen. Die Roadmap sieht Verbesserungen in der Einbindung von Kafka und NiFi vor. Die CDP-Komponenten laufen ebenso wie CDP selbst auf Kubernetes und unterstützen so Container-Orchestrierung, ohne Leistungsverlust, wie Makhija betont.

Die künftige CDP stellt nicht nur ein umfassendes Governance- und Sicherheitskonzept zur Verfügung, sondern soll auch eine verbesserte Oberfläche erhalten. Die Schnittstellen Data Warehouse Experience (DWX) und DataFlow Experience werden auf Personas ausgerichtet, die befugt sind, diese Komponenten zu nutzen – sie sind also rollenorientiert. Kontrolle über ihre Workflows erhalten sie über die in CDP eingebaute NiFi-Registry.

Auf dem Weg zur Enterprise Data Cloud

"Unsere Vision für die Enterprise Data Cloud sieht den Support für alle Entwickler-Personas vor: Streaming-Verarbeitung, SQL-basierte Analysen und Code-basierte Datenverarbeitung", so Makhija weiter. Dies erfolge in einer sicheren und kontrollierten Umgebung, die Governance und Auditing beispielsweise zur Analyse von Datenabstammung in der gesamten Daten-Pipeline unterstützt. "Das gehört zu den dringendsten Anforderungen unserer Kunden."

Das Ziel bestehe darin, ein Daten-Ökosystem zu schaffen, das sowohl die Erfassung, die Analyse als auch die Verarbeitung der Daten umfasst. Dazu soll die Enterprise Data Cloud insbesondere auch Daten von der Edge in die KI-Verarbeitung einbringen, die bisher nicht erfasst werden konnten. (map)

nach oben

Alle Angebote

Newsletter heise-Bot

${intro} ${title}