Unravel Data: Den Big-Data-Thron beobachten
Kunal Agarwal, CEO und Mitbegründer von Daten entschlüsseln, diskutiert die Neudefinition der Rolle von Hadoop in der Spark- und Kafka-Ära von Big Data
In den letzten zehn Jahren ist DataOps im Einklang mit der raschen Weiterentwicklung der Unternehmensanforderungen exponentiell ausgereifter geworden. Da das Streamen von Daten mittlerweile eine allgegenwärtige Anforderung innerhalb von DataOps ist, wird die einst souveräne Plattform Hadoop von ihren Nachkommen Spark und Kafka zunehmend an den Rand gedrängt. Im Bereich Big Data steht außer Frage, dass diese neueren Plattformen de facto zur Wahl für die meisten Cloud-Datenbereitstellungen geworden sind.
Durch die Bereitstellung von Fähigkeiten, die weit über ihren Vorläufer hinausgehen, schaffen Spark und Kafka mehr Wert für Unternehmen und scheinen Hadoop in den Kampf zu drängen. Während die Popularität dieser neueren Plattformen eine radikale Veränderung in der Art und Weise darstellt, wie Unternehmen ihre DataOps einsetzen, lässt sie eine Frage offen – was wird mit Hadoop passieren?
Die drei großen Epochen von Big Data
Einst Mittelpunkt unzähliger Datenbereitstellungen, wird Hadoop zunehmend als Relikt der Vergangenheit oder gar als irrelevant bezeichnet. Bevor wir jedoch die derzeitige Rolle von Hadoop im Big-Data-Ökosystem diskutieren, ist es notwendig zu sehen, woher die Plattform stammt, wie sich ihre Rolle in den letzten Jahren verändert hat und ob Hadoop immer noch Anspruch auf den Thron hat. Um dies festzustellen, ist es hilfreich, sich die Geschichte von Big Data und die drei Hauptepochen anzusehen, die es definieren.
1 – Big Data im kleinen Maßstab
In seinen Anfängen waren Big Data einfach Organisationen, die die grundlegenden Funktionalitäten von MapReduce, Pig und anderen nativen Hadoop-Diensten untersuchten, um zu sehen, wo sie Mehrwert für Unternehmen schaffen könnten. Da Big Data noch in den Kinderschuhen steckte, stand Organisationen nur eine äußerst begrenzte Auswahl an Technologien zur Verfügung. Trotzdem waren Google, Yahoo und eine kleine Auswahl anderer großer Webunternehmen immer noch in der Lage, den Grundstein für das zu legen, was schließlich DataOps werden sollte.
2 – Big-Data-Anwendungen
Als Unternehmen begannen, die Möglichkeiten von Big Data und den daraus resultierenden Wert zu erkennen, begann sich die Technologie rasant zu entwickeln. Dies manifestierte sich zunächst in der Trennung zwischen Speicherung und Verarbeitung. In dieser Zeit begann auch die Nutzung der Cloud als Umgebung für Datenbereitstellungen – insbesondere in Amazon EMR und Microsoft HDInsight. Gleichzeitig begannen Hadoop, Spark und S3, Mehrwert für Unternehmen zu schaffen, die bereit waren, in Big Data zu investieren. Dies geschah in erster Linie durch grundlegende Anwendungen wie Empfehlungsmaschinen und Betrugserkennung, die auf diesen Plattformen erst seit kurzem realisierbar sind.
3 – Fortschritte bei der Einführung und Verfeinerung von Big Data
Die neueste und jüngste Periode in der Big-Data-Zeitachse wird durch die Massenakzeptanz von Big-Data-Diensten definiert. Da sie deutlich zeigen, wie sie Wert für Unternehmen generieren und wie sie in immer spezifischeren Anwendungsfällen eingesetzt werden können, nehmen immer mehr Unternehmen Big Data in ihre Agenda auf. Dieses schnell wachsende Ökosystem wird von neueren Technologien unterstützt, vor allem von Spark und Kafka. Obwohl diese beiden Plattformen den Datenstapel drastisch umgestalten, stellen sie auch eine Herausforderung für die Position von Hadoop im Bereich Big Data dar.
Die Usurpatoren Spark und Kafka
Da die Nachfrage nach Streaming-Anwendungen, Data Science und ML (maschinelles Lernen)/KI (künstliche Intelligenz) weiter zunimmt, erweitern sich Spark und Kafka und ihre Rolle in Big Data entsprechend. Beide Plattformen sind einzigartig positioniert, um Anwendungen in diesem Bereich zu unterstützen, und es ist unwahrscheinlich, dass sie in absehbarer Zeit Konkurrenz sehen werden. Die unübertroffene Geschwindigkeit, die Open-Source-Verarbeitung und die Analyse-Engine von Spark bedeuten, dass Spark gut für die Verarbeitung großer Mengen von Echtzeitdaten optimiert ist. Ebenso bietet Kafka eine Open-Source-Streaming-Plattform, die sich gut für den Datentransport zwischen Systemen, Anwendungen, Datenproduzenten und -konsumenten eignet. Der Hauptvorteil dieser beiden Plattformen besteht darin, dass es sich um effiziente, schnelle Technologien mit geringer Latenz handelt, die auf die Nutzung von Streaming-/Echtzeitdaten ausgerichtet sind.
WEITERLESEN: Big Data – Wie kann Ihr Unternehmen davon profitieren?
Für Apps, die einen konstanten Strom von Streaming-Daten produzieren oder darauf angewiesen sind, ist dies unerlässlich. Das Streaming von Daten erfordert die schnelle Verarbeitung von Datenströmen, um Erkenntnisse in Echtzeit zu gewinnen, und umfasst gängige Anwendungen wie Empfehlungsmaschinen und IoT-Apps (Internet der Dinge). Ebenso verwenden Data-Science-Anwendungen zunehmend Streaming-Daten anstelle von Batch-Daten, um schnelle Erkenntnisse zu liefern. Darüber hinaus sind Streaming-Daten auch für KI- und ML-Modelle erforderlich, die darauf abzielen, ständig zu lernen und sich selbst zu trainieren. Da Streaming-Daten in all diesen Anwendungsfällen ein wesentlicher Bestandteil sind, ist klar, warum Spark und Kafka de facto die erste Wahl für Datenbereitstellungen sind. Bis eine andere Plattform all diese Kriterien zu geringeren Kosten als Spark oder Kafka erfüllen kann, wird ihre Position wahrscheinlich nicht in Frage gestellt.
Abgesehen davon haben Spark und Kafka beide ihre Schwächen. In erster Linie kann das Debuggen oder Optimieren in großem Umfang mühsam werden, was vielleicht nicht überraschend ist, wenn man bedenkt, dass sie erst seit kurzem in großem Maßstab Zuverlässigkeit auf Unternehmensniveau bieten. Veranstaltungen wie der „Spark+AI Summit“ haben in Verbindung mit Bemühungen der breiteren Community versucht, diese Probleme anzugehen, müssen aber noch sinnvolle Lösungen für diese Probleme liefern. Unabhängig davon haben Spark und Kafka trotz dieser Nachteile schnell die DataOps-Sphäre dominiert. Diese Dynamik scheint nicht zu enden, da immer mehr Unternehmen Interesse an der Bereitstellung ihrer eigenen Datenanwendungen bekunden.
Das Erbe von Hadoop
Wenn man sieht, wie prominent Spark und Kafka geworden sind, scheint die Rolle von Hadoop bei DataOps zunehmend an den Rand gedrängt zu werden, aber das soll nicht heißen, dass sie irrelevant ist. Vor sieben oder acht Jahren, als die Bereitstellung von Daten so kompliziert war wie das Ausführen grundlegender BI- (Business Intelligence) oder Datenbank-Apps, war Hadoop führend. Obwohl sich die Anforderungen von Unternehmen in den vergangenen Jahren erheblich verändert haben, hat Hadoop immer noch seinen Platz.
Hadoop war mehr als leistungsfähig, als das Sammeln von Data Lakes die vorherrschende Rolle für die Datenbereitstellung war. Unternehmen fordern jedoch jetzt Anwendungen, die weitaus kompliziertere Aufgaben ausführen können, als Hadoop entwickelt wurde. Plattformen, die diese Aufgaben ausführen, müssen in der Lage sein, riesige Datenmengen in Echtzeit zu verarbeiten. Daher wurde Spark als Ersatz für MapReduce entwickelt (eine ältere Plattform, die dieser Aufgabe nicht gewachsen war). Folglich ziehen Datenteams, die ML-, Data Science- oder Streaming-Apps ausführen möchten, selten die Verwendung von Hadoop in Betracht, wenn bereits ein besser geeigneter Ersatz vorhanden ist.
Eine weitere Überlegung ist, dass der Aufstieg von Spark Hadoop zwar aus dem Rampenlicht gerückt hat, dies jedoch nicht bedeutet, dass es in der Bedeutungslosigkeit verblasst ist. Trotz seiner Einschränkungen gibt es immer noch Bereiche, in denen Hadoop Spark und Kafka übertreffen kann. Für Anwendungen, die große Datenmengen zu relativ geringen Kosten verarbeiten müssen, ist Hadoop neben Amazon S3, Azure-Speicher und Google Cloud-Speicher immer noch eine der besten Optionen. Ebenso ist Hadoop nach wie vor die naheliegende Wahl für einfache Datenspeicher.
Während wir davon ausgehen, dass neuere Technologien ihre Vorgänger immer in den Schatten stellen, ist dies nicht unbedingt der Fall. Die ältere Technologie wird realistischerweise noch nachgefragt, solange es noch Anwendungsfälle gibt, in denen sie sinnvoll ist. Schließlich werden Datenteams die einfachere oder kostengünstigere Option nicht vernachlässigen, nur um die neuesten Technologien zu verwenden.
Der König ist tot: Lang lebe der/die König(e)
Die Trennung zwischen Hadoop und Spark/Kafka erinnert an die Einführung öffentlicher Clouds. Als die Public Cloud im Trend lag, ging man davon aus, dass sie traditionelle Rechenzentren vollständig überflüssig machen würde. Die Realität war jedoch, dass traditionelle Rechenzentren bestimmte Fälle haben, in denen die Public Cloud keinen Vorteil bietet. Die heutige Realität sieht also so aus, dass die Public Cloud und traditionelle Rechenzentren eine symbiotische Beziehung eingehen, in der jedes seine eigene, festgelegte und separate Rolle auf dem Markt hat. Es ist wahrscheinlich, dass Hadoop, Spark und Kafka in eine ähnliche Anordnung fallen werden.
Eine weitere Überlegung betrifft die Bedeutung der Langlebigkeit von Hadoop für Big-Data-Teams. Während die Zeit von Hadoop im Rampenlicht vielleicht zu Ende geht, zeichnet sich sein Vermächtnis bereits als die Plattform ab, die Unternehmen ursprünglich mit Big Data befähigt hat. In diesem Sinne wird die Philosophie von Hadoop als Wegbereiter für die Stärkung von Unternehmen bestehen bleiben, auch wenn die Plattform weniger genutzt wird.
Zusammenfassend lässt sich sagen, dass Hadoop zwar gezwungen war, seinen Thron abzudanken, aber wahrscheinlich immer noch seinen eigenen Herrschaftsbereich finden wird, während Spark und Kafka seinen früheren Platz einnehmen.