Unravel Data: Den Big-Data-Thron beobachten

Kunal Agarwal, CEO und Mitbegründer von Daten entschlüsseln, diskutiert die Neudefinition der Rolle von Hadoop in der Spark- und Kafka-Ära von Big Data


In den letzten zehn Jahren ist DataOps im Einklang mit der raschen Weiterentwicklung der Unternehmensanforderungen exponentiell ausgereifter geworden. Da das Streamen von Daten mittlerweile eine allgegenwärtige Anforderung innerhalb von DataOps ist, wird die einst souveräne Plattform Hadoop von ihren Nachkommen Spark und Kafka zunehmend an den Rand gedrängt. Im Bereich Big Data steht außer Frage, dass diese neueren Plattformen de facto zur Wahl für die meisten Cloud-Datenbereitstellungen geworden sind. 

Durch die Bereitstellung von Fähigkeiten, die weit über ihren Vorläufer hinausgehen, schaffen Spark und Kafka mehr Wert für Unternehmen und scheinen Hadoop in den Kampf zu drängen. Während die Popularität dieser neueren Plattformen eine radikale Veränderung in der Art und Weise darstellt, wie Unternehmen ihre DataOps einsetzen, lässt sie eine Frage offen – was wird mit Hadoop passieren?

Die drei großen Epochen von Big Data

Einst Mittelpunkt unzähliger Datenbereitstellungen, wird Hadoop zunehmend als Relikt der Vergangenheit oder gar als irrelevant bezeichnet. Bevor wir jedoch die derzeitige Rolle von Hadoop im Big-Data-Ökosystem diskutieren, ist es notwendig zu sehen, woher die Plattform stammt, wie sich ihre Rolle in den letzten Jahren verändert hat und ob Hadoop immer noch Anspruch auf den Thron hat. Um dies festzustellen, ist es hilfreich, sich die Geschichte von Big Data und die drei Hauptepochen anzusehen, die es definieren.

1 – Big Data im kleinen Maßstab

In seinen Anfängen waren Big Data einfach Organisationen, die die grundlegenden Funktionalitäten von MapReduce, Pig und anderen nativen Hadoop-Diensten untersuchten, um zu sehen, wo sie Mehrwert für Unternehmen schaffen könnten. Da Big Data noch in den Kinderschuhen steckte, stand Organisationen nur eine äußerst begrenzte Auswahl an Technologien zur Verfügung. Trotzdem waren Google, Yahoo und eine kleine Auswahl anderer großer Webunternehmen immer noch in der Lage, den Grundstein für das zu legen, was schließlich DataOps werden sollte.

2 – Big-Data-Anwendungen

Als Unternehmen begannen, die Möglichkeiten von Big Data und den daraus resultierenden Wert zu erkennen, begann sich die Technologie rasant zu entwickeln. Dies manifestierte sich zunächst in der Trennung zwischen Speicherung und Verarbeitung. In dieser Zeit begann auch die Nutzung der Cloud als Umgebung für Datenbereitstellungen – insbesondere in Amazon EMR und Microsoft HDInsight. Gleichzeitig begannen Hadoop, Spark und S3, Mehrwert für Unternehmen zu schaffen, die bereit waren, in Big Data zu investieren. Dies geschah in erster Linie durch grundlegende Anwendungen wie Empfehlungsmaschinen und Betrugserkennung, die auf diesen Plattformen erst seit kurzem realisierbar sind.

3 – Fortschritte bei der Einführung und Verfeinerung von Big Data

Die neueste und jüngste Periode in der Big-Data-Zeitachse wird durch die Massenakzeptanz von Big-Data-Diensten definiert. Da sie deutlich zeigen, wie sie Wert für Unternehmen generieren und wie sie in immer spezifischeren Anwendungsfällen eingesetzt werden können, nehmen immer mehr Unternehmen Big Data in ihre Agenda auf. Dieses schnell wachsende Ökosystem wird von neueren Technologien unterstützt, vor allem von Spark und Kafka. Obwohl diese beiden Plattformen den Datenstapel drastisch umgestalten, stellen sie auch eine Herausforderung für die Position von Hadoop im Bereich Big Data dar.

Die Usurpatoren Spark und Kafka

Da die Nachfrage nach Streaming-Anwendungen, Data Science und ML (maschinelles Lernen)/KI (künstliche Intelligenz) weiter zunimmt, erweitern sich Spark und Kafka und ihre Rolle in Big Data entsprechend. Beide Plattformen sind einzigartig positioniert, um Anwendungen in diesem Bereich zu unterstützen, und es ist unwahrscheinlich, dass sie in absehbarer Zeit Konkurrenz sehen werden. Die unübertroffene Geschwindigkeit, die Open-Source-Verarbeitung und die Analyse-Engine von Spark bedeuten, dass Spark gut für die Verarbeitung großer Mengen von Echtzeitdaten optimiert ist. Ebenso bietet Kafka eine Open-Source-Streaming-Plattform, die sich gut für den Datentransport zwischen Systemen, Anwendungen, Datenproduzenten und -konsumenten eignet. Der Hauptvorteil dieser beiden Plattformen besteht darin, dass es sich um effiziente, schnelle Technologien mit geringer Latenz handelt, die auf die Nutzung von Streaming-/Echtzeitdaten ausgerichtet sind.


WEITERLESEN: Big Data – Wie kann Ihr Unternehmen davon profitieren?



Für Apps, die einen konstanten Strom von Streaming-Daten produzieren oder darauf angewiesen sind, ist dies unerlässlich. Das Streaming von Daten erfordert die schnelle Verarbeitung von Datenströmen, um Erkenntnisse in Echtzeit zu gewinnen, und umfasst gängige Anwendungen wie Empfehlungsmaschinen und IoT-Apps (Internet der Dinge). Ebenso verwenden Data-Science-Anwendungen zunehmend Streaming-Daten anstelle von Batch-Daten, um schnelle Erkenntnisse zu liefern. Darüber hinaus sind Streaming-Daten auch für KI- und ML-Modelle erforderlich, die darauf abzielen, ständig zu lernen und sich selbst zu trainieren. Da Streaming-Daten in all diesen Anwendungsfällen ein wesentlicher Bestandteil sind, ist klar, warum Spark und Kafka de facto die erste Wahl für Datenbereitstellungen sind. Bis eine andere Plattform all diese Kriterien zu geringeren Kosten als Spark oder Kafka erfüllen kann, wird ihre Position wahrscheinlich nicht in Frage gestellt.

Abgesehen davon haben Spark und Kafka beide ihre Schwächen. In erster Linie kann das Debuggen oder Optimieren in großem Umfang mühsam werden, was vielleicht nicht überraschend ist, wenn man bedenkt, dass sie erst seit kurzem in großem Maßstab Zuverlässigkeit auf Unternehmensniveau bieten. Veranstaltungen wie der „Spark+AI Summit“ haben in Verbindung mit Bemühungen der breiteren Community versucht, diese Probleme anzugehen, müssen aber noch sinnvolle Lösungen für diese Probleme liefern. Unabhängig davon haben Spark und Kafka trotz dieser Nachteile schnell die DataOps-Sphäre dominiert. Diese Dynamik scheint nicht zu enden, da immer mehr Unternehmen Interesse an der Bereitstellung ihrer eigenen Datenanwendungen bekunden. 

Das Erbe von Hadoop

Wenn man sieht, wie prominent Spark und Kafka geworden sind, scheint die Rolle von Hadoop bei DataOps zunehmend an den Rand gedrängt zu werden, aber das soll nicht heißen, dass sie irrelevant ist. Vor sieben oder acht Jahren, als die Bereitstellung von Daten so kompliziert war wie das Ausführen grundlegender BI- (Business Intelligence) oder Datenbank-Apps, war Hadoop führend. Obwohl sich die Anforderungen von Unternehmen in den vergangenen Jahren erheblich verändert haben, hat Hadoop immer noch seinen Platz.

 Hadoop war mehr als leistungsfähig, als das Sammeln von Data Lakes die vorherrschende Rolle für die Datenbereitstellung war. Unternehmen fordern jedoch jetzt Anwendungen, die weitaus kompliziertere Aufgaben ausführen können, als Hadoop entwickelt wurde. Plattformen, die diese Aufgaben ausführen, müssen in der Lage sein, riesige Datenmengen in Echtzeit zu verarbeiten. Daher wurde Spark als Ersatz für MapReduce entwickelt (eine ältere Plattform, die dieser Aufgabe nicht gewachsen war). Folglich ziehen Datenteams, die ML-, Data Science- oder Streaming-Apps ausführen möchten, selten die Verwendung von Hadoop in Betracht, wenn bereits ein besser geeigneter Ersatz vorhanden ist. 

Eine weitere Überlegung ist, dass der Aufstieg von Spark Hadoop zwar aus dem Rampenlicht gerückt hat, dies jedoch nicht bedeutet, dass es in der Bedeutungslosigkeit verblasst ist. Trotz seiner Einschränkungen gibt es immer noch Bereiche, in denen Hadoop Spark und Kafka übertreffen kann. Für Anwendungen, die große Datenmengen zu relativ geringen Kosten verarbeiten müssen, ist Hadoop neben Amazon S3, Azure-Speicher und Google Cloud-Speicher immer noch eine der besten Optionen. Ebenso ist Hadoop nach wie vor die naheliegende Wahl für einfache Datenspeicher.

Während wir davon ausgehen, dass neuere Technologien ihre Vorgänger immer in den Schatten stellen, ist dies nicht unbedingt der Fall. Die ältere Technologie wird realistischerweise noch nachgefragt, solange es noch Anwendungsfälle gibt, in denen sie sinnvoll ist. Schließlich werden Datenteams die einfachere oder kostengünstigere Option nicht vernachlässigen, nur um die neuesten Technologien zu verwenden. 

Der König ist tot: Lang lebe der/die König(e)

Die Trennung zwischen Hadoop und Spark/Kafka erinnert an die Einführung öffentlicher Clouds. Als die Public Cloud im Trend lag, ging man davon aus, dass sie traditionelle Rechenzentren vollständig überflüssig machen würde. Die Realität war jedoch, dass traditionelle Rechenzentren bestimmte Fälle haben, in denen die Public Cloud keinen Vorteil bietet. Die heutige Realität sieht also so aus, dass die Public Cloud und traditionelle Rechenzentren eine symbiotische Beziehung eingehen, in der jedes seine eigene, festgelegte und separate Rolle auf dem Markt hat. Es ist wahrscheinlich, dass Hadoop, Spark und Kafka in eine ähnliche Anordnung fallen werden. 

Eine weitere Überlegung betrifft die Bedeutung der Langlebigkeit von Hadoop für Big-Data-Teams. Während die Zeit von Hadoop im Rampenlicht vielleicht zu Ende geht, zeichnet sich sein Vermächtnis bereits als die Plattform ab, die Unternehmen ursprünglich mit Big Data befähigt hat. In diesem Sinne wird die Philosophie von Hadoop als Wegbereiter für die Stärkung von Unternehmen bestehen bleiben, auch wenn die Plattform weniger genutzt wird. 

Zusammenfassend lässt sich sagen, dass Hadoop zwar gezwungen war, seinen Thron abzudanken, aber wahrscheinlich immer noch seinen eigenen Herrschaftsbereich finden wird, während Spark und Kafka seinen früheren Platz einnehmen.

Kuna-Agarwal

Kunal Agarwal ist Mitbegründer und CEO von Unravel Data, einem globalen Unternehmen, das Big-Data-Operationen vereinfacht.

Von Schatten-IT zu Schatten-KI

Markus Molyneux • 16. April 2024

Mark Molyneux, EMEA CTO von Cohesity, erklärt, welche Herausforderungen diese Entwicklung mit sich bringt und warum Unternehmen bei aller Begeisterung nicht alte Fehler aus der frühen Cloud-Ära wiederholen sollten.

Behebung des IT-Debakels im öffentlichen Sektor

Markus Grindey • 11. April 2024

Die IT-Dienste des öffentlichen Sektors sind nicht mehr zweckdienlich. Ständige Sicherheitsverletzungen. Inakzeptable Ausfallzeiten. Endemische Überausgaben. Verzögerungen bei wichtigen Serviceinnovationen, die die Kosten senken und das Erlebnis der Bürger verbessern würden.

Das Beste aus der Technik trifft sich im Mai auf der VivaTech

Viva Technologie • 10. April 2024

Als wahrer Treffpunkt für Wirtschaft und Innovation verspricht die VivaTech einmal mehr zu zeigen, warum sie zu einem unverzichtbaren Termin im internationalen Geschäftskalender geworden ist. Mit seiner wachsenden globalen Reichweite und dem Schwerpunkt auf entscheidenden Themen wie KI, nachhaltige Technologie und Mobilität ist VivaTech die erste Adresse für die Entschlüsselung aufkommender Trends und die Bewertung ihrer wirtschaftlichen Auswirkungen.

Warum OEMs die digitale Transformation vorantreiben müssen

James Smith und Chris Hanson • 04. April 2024

James Smith, Head of Client Services, und Chris Hanson, Head of Data bei One Nexus, erklären, warum es für OEMs von entscheidender Bedeutung ist, ihre Händlernetzwerke mit Informationen auszustatten, um neue Einnahmequellen zu erschließen und gleichzeitig die Kundenbeziehungen zu stärken, die zur Aufrechterhaltung der Loyalität erforderlich sind sich schnell verändernder Markt.

Ermöglicht „Farm to Fork“-Effizienz zwischen Supermärkten und Produzenten

Neil Baker • 03. April 2024

Heutzutage sind Verbraucher im gesamten Vereinigten Königreich mit einer Lebenshaltungskostenkrise konfrontiert. Daher sind viele Einzelhändler und Supermärkte bestrebt, ihre Kosten niedrig zu halten, um diese nicht an die Kunden weiterzugeben. Ein Bereich, der für viele Unternehmen zunehmend auf dem Prüfstand steht, ist die Frage, wie die Effizienz der Lieferkette verbessert werden kann. Das...

Bewältigung der Einhaltung gesetzlicher Vorschriften bei staatseigenen Einweggeräten

Nadav Avni • 26. März 2024

Unternehmenseigene Einweggeräte (COSU), auch dedizierte Geräte genannt, erleichtern Unternehmen und vielen Regierungsbehörden die Arbeit. Es handelt sich um leistungsstarke intelligente Geräte, die einen einzigen Zweck erfüllen. Denken Sie an intelligente Tablets, die für die Bestandsverfolgung, Informationskioske, Geldautomaten oder digitale Displays verwendet werden. Im staatlichen Umfeld unterliegen diese Geräte jedoch strengen gesetzlichen Compliance-Standards.

Vorteile cloudbasierter CAD-Lösungen für moderne Designer

Marius Marcus • 22. März 2024

Verabschieden Sie sich von den Zeiten umständlicher Desktop-Software, die uns an bestimmte Schreibtische fesselt. Stattdessen treten wir in eine neue Ära ein, die von Cloud-CAD-Lösungen angetrieben wird. Diese bahnbrechenden Tools bieten Designern nicht nur unübertroffene Flexibilität, sondern fördern auch die Zusammenarbeit und Effizienz wie nie zuvor!

Nutzung der IoT-Technologie zur Wiederherstellung gestohlener Fahrzeuge

Gareth Mitchell UK Partner Manager • 22. März 2024

Der Kampf zwischen Autodieben und denjenigen, die sich für die Verhinderung von Fahrzeugdiebstählen einsetzen, ist ein andauernder Kampf. Jeden Tag werden in Großbritannien durchschnittlich 159 Autos gestohlen, und die Täter sind oft professionelle Diebesbanden. Diese Zahl stellt im Jahr 20 einen Anstieg von 2022 % gegenüber dem Vorjahr dar. In diesem Spiel mit hohen Einsätzen spielt die Rolle...