Abstraktion in Event-Streaming-Verarbeitungssystemen

Hartmann, Hans

Titel:	Abstraktion in Event-Streaming-Verarbeitungssystemen
Sprache:	Deutsch
Autorenschaft:	Hartmann, Hans
Schlagwörter:	Event-Steaming; Apache Spark; Kafka-Streams; Apache Storm; Apache Flink; KsqlDB; Apache Beam; Abstraktion; Data Abstraktion; Datenverarbeitung; Abstraction; Data abstraction; Processing Data
Erscheinungsdatum:	27-Mär-2023
Zusammenfassung:	Eine große Anzahl der heutigen Anwendungsfälle für Datenverarbeitung arbeitet mit kontinuierlichen und unendlichen Daten. Um diese Daten zu verarbeiten, existieren viele Event-Streaming-Verarbeitungssysteme mit unterschiedlichen Eigenschaften und Abstraktionen. Das Ziel dieser Masterarbeit ist es, die Abstraktionen von Apache Spark, Apache Storm, Kafka-Streams, KsqlDB, Apache Flink und Apache Beam zu untersuchen. Dafür wird ein Experiment in den Event-Streaming-Verarbeitungssystemen durchgeführt und ausgewertet. Für das Experiment wird ein Job in den genannten Systemen implementiert, welcher dieselben Aufgaben erfüllt und gleichzeitig Latenzzeiten misst. Das Experiment testet die Event-Streaming-Verarbeitungssysteme auf ihre Latenz sowie Komplexität. Zunächst wird das Grundkonzept von der Arbeit mit kontinuierlichen Daten sowie die verschiedenen Event-Streaming-Verarbeitungssysteme vorgestellt. Anschließend wird erläutert, wie das Experiment umgesetzt worden ist. Die Ergebnisse zeigen, dass Abstraktionen die Komplexität dieser Systeme reduzieren können. Durch Abstraktionen ist es möglich, dass der Fokus der Entwickler auf der Funktionalität der Anwendung liegt und nicht auf den darunterliegenden Details wie Skalierbarkeit oder Fehlertoleranz. Abstraktionen können sich auch negativ auf die Leistung eines Systems auswirken, in Apache Beam brauchen die abstrahierten Systeme länger für das Lesen, Schreiben und Verarbeiten der Daten als die nativen Systeme. A large number of today’s use cases for data processing works with continuous and infinite data. Many event streaming processing systems exist to process this data, with different characteristics and abstractions. The goal of this master thesis is to evaluate the abstractions of Apache Spark, Apache Storm, Kafka Streams, KsqlDB, Apache Flink and Apache Beam. For this purpose, an experiment is executed and evaluated in these event streaming processing systems. For the experiment, a job is implemented in the above-mentioned systems, which performs the same tasks and measures latency at the same time. The experiment tests the event streaming processing systems for their latency as well as their complexity. First, the basic concept of working with continuous data and the different event streaming processing systems are introduced. Then, it is explained how the experiment has been implemented and the results are presented. The results show that abstractions can reduce complexity. Through abstractions it is possible that the focus of the developers is on the functionality of the application rather than on the underlying details such as scalability or fault tolerance. Abstractions can also have a negative impact on the performance of a system, in Apache Beam, abstracted systems take longer to read, write, and process data than the native systems.
URI:	https://hdl.handle.net/20.500.12738/16366
Einrichtung:	Fakultät Technik und Informatik Department Informatik
Dokumenttyp:	Abschlussarbeit
Abschlussarbeitentyp:	Masterarbeit
Betreuer*in:	Zukunft, Olaf
Gutachter*in:	Steffens, Ulrike
Enthalten in den Sammlungen:	Theses