Evaluation von Open Source Data Integration Tools im Kontext von Big Data

Kamp, Birger

License:
Title:	Evaluation von Open Source Data Integration Tools im Kontext von Big Data
Language:	German
Authors:	Kamp, Birger
Issue Date:	29-May-2018
Abstract:	Der Bereich der Datenintegration ist auf Prozesse und Tools angewiesen, die Daten effektiv und effzient verarbeiten. Viele Tools und Frameworks, die für Big Data-Problemstellungen entwickelt werden, eignen sich auch für die Nutzung im Datenintegrationsbereich. In dieser Arbeit werden ein bekanntes ETL-Tool und eine Kombination aus zwei Big Data-Frameworks miteinander verglichen. Die TPC, ein Non-Profit-Konsortium aus Datenintegrationsherstellern, hat den ETL-Benchmark TPC-DI spezifiziert, durch welchen ETL-Tools und -Frameworks miteinander verglichen werden können. Die komplexe Spezifikation wird mit dem Tool Talend Open Studio for Big Data und einer Kombination aus den Big Data-Frameworks Apache Gobblin und Apache Spark implementiert. Einer der Importjobs wird außerdem so modifiziert, dass er einen Event-Stream statt eines Dateisystems als Datenquelle verwendet. Zur Zeit des Schreibens ist diese Arbeit die einzige Veröffentlichung, die den TPC-DI-Benchmark mit diesen beiden Messkandidaten und der Streaming-Erweiterung durchführt. Die Messungen werden in mehr als 50 unterschiedlichen Experimenten durchgeführt. Dadurch werden viele Unterschiede der Implementationen, sowohl in den Importlaufzeiten, als auch in der CPU- und RAM-Nutzung, sichtbar. Die Ergebnisse zeigen, dass die Talend-Implementation mehr CPU-Last auf dem Datenbankserver erzeugt als die Gobblin-Spark-Implementation. Während die Gobblin-Spark-Implementation mehr CPU-Last auf den ausführenden Nodes ausführt als die Talend-Implementation. In den Laufzeiten ist zu sehen, dass bei den zwei kleinsten Importdatensets, die Gobblin-Spark-Implementation die kürzeste Laufzeit erreicht. Im größten gemessenen Datenset hingegen erzielt Talend die geringere Laufzeit. The field of data integration relies on processes and tools that process data effectively and effciently. Many tools and frameworks that are developed for big data problems are also suitable for use in data integration. This paper compares a well-known ETL tool and a combination of two big data frameworks. The TPC, a non-profit consortium of data integration vendors, has specified the ETL benchmark TPC-DI, which compares ETL tools and frameworks. The extensive specification is implemented with the tool Talend Open Studio for Big Data and a combination of the Big Data frameworks Apache Gobblin and Apache Spark. One of the import jobs is also modified to use an event stream instead of a file system as the data source. At the time of writing, this work is the only publication that performs the TPC-DI benchmark with these two candidate candidates and a streaming extension. The measurements are carried out in more than 50 different experiments. As a result, many dfferences in the implementation, both in the import runtime, as well as in the CPU and RAM usage, will be visible. The results show that the Talend implementation generates more CPU load on the database server than the Gobblin Spark implementation. While the Gobblin Spark implementation runs more CPU on the executing nodes than the Talend implementation. In terms of runtime, the Gobblin Spark implementation achieves the shortest runtime for the two smallest import data sets. By contrast, Talend achieves the lower running time in the largest measured data set.
URI:	http://hdl.handle.net/20.500.12738/8318
Institute:	Department Informatik
Type:	Thesis
Thesis type:	Master Thesis
Advisor:	Zukunft, Olaf
Referee:	Steffens, Ulrike
Appears in Collections:	Theses