Fulltext available Open Access
DC FieldValueLanguage
dc.contributor.advisorZukunft, Olaf-
dc.contributor.authorKamp, Birger
dc.date.accessioned2020-09-29T14:37:01Z-
dc.date.available2020-09-29T14:37:01Z-
dc.date.created2018
dc.date.issued2018-05-29
dc.identifier.urihttp://hdl.handle.net/20.500.12738/8318-
dc.description.abstractDer Bereich der Datenintegration ist auf Prozesse und Tools angewiesen, die Daten effektiv und effzient verarbeiten. Viele Tools und Frameworks, die für Big Data-Problemstellungen entwickelt werden, eignen sich auch für die Nutzung im Datenintegrationsbereich. In dieser Arbeit werden ein bekanntes ETL-Tool und eine Kombination aus zwei Big Data-Frameworks miteinander verglichen. Die TPC, ein Non-Profit-Konsortium aus Datenintegrationsherstellern, hat den ETL-Benchmark TPC-DI spezifiziert, durch welchen ETL-Tools und -Frameworks miteinander verglichen werden können. Die komplexe Spezifikation wird mit dem Tool Talend Open Studio for Big Data und einer Kombination aus den Big Data-Frameworks Apache Gobblin und Apache Spark implementiert. Einer der Importjobs wird außerdem so modifiziert, dass er einen Event-Stream statt eines Dateisystems als Datenquelle verwendet. Zur Zeit des Schreibens ist diese Arbeit die einzige Veröffentlichung, die den TPC-DI-Benchmark mit diesen beiden Messkandidaten und der Streaming-Erweiterung durchführt. Die Messungen werden in mehr als 50 unterschiedlichen Experimenten durchgeführt. Dadurch werden viele Unterschiede der Implementationen, sowohl in den Importlaufzeiten, als auch in der CPU- und RAM-Nutzung, sichtbar. Die Ergebnisse zeigen, dass die Talend-Implementation mehr CPU-Last auf dem Datenbankserver erzeugt als die Gobblin-Spark-Implementation. Während die Gobblin-Spark-Implementation mehr CPU-Last auf den ausführenden Nodes ausführt als die Talend-Implementation. In den Laufzeiten ist zu sehen, dass bei den zwei kleinsten Importdatensets, die Gobblin-Spark-Implementation die kürzeste Laufzeit erreicht. Im größten gemessenen Datenset hingegen erzielt Talend die geringere Laufzeit.de
dc.description.abstractThe field of data integration relies on processes and tools that process data effectively and effciently. Many tools and frameworks that are developed for big data problems are also suitable for use in data integration. This paper compares a well-known ETL tool and a combination of two big data frameworks. The TPC, a non-profit consortium of data integration vendors, has specified the ETL benchmark TPC-DI, which compares ETL tools and frameworks. The extensive specification is implemented with the tool Talend Open Studio for Big Data and a combination of the Big Data frameworks Apache Gobblin and Apache Spark. One of the import jobs is also modified to use an event stream instead of a file system as the data source. At the time of writing, this work is the only publication that performs the TPC-DI benchmark with these two candidate candidates and a streaming extension. The measurements are carried out in more than 50 different experiments. As a result, many dfferences in the implementation, both in the import runtime, as well as in the CPU and RAM usage, will be visible. The results show that the Talend implementation generates more CPU load on the database server than the Gobblin Spark implementation. While the Gobblin Spark implementation runs more CPU on the executing nodes than the Talend implementation. In terms of runtime, the Gobblin Spark implementation achieves the shortest runtime for the two smallest import data sets. By contrast, Talend achieves the lower running time in the largest measured data set.en
dc.language.isodede
dc.rights.urihttp://rightsstatements.org/vocab/InC/1.0/-
dc.subject.ddc004 Informatik
dc.titleEvaluation von Open Source Data Integration Tools im Kontext von Big Datade
dc.typeThesis
openaire.rightsinfo:eu-repo/semantics/openAccess
thesis.grantor.departmentDepartment Informatik
thesis.grantor.placeHamburg
thesis.grantor.universityOrInstitutionHochschule für angewandte Wissenschaften Hamburg
tuhh.contributor.refereeSteffens, Ulrike-
tuhh.gvk.ppn1023389177
tuhh.identifier.urnurn:nbn:de:gbv:18302-reposit-83200-
tuhh.note.externpubl-mit-pod
tuhh.note.intern1
tuhh.oai.showtrueen_US
tuhh.opus.id4256
tuhh.publication.instituteDepartment Informatik
tuhh.type.opusMasterarbeit-
dc.subject.gndMassendaten
dc.type.casraiSupervised Student Publication-
dc.type.dinimasterThesis-
dc.type.drivermasterThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersion
dc.type.thesismasterThesis
dcterms.DCMITypeText-
tuhh.dnb.statusdomain-
item.creatorGNDKamp, Birger-
item.fulltextWith Fulltext-
item.creatorOrcidKamp, Birger-
item.grantfulltextopen-
item.cerifentitytypePublications-
item.advisorGNDZukunft, Olaf-
item.languageiso639-1de-
item.openairecristypehttp://purl.org/coar/resource_type/c_46ec-
item.openairetypeThesis-
Appears in Collections:Theses
Files in This Item:
File Description SizeFormat
Masterthesis_Kamp.pdf14.73 MBAdobe PDFView/Open
Show simple item record

Page view(s)

317
checked on Dec 26, 2024

Download(s)

384
checked on Dec 26, 2024

Google ScholarTM

Check

HAW Katalog

Check

Note about this record


Items in REPOSIT are protected by copyright, with all rights reserved, unless otherwise indicated.