Fulltext available Open Access
DC FieldValueLanguage
dc.contributor.advisorButh, Bettina-
dc.contributor.authorJankowski, Marcel-
dc.date.accessioned2024-09-27T08:59:29Z-
dc.date.available2024-09-27T08:59:29Z-
dc.date.created2023-02-23-
dc.date.issued2024-09-27-
dc.identifier.urihttps://hdl.handle.net/20.500.12738/16338-
dc.description.abstractDas Ziel dieser Arbeit ist die Untersuchung von Methoden der Data Science für die Ähnlichkeitssuche in Fehlermeldungen. Die Motivation ist die Unterstützung von Testern bei der Fehleranalyse. Bei einer aufgetretenen Fehlersituation eines Tests soll es einem Tester möglich sein, nach ähnlichen Fehlermeldungen in einer Datenbank zu suchen. Wenn eine ähnliche bereits gelöste Fehlersituation in der Vergangenheit aufgetreten ist, kann diese Lösung gegebenenfalls auf dem aktuellen Problem angewendet werden. Als reales Beispiel dienen über 400 000 gesammelte Fehlermeldungen des Softwareherstellers für Versicherer, msg life ag. Für eine passende Problemlösung werden mehrere Methoden der natürlichen Sprachverarbeitung genutzt und analysiert. Eine bewährte Technik für den Vergleich von Texten ist die Verwendung von Methoden, die Texte in Vektoren umrechnen. Diese Vektoren können mit einer Vergleichsmetrik verglichen werden. Zwei in dieser Arbeit untersuchte Ansätze sind TF-IDF und SBERT. Mittels mehrerer Experimente wird die Leistung beider Methoden untersucht. Als Vergleichsmetrik wird die Kosinusähnlichkeit verwendet. Die Ergebnisse der Experimente zeigen, dass SBERT fachlich die besseren Ergebnisse aufweist. Hingegen erweist sich TF-IDF bezogen auf den Rechenaufwand und die Speicherkapazität als die kostengünstigere Variante. Abschließend wird die SBERT Methode empfohlen. Diese Methode hat zwar einen erhöhten Aufwand bei ihrer Verwendung. Allerdings hat sie, im Vergleich zur TF-IDF Methode, eine höhere Erfolgsquote für die Ähnlichkeitssuche nach Fehlermeldungen.de
dc.description.abstractThe goal of this work is to investigate Data Science methods for similarity search in error messages. The motivation is to support testers in error analysis. When an error situation of a test occurs, it should be possible for a tester to search for similar error messages in a database. If a similar and already solved error has occurred in the past, its‘ solution could be applied to the current problem. Over 400.000 collected error messages of the software producer for insurance companies, msg life ag, serve as a real example. Several natural language processing methods are used and analyzed for a suitable problem solution. A proven technique for the comparison of texts is the use of methods that convert texts into vectors. These vectors can be compared using a similarity metric. Two approaches studied in this work are TF-IDF and SBERT. Through several experiments, the performance of both methods is investigated. The cosine similarity is used as the comparison metric. The results of the experiments show that SBERT has technically the better results. On the other hand, TF-IDF proves to be the more cost-effective variant in terms of computational effort and storage capacity. In conclusion, the SBERT method is recommended. This method does have an increased effort in its use. However, compared to the TF-IDF method, it has a higher success rate for similarity search for error messages.en
dc.language.isodeen_US
dc.subjectÄhnlichkeitssucheen_US
dc.subjectData Scienceen_US
dc.subjectSoftwarefehleren_US
dc.subjectSimilarity Searchen_US
dc.subjectErrormessageen_US
dc.subject.ddc004: Informatiken_US
dc.titleÄhnlichkeitsanalyse zur Bewertung von Softwarefehlern mit Methoden der Data Sciencede
dc.typeThesisen_US
openaire.rightsinfo:eu-repo/semantics/openAccessen_US
thesis.grantor.departmentFakultät Technik und Informatiken_US
thesis.grantor.departmentDepartment Informatiken_US
thesis.grantor.universityOrInstitutionHochschule für Angewandte Wissenschaften Hamburgen_US
tuhh.contributor.refereeZukunft, Olaf-
tuhh.identifier.urnurn:nbn:de:gbv:18302-reposit-195134-
tuhh.oai.showtrueen_US
tuhh.publication.instituteFakultät Technik und Informatiken_US
tuhh.publication.instituteDepartment Informatiken_US
tuhh.type.opusBachelor Thesis-
dc.type.casraiSupervised Student Publication-
dc.type.dinibachelorThesis-
dc.type.driverbachelorThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersionen_US
dc.type.thesisbachelorThesisen_US
dcterms.DCMITypeText-
tuhh.dnb.statusdomainen_US
item.advisorGNDButh, Bettina-
item.creatorGNDJankowski, Marcel-
item.languageiso639-1de-
item.cerifentitytypePublications-
item.openairecristypehttp://purl.org/coar/resource_type/c_46ec-
item.creatorOrcidJankowski, Marcel-
item.fulltextWith Fulltext-
item.grantfulltextopen-
item.openairetypeThesis-
Appears in Collections:Theses
Files in This Item:
Show simple item record

Page view(s)

36
checked on Nov 23, 2024

Download(s)

18
checked on Nov 23, 2024

Google ScholarTM

Check

HAW Katalog

Check

Note about this record


Items in REPOSIT are protected by copyright, with all rights reserved, unless otherwise indicated.