Ähnlichkeitsanalyse zur Bewertung von Softwarefehlern mit Methoden der Data Science

Jankowski, Marcel

DC Element	Wert	Sprache
dc.contributor.advisor	Buth, Bettina	-
dc.contributor.author	Jankowski, Marcel	-
dc.date.accessioned	2024-09-27T08:59:29Z	-
dc.date.available	2024-09-27T08:59:29Z	-
dc.date.issued	2023-02-23	-
dc.identifier.uri	https://hdl.handle.net/20.500.12738/16338	-
dc.description.abstract	Das Ziel dieser Arbeit ist die Untersuchung von Methoden der Data Science für die Ähnlichkeitssuche in Fehlermeldungen. Die Motivation ist die Unterstützung von Testern bei der Fehleranalyse. Bei einer aufgetretenen Fehlersituation eines Tests soll es einem Tester möglich sein, nach ähnlichen Fehlermeldungen in einer Datenbank zu suchen. Wenn eine ähnliche bereits gelöste Fehlersituation in der Vergangenheit aufgetreten ist, kann diese Lösung gegebenenfalls auf dem aktuellen Problem angewendet werden. Als reales Beispiel dienen über 400 000 gesammelte Fehlermeldungen des Softwareherstellers für Versicherer, msg life ag. Für eine passende Problemlösung werden mehrere Methoden der natürlichen Sprachverarbeitung genutzt und analysiert. Eine bewährte Technik für den Vergleich von Texten ist die Verwendung von Methoden, die Texte in Vektoren umrechnen. Diese Vektoren können mit einer Vergleichsmetrik verglichen werden. Zwei in dieser Arbeit untersuchte Ansätze sind TF-IDF und SBERT. Mittels mehrerer Experimente wird die Leistung beider Methoden untersucht. Als Vergleichsmetrik wird die Kosinusähnlichkeit verwendet. Die Ergebnisse der Experimente zeigen, dass SBERT fachlich die besseren Ergebnisse aufweist. Hingegen erweist sich TF-IDF bezogen auf den Rechenaufwand und die Speicherkapazität als die kostengünstigere Variante. Abschließend wird die SBERT Methode empfohlen. Diese Methode hat zwar einen erhöhten Aufwand bei ihrer Verwendung. Allerdings hat sie, im Vergleich zur TF-IDF Methode, eine höhere Erfolgsquote für die Ähnlichkeitssuche nach Fehlermeldungen.	de
dc.description.abstract	The goal of this work is to investigate Data Science methods for similarity search in error messages. The motivation is to support testers in error analysis. When an error situation of a test occurs, it should be possible for a tester to search for similar error messages in a database. If a similar and already solved error has occurred in the past, its‘ solution could be applied to the current problem. Over 400.000 collected error messages of the software producer for insurance companies, msg life ag, serve as a real example. Several natural language processing methods are used and analyzed for a suitable problem solution. A proven technique for the comparison of texts is the use of methods that convert texts into vectors. These vectors can be compared using a similarity metric. Two approaches studied in this work are TF-IDF and SBERT. Through several experiments, the performance of both methods is investigated. The cosine similarity is used as the comparison metric. The results of the experiments show that SBERT has technically the better results. On the other hand, TF-IDF proves to be the more cost-effective variant in terms of computational effort and storage capacity. In conclusion, the SBERT method is recommended. This method does have an increased effort in its use. However, compared to the TF-IDF method, it has a higher success rate for similarity search for error messages.	en
dc.language.iso	de	en_US
dc.subject	Ähnlichkeitssuche	en_US
dc.subject	Data Science	en_US
dc.subject	Softwarefehler	en_US
dc.subject	Similarity Search	en_US
dc.subject	Errormessage	en_US
dc.subject.ddc	004: Informatik	en_US
dc.title	Ähnlichkeitsanalyse zur Bewertung von Softwarefehlern mit Methoden der Data Science	de
dc.type	Thesis	en_US
openaire.rights	info:eu-repo/semantics/openAccess	en_US
thesis.grantor.department	Fakultät Technik und Informatik	en_US
thesis.grantor.department	Department Informatik	en_US
thesis.grantor.universityOrInstitution	Hochschule für Angewandte Wissenschaften Hamburg	en_US
tuhh.contributor.referee	Zukunft, Olaf	-
tuhh.identifier.urn	urn:nbn:de:gbv:18302-reposit-195134	-
tuhh.oai.show	true	en_US
tuhh.publication.institute	Fakultät Technik und Informatik	en_US
tuhh.publication.institute	Department Informatik	en_US
tuhh.type.opus	Bachelor Thesis	-
dc.type.casrai	Supervised Student Publication	-
dc.type.dini	bachelorThesis	-
dc.type.driver	bachelorThesis	-
dc.type.status	info:eu-repo/semantics/publishedVersion	en_US
dc.type.thesis	bachelorThesis	en_US
dcterms.DCMIType	Text	-
tuhh.dnb.status	domain	en_US
item.openairetype	Thesis	-
item.creatorOrcid	Jankowski, Marcel	-
item.creatorGND	Jankowski, Marcel	-
item.advisorGND	Buth, Bettina	-
item.grantfulltext	open	-
item.languageiso639-1	de	-
item.fulltext	With Fulltext	-
item.openairecristype	http://purl.org/coar/resource_type/c_46ec	-
item.cerifentitytype	Publications	-
Enthalten in den Sammlungen:	Theses