DC Element | Wert | Sprache |
---|---|---|
dc.contributor.advisor | Buth, Bettina | - |
dc.contributor.author | Jankowski, Marcel | - |
dc.date.accessioned | 2024-09-27T08:59:29Z | - |
dc.date.available | 2024-09-27T08:59:29Z | - |
dc.date.created | 2023-02-23 | - |
dc.date.issued | 2024-09-27 | - |
dc.identifier.uri | https://hdl.handle.net/20.500.12738/16338 | - |
dc.description.abstract | Das Ziel dieser Arbeit ist die Untersuchung von Methoden der Data Science für die Ähnlichkeitssuche in Fehlermeldungen. Die Motivation ist die Unterstützung von Testern bei der Fehleranalyse. Bei einer aufgetretenen Fehlersituation eines Tests soll es einem Tester möglich sein, nach ähnlichen Fehlermeldungen in einer Datenbank zu suchen. Wenn eine ähnliche bereits gelöste Fehlersituation in der Vergangenheit aufgetreten ist, kann diese Lösung gegebenenfalls auf dem aktuellen Problem angewendet werden. Als reales Beispiel dienen über 400 000 gesammelte Fehlermeldungen des Softwareherstellers für Versicherer, msg life ag. Für eine passende Problemlösung werden mehrere Methoden der natürlichen Sprachverarbeitung genutzt und analysiert. Eine bewährte Technik für den Vergleich von Texten ist die Verwendung von Methoden, die Texte in Vektoren umrechnen. Diese Vektoren können mit einer Vergleichsmetrik verglichen werden. Zwei in dieser Arbeit untersuchte Ansätze sind TF-IDF und SBERT. Mittels mehrerer Experimente wird die Leistung beider Methoden untersucht. Als Vergleichsmetrik wird die Kosinusähnlichkeit verwendet. Die Ergebnisse der Experimente zeigen, dass SBERT fachlich die besseren Ergebnisse aufweist. Hingegen erweist sich TF-IDF bezogen auf den Rechenaufwand und die Speicherkapazität als die kostengünstigere Variante. Abschließend wird die SBERT Methode empfohlen. Diese Methode hat zwar einen erhöhten Aufwand bei ihrer Verwendung. Allerdings hat sie, im Vergleich zur TF-IDF Methode, eine höhere Erfolgsquote für die Ähnlichkeitssuche nach Fehlermeldungen. | de |
dc.description.abstract | The goal of this work is to investigate Data Science methods for similarity search in error messages. The motivation is to support testers in error analysis. When an error situation of a test occurs, it should be possible for a tester to search for similar error messages in a database. If a similar and already solved error has occurred in the past, its‘ solution could be applied to the current problem. Over 400.000 collected error messages of the software producer for insurance companies, msg life ag, serve as a real example. Several natural language processing methods are used and analyzed for a suitable problem solution. A proven technique for the comparison of texts is the use of methods that convert texts into vectors. These vectors can be compared using a similarity metric. Two approaches studied in this work are TF-IDF and SBERT. Through several experiments, the performance of both methods is investigated. The cosine similarity is used as the comparison metric. The results of the experiments show that SBERT has technically the better results. On the other hand, TF-IDF proves to be the more cost-effective variant in terms of computational effort and storage capacity. In conclusion, the SBERT method is recommended. This method does have an increased effort in its use. However, compared to the TF-IDF method, it has a higher success rate for similarity search for error messages. | en |
dc.language.iso | de | en_US |
dc.subject | Ähnlichkeitssuche | en_US |
dc.subject | Data Science | en_US |
dc.subject | Softwarefehler | en_US |
dc.subject | Similarity Search | en_US |
dc.subject | Errormessage | en_US |
dc.subject.ddc | 004: Informatik | en_US |
dc.title | Ähnlichkeitsanalyse zur Bewertung von Softwarefehlern mit Methoden der Data Science | de |
dc.type | Thesis | en_US |
openaire.rights | info:eu-repo/semantics/openAccess | en_US |
thesis.grantor.department | Fakultät Technik und Informatik | en_US |
thesis.grantor.department | Department Informatik | en_US |
thesis.grantor.universityOrInstitution | Hochschule für Angewandte Wissenschaften Hamburg | en_US |
tuhh.contributor.referee | Zukunft, Olaf | - |
tuhh.identifier.urn | urn:nbn:de:gbv:18302-reposit-195134 | - |
tuhh.oai.show | true | en_US |
tuhh.publication.institute | Fakultät Technik und Informatik | en_US |
tuhh.publication.institute | Department Informatik | en_US |
tuhh.type.opus | Bachelor Thesis | - |
dc.type.casrai | Supervised Student Publication | - |
dc.type.dini | bachelorThesis | - |
dc.type.driver | bachelorThesis | - |
dc.type.status | info:eu-repo/semantics/publishedVersion | en_US |
dc.type.thesis | bachelorThesis | en_US |
dcterms.DCMIType | Text | - |
tuhh.dnb.status | domain | en_US |
item.advisorGND | Buth, Bettina | - |
item.creatorGND | Jankowski, Marcel | - |
item.languageiso639-1 | de | - |
item.cerifentitytype | Publications | - |
item.openairecristype | http://purl.org/coar/resource_type/c_46ec | - |
item.creatorOrcid | Jankowski, Marcel | - |
item.fulltext | With Fulltext | - |
item.grantfulltext | open | - |
item.openairetype | Thesis | - |
Enthalten in den Sammlungen: | Theses |
Dateien zu dieser Ressource:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
BA_Ähnlichkeitsanalyse_Softwarefehler mit Methoden der Data Science.pdf | 2.22 MB | Adobe PDF | Öffnen/Anzeigen |
Feedback zu diesem Datensatz
Export
Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.