Leistungsfähigkeit von Large Language Models bei der Fehlererkennung und Fehlerbehebung im Softwaretest

Van, Lan Mong Luu

Title:	Leistungsfähigkeit von Large Language Models bei der Fehlererkennung und Fehlerbehebung im Softwaretest
Language:	German
Authors:	Van, Lan Mong Luu
Keywords:	Large Language Models; Softwaretest; Fehlererkennung; Fehlerbehebung; Künstliche Intelligenz
Issue Date:	17-Jun-2025
Abstract:	Softwaretests sind ein zentraler Bestandteil der Qualitätssicherung, der jedoch oft mit erhöhten Kosten und Zeit verbunden ist. Large Language Models zeigen vielversprechendes Potenzial zur Unterstützung im Testprozess. Ziel dieser Arbeit ist die systematische Untersuchung der Leistungsfähigkeit von Large Language Models in den Testaktivitäten Fehlererkennung und Fehlerbehebung. Hierzu wurden das generische Modell ChatGPT in der Version GPT-4 und das auf Code spezialisierte Modell Qwen2.5-Coder-32B-Instruct miteinander verglichen. Die Modelle erhielten standardisierte Eingaben unter Verwendung von Zero-Shot- und Chain-of-Thought-Prompts, um zusätzlich den Einfluss von Prompting auf die Leistungsfähigkeit zu ermitteln. Als Testdatensatz diente die Java-Version von QuixBugs. Die Bewertung der Modelle erfolgte anhand quantitativer Evaluationskriterien und qualitativer Beobachtungen. Die Ergebnisse zeigen, dass beide Modelle grundsätzlich in der Lage sind, diese Testaufgaben zu bewältigen. ChatGPT erreichte in der Fehlererkennung hohe Recall-Werte, erzeugte jedoch häufiger False Positives. Qwen2.5-Coder-32BInstruct wies eine höhere Precision auf. Der Fehlertyp incorrect output stellte sich als besonders problematisch dar. In der Fehlerbehebung erzielte ChatGPT mit Zero-Shot-Prompting eine Erfolgsrate von 93%, deutlich über früheren Studien. Ein signifikanter Zusammenhang zwischen Codekomplexität und Reparaturerfolg konnte nicht festgestellt werden. Chain-of-Thought-Prompts führten zu deutlich längeren Bearbeitungszeiten. Die Ergebnisse unterstreichen das Potenzial von Large Language Models im Softwaretest. Die Effektivität ist jedoch abhängig von Modelltyp und Prompting- Strategie. Des Weiteren sind die Ergebnisse aufgrund der methodischen Einschränkungen des synthetischen Datensatzes nur eingeschränkt auf reale Projekte übertragbar. Software testing is a central component of quality assurance, but is often associated with increased costs and time. Large language models show promising potential for supporting the testing process. The aim of this thesis is to systematically analyse the performance of large language models in the test activities of error detection and error correction. For this purpose, the generic model ChatGPT in the version GPT-4 and the model Qwen2.5-Coder-32B-Instruct, which specialises in code, were compared with each other. The models were given standardised input using zero-shot and chain-of-thought prompts in order to additionally determine the influence of prompting on performance. The Java version of QuixBugs was used as the test data set. The models were assessed using quantitative evaluation criteria and qualitative observations. The results show that both models are principally able to cope with these test tasks. ChatGPT achieved high recall values in error detection, but generated false positives more frequently. Qwen2.5-Coder-32B-Instruct showed a higher precision. The incorrect output error type proved to be particularly problematic. In error correction, ChatGPT with zero-shot prompting achieved a success rate of 93%, well above previous studies. A significant correlation between code complexity and repair success could not be established. Chain-of-thought prompts led to significantly longer processing times. The results emphasise the potential of large language models in software testing. However, the effectiveness depends on the model type and prompting strategy. Furthermore, due to the methodological limitations of the synthetic data set, the results can only be transferred to real projects to a limited extent.
URI:	https://hdl.handle.net/20.500.12738/18733
Institute:	Department Informatik (ehemalig, aufgelöst 10.2025) Fakultät Technik und Informatik (ehemalig, aufgelöst 10.2025)
Type:	Thesis
Thesis type:	Bachelor Thesis
Advisor:	Steffens, Ulrike
Referee:	Buth, Bettina
Appears in Collections:	Theses

Files in This Item:

File	Description	Size	Format
BA_Leistungsfähigkeit von Large Language Models bei der Fehlererkennung und Fehlerbehebung im Softwaretest_geschwärzt.pdf		957.08 kB	Adobe PDF	View/Open

Show full item record