| Title: | Towards Zero-Downtime Distributed Systems : Intelligent Error Detection and Automated Recovery | Language: | English | Authors: | Škori´c, Ante | Keywords: | Microservice-Systeme; Verteilte Systeme; Chaos Engineering; Lasttests; MAPE-K-Modell | Issue Date: | 9-Jan-2026 | Abstract: | Microservice-Systeme sind aufgrund ihrer verteilten Natur und dynamischen Umgebungen anfällig für Ausfälle. Diese Arbeit präsentiert den Entwurf, die Implementierung und die Evaluierung eines Tools, das Chaos Engineering, Lasttests, das MAPE-K-Modell und maschinelles Lernen integriert, um die Systemresilienz zu verbessern. Das Tool wurde an zwei Microservice-Architekturen – dem Student Management System (SMS) und dem E-Commerce Order Management System (EOMS) – über zwölf Fehlerszenarien hinweg evaluiert, wobei die Fehlerraten mit und ohne sein Eingreifen verglichen wurden. Die experimentellen Ergebnisse zeigen eine allgemeine Fehlerreduktion von 57,96 %, mit einer signifikanten Verbesserung von 95 % bei der Abschwächung Kubernetesbezogener Fehler. Trotz seiner Effektivität wies das Tool aufgrund von Ungenauigkeiten bei der Klassifizierung Einschränkungen bei der Behebung bestimmter Spring-bezogener Fehler auf. Durch die Nutzung von XGBoost für die prädiktive Fehlerklassifizierung sowie automatisierte Strategien zur Fehlerbegrenzung zeigt das Tool Potenzial für Self-Healing-Microservices. Zukünftige Forschungsarbeiten sollten sich auf die Verbesserung der Klassifizierungsgenauigkeit, die Erweiterung der Resilienzstrategien und die Optimierung der Tool-Architektur für eine höhere Zuverlässigkeit konzentrieren. Microservice systems are prone to failures due to their distributed nature and dynamic environments. This thesis introduces the design, implementation, and evaluation of a tool that integrates chaos engineering, load testing, the MAPE-K model, and machine learning to enhance system resilience. The tool was evaluated on two microservice architectures - the Student Management System (SMS) and the E-commerce Order Management System (EOMS) - across twelve failure scenarios, assessing error rates with and without its intervention. Experimental results indicate an overall error reduction of 57.96%, with a significant 95% improvement in mitigating Kubernetes-related failures. Despite its effectiveness, the tool exhibited limitations in addressing certain Spring-related errors due to classification inaccuracies. By leveraging XGBoost for predictive error classification and automated failure mitigation strategies, the tool demonstrates the potential for self-healing microservices. Future research should focus on refining classification accuracy, expanding resilience strategies, and optimizing the tool’s architecture for improved reliability. |
URI: | https://hdl.handle.net/20.500.12738/18625 | Institute: | Fakultät Technik und Informatik (ehemalig, aufgelöst 10.2025) Department Informatik (ehemalig, aufgelöst 10.2025) |
Type: | Thesis | Thesis type: | Master Thesis | Advisor: | Sarstedt, Stefan | Referee: | Tropmann-Frick, Marina |
| Appears in Collections: | Theses |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| MA_Towards_Zero-Downtime_Distributed_Systems.pdf | 3.6 MB | Adobe PDF | View/Open |
Note about this record
Export
Items in REPOSIT are protected by copyright, with all rights reserved, unless otherwise indicated.