| Titel: | Towards Zero-Downtime Distributed Systems : Intelligent Error Detection and Automated Recovery | Sprache: | Englisch | Autorenschaft: | Škori´c, Ante | Schlagwörter: | Microservice-Systeme; Verteilte Systeme; Chaos Engineering; Lasttests; MAPE-K-Modell | Erscheinungsdatum: | 9-Jan-2026 | Zusammenfassung: | Microservice-Systeme sind aufgrund ihrer verteilten Natur und dynamischen Umgebungen anfällig für Ausfälle. Diese Arbeit präsentiert den Entwurf, die Implementierung und die Evaluierung eines Tools, das Chaos Engineering, Lasttests, das MAPE-K-Modell und maschinelles Lernen integriert, um die Systemresilienz zu verbessern. Das Tool wurde an zwei Microservice-Architekturen – dem Student Management System (SMS) und dem E-Commerce Order Management System (EOMS) – über zwölf Fehlerszenarien hinweg evaluiert, wobei die Fehlerraten mit und ohne sein Eingreifen verglichen wurden. Die experimentellen Ergebnisse zeigen eine allgemeine Fehlerreduktion von 57,96 %, mit einer signifikanten Verbesserung von 95 % bei der Abschwächung Kubernetesbezogener Fehler. Trotz seiner Effektivität wies das Tool aufgrund von Ungenauigkeiten bei der Klassifizierung Einschränkungen bei der Behebung bestimmter Spring-bezogener Fehler auf. Durch die Nutzung von XGBoost für die prädiktive Fehlerklassifizierung sowie automatisierte Strategien zur Fehlerbegrenzung zeigt das Tool Potenzial für Self-Healing-Microservices. Zukünftige Forschungsarbeiten sollten sich auf die Verbesserung der Klassifizierungsgenauigkeit, die Erweiterung der Resilienzstrategien und die Optimierung der Tool-Architektur für eine höhere Zuverlässigkeit konzentrieren. Microservice systems are prone to failures due to their distributed nature and dynamic environments. This thesis introduces the design, implementation, and evaluation of a tool that integrates chaos engineering, load testing, the MAPE-K model, and machine learning to enhance system resilience. The tool was evaluated on two microservice architectures - the Student Management System (SMS) and the E-commerce Order Management System (EOMS) - across twelve failure scenarios, assessing error rates with and without its intervention. Experimental results indicate an overall error reduction of 57.96%, with a significant 95% improvement in mitigating Kubernetes-related failures. Despite its effectiveness, the tool exhibited limitations in addressing certain Spring-related errors due to classification inaccuracies. By leveraging XGBoost for predictive error classification and automated failure mitigation strategies, the tool demonstrates the potential for self-healing microservices. Future research should focus on refining classification accuracy, expanding resilience strategies, and optimizing the tool’s architecture for improved reliability. |
URI: | https://hdl.handle.net/20.500.12738/18625 | Einrichtung: | Fakultät Technik und Informatik (ehemalig, aufgelöst 10.2025) Department Informatik (ehemalig, aufgelöst 10.2025) |
Dokumenttyp: | Abschlussarbeit | Abschlussarbeitentyp: | Masterarbeit | Betreuer*in: | Sarstedt, Stefan | Gutachter*in: | Tropmann-Frick, Marina |
| Enthalten in den Sammlungen: | Theses |
Dateien zu dieser Ressource:
| Datei | Beschreibung | Größe | Format | |
|---|---|---|---|---|
| MA_Towards_Zero-Downtime_Distributed_Systems.pdf | 3.6 MB | Adobe PDF | Öffnen/Anzeigen |
Feedback zu diesem Datensatz
Export
Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.