Volltextdatei(en) in REPOSIT vorhanden Open Access
Titel: Towards Zero-Downtime Distributed Systems : Intelligent Error Detection and Automated Recovery
Sprache: Englisch
Autorenschaft: Škorić, Ante 
Schlagwörter: Microservice-Systeme; Verteilte Systeme; Chaos Engineering; Lasttests; MAPE-K-Modell
Erscheinungsdatum: 9-Jan-2026
Zusammenfassung: 
Microservice-Systeme sind aufgrund ihrer verteilten Natur und dynamischen Umgebungen anfällig für Ausfälle. Diese Arbeit präsentiert den Entwurf, die Implementierung und die Evaluierung eines Tools, das Chaos Engineering, Lasttests, das MAPE-K-Modell und maschinelles Lernen integriert, um die Systemresilienz zu verbessern. Das Tool wurde an zwei Microservice-Architekturen – dem Student Management System (SMS) und dem E-Commerce Order Management System (EOMS) – über zwölf Fehlerszenarien hinweg evaluiert, wobei die Fehlerraten mit und ohne sein Eingreifen verglichen wurden. Die experimentellen Ergebnisse zeigen eine allgemeine Fehlerreduktion von 57,96 %, mit einer signifikanten Verbesserung von 95 % bei der Abschwächung Kubernetesbezogener Fehler. Trotz seiner Effektivität wies das Tool aufgrund von Ungenauigkeiten bei der Klassifizierung Einschränkungen bei der Behebung bestimmter Spring-bezogener Fehler auf. Durch die Nutzung von XGBoost für die prädiktive Fehlerklassifizierung sowie automatisierte Strategien zur Fehlerbegrenzung zeigt das Tool Potenzial für Self-Healing-Microservices. Zukünftige Forschungsarbeiten sollten sich auf die Verbesserung der Klassifizierungsgenauigkeit, die Erweiterung der Resilienzstrategien und die Optimierung der Tool-Architektur für eine höhere Zuverlässigkeit konzentrieren.

Microservice systems are prone to failures due to their distributed nature and dynamic environments. This thesis introduces the design, implementation, and evaluation of a tool that integrates chaos engineering, load testing, the MAPE-K model, and machine learning to enhance system resilience. The tool was evaluated on two microservice architectures - the Student Management System (SMS) and the E-commerce Order Management System (EOMS) - across twelve failure scenarios, assessing error rates with and without its intervention. Experimental results indicate an overall error reduction of 57.96%, with a significant 95% improvement in mitigating Kubernetes-related failures. Despite its effectiveness, the tool exhibited limitations in addressing certain Spring-related errors due to classification inaccuracies. By leveraging XGBoost for predictive error classification and automated failure mitigation strategies, the tool demonstrates the potential for self-healing microservices. Future research should focus on refining classification accuracy, expanding resilience strategies, and optimizing the tool’s architecture for improved reliability.
URI: https://hdl.handle.net/20.500.12738/18625
Einrichtung: Fakultät Technik und Informatik (ehemalig, aufgelöst 10.2025) 
Department Informatik (ehemalig, aufgelöst 10.2025) 
Dokumenttyp: Abschlussarbeit
Abschlussarbeitentyp: Masterarbeit
Betreuer*in: Sarstedt, Stefan 
Gutachter*in: Tropmann-Frick, Marina  
Enthalten in den Sammlungen:Theses

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat
MA_Towards_Zero-Downtime_Distributed_Systems.pdf3.6 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Seitenansichten

225
checked on 29.01.2026

Download(s)

24
checked on 29.01.2026

Google ScholarTM

Prüfe

HAW Katalog

Prüfe

Feedback zu diesem Datensatz


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.