Volltextdatei(en) in REPOSIT vorhanden Open Access
Titel: Towards Zero-Downtime Distributed Systems : Intelligent Error Detection and Automated Recovery
Sprache: Englisch
Autorenschaft: Škori´c, Ante 
Schlagwörter: Microservice-Systeme; Verteilte Systeme; Chaos Engineering; Lasttests; MAPE-K-Modell
Erscheinungsdatum: 9-Jan-2026
Zusammenfassung: 
Microservice-Systeme sind aufgrund ihrer verteilten Natur und dynamischen Umgebungen anfällig für Ausfälle. Diese Arbeit präsentiert den Entwurf, die Implementierung und die Evaluierung eines Tools, das Chaos Engineering, Lasttests, das MAPE-K-Modell und maschinelles Lernen integriert, um die Systemresilienz zu verbessern. Das Tool wurde an zwei Microservice-Architekturen – dem Student Management System (SMS) und dem E-Commerce Order Management System (EOMS) – über zwölf Fehlerszenarien hinweg evaluiert, wobei die Fehlerraten mit und ohne sein Eingreifen verglichen wurden. Die experimentellen Ergebnisse zeigen eine allgemeine Fehlerreduktion von 57,96 %, mit einer signifikanten Verbesserung von 95 % bei der Abschwächung Kubernetesbezogener Fehler. Trotz seiner Effektivität wies das Tool aufgrund von Ungenauigkeiten bei der Klassifizierung Einschränkungen bei der Behebung bestimmter Spring-bezogener Fehler auf. Durch die Nutzung von XGBoost für die prädiktive Fehlerklassifizierung sowie automatisierte Strategien zur Fehlerbegrenzung zeigt das Tool Potenzial für Self-Healing-Microservices. Zukünftige Forschungsarbeiten sollten sich auf die Verbesserung der Klassifizierungsgenauigkeit, die Erweiterung der Resilienzstrategien und die Optimierung der Tool-Architektur für eine höhere Zuverlässigkeit konzentrieren.

Microservice systems are prone to failures due to their distributed nature and dynamic environments. This thesis introduces the design, implementation, and evaluation of a tool that integrates chaos engineering, load testing, the MAPE-K model, and machine learning to enhance system resilience. The tool was evaluated on two microservice architectures - the Student Management System (SMS) and the E-commerce Order Management System (EOMS) - across twelve failure scenarios, assessing error rates with and without its intervention. Experimental results indicate an overall error reduction of 57.96%, with a significant 95% improvement in mitigating Kubernetes-related failures. Despite its effectiveness, the tool exhibited limitations in addressing certain Spring-related errors due to classification inaccuracies. By leveraging XGBoost for predictive error classification and automated failure mitigation strategies, the tool demonstrates the potential for self-healing microservices. Future research should focus on refining classification accuracy, expanding resilience strategies, and optimizing the tool’s architecture for improved reliability.
URI: https://hdl.handle.net/20.500.12738/18625
Einrichtung: Fakultät Technik und Informatik (ehemalig, aufgelöst 10.2025) 
Department Informatik (ehemalig, aufgelöst 10.2025) 
Dokumenttyp: Abschlussarbeit
Abschlussarbeitentyp: Masterarbeit
Betreuer*in: Sarstedt, Stefan 
Gutachter*in: Tropmann-Frick, Marina  
Enthalten in den Sammlungen:Theses

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat
MA_Towards_Zero-Downtime_Distributed_Systems.pdf3.6 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Google ScholarTM

Prüfe

HAW Katalog

Prüfe

Feedback zu diesem Datensatz


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.