Evaluation of Model Serving Frameworks for Machine Learning

Joshi, Divyesh

Title:	Evaluation of Model Serving Frameworks for Machine Learning
Language:	English
Authors:	Joshi, Divyesh
Keywords:	Machine Learning; Model Serving; TensorFlow Serving; Triton Inference Server; BentoML; FastAPI; Inference; Preprocessing; Postprocessing
Issue Date:	1-Oct-2025
Abstract:	This thesis presents an evaluation of model serving frameworks for machine learning, focusing on their performance, ease of deployment, and multi-model support in real-world production environments. The frameworks evaluated include TensorFlow Serving, Triton Inference Server, BentoML, TorchServe, and FastAPI. After a comprehensive theoretical analysis, TensorFlow Serving, Triton, and BentoML were selected for practical evaluation due to their compatibility with the project’s requirements. The final system integrates TensorFlow Serving with FastAPI to create a efficient machine learning model-serving platform. In this architecture, TensorFlow Serving handles inference while FastAPI is responsible for preprocessing, postprocessing, and implementing secure authentication using OAuth2. The system was tested under CPU-bound conditions using REST APIs to ensure broad compatibility. Although TensorFlow Serving exhibited superior performance in terms of latency, testing on GPU-enabled hardware could potentially enhance performance across all frameworks, offering even greater improvements in inference speed and efficiency. Future work can focus on conducting more extensive testing, particularly on GPU-enabled systems. Diese Arbeit stellt eine Evaluierung von Model serving Frameworks für maschinelles Lernen vor und konzentriert sich dabei auf deren Leistung, einfache Bereitstellung und Multi- Modell-Unterstützung in realen Produktionsumgebungen. Zu den evaluierten Frameworks gehören TensorFlow Serving, Triton Inference Server, BentoML, TorchServe und FastAPI. Nach einer umfassenden theoretischen Analyse wurden TensorFlow Serving, Triton und BentoML aufgrund ihrer Kompatibilität mit den Anforderungen des Projekts für die praktische Evaluierung ausgewählt. Das endgültige System integriert TensorFlow Serving mit FastAPI, um eine effiziente Plattform für maschinelles Lernen und Modellserving zu schaffen. In dieser Architektur übernimmt TensorFlow Serving die Inferenz, während FastAPI für das Preprocessing, Postprocessing und die Implementierung einer sicheren Authentifizierung mittels OAuth2 verantwortlich ist. Das System wurde unter CPU-gebundenen Bedingungen mit REST APIs getestet, um eine breite Kompatibilität zu gewährleisten. Obwohl TensorFlow Serving eine überlegene Leistung in Bezug auf die Latenzzeit aufwies, könnte das Testen auf GPU-fähiger Hardware die Leistung aller Frameworks potenziell verbessern und noch größere Verbesserungen bei der Inferenzgeschwindigkeit und -effizienz bieten. Zukünftige Arbeiten können sich auf die Durchführung umfassenderer Tests konzentrieren, insbesondere auf GPU-fähigen Systemen.
URI:	https://hdl.handle.net/20.500.12738/18245
Institute:	Department Informations- und Elektrotechnik Fakultät Technik und Informatik
Type:	Thesis
Thesis type:	Bachelor Thesis
Advisor:	Eger, Kolja
Referee:	Renz, Wolfgang
Appears in Collections:	Theses