Robuster Reinforcement Learning Algorithmus zur Überbrückung der Sim-to-Real Gap im autonomen Fahren

Hoffmann, Alexander

Title:	Robuster Reinforcement Learning Algorithmus zur Überbrückung der Sim-to-Real Gap im autonomen Fahren
Language:	German
Authors:	Hoffmann, Alexander
Keywords:	Autonomes Fahren; Reinforcement Learning; Sim-to-Real Gap; Machine Learning; Deep Learning; Robuste Steuerung; Autonomous Driving; Reinforcement Learning; Robust Control
Issue Date:	27-Sep-2024
Abstract:	Die Diskrepanz zwischen der Realität und einer Simulation stellt die Forschung im Bereich des autonomen Fahrens vor zahlreiche Herausforderungen. Simulationen erfassen nicht alle Aspekte der realenWelt, und das Training in der Simulation kann zu unvorhersehbarem Verhalten in der tatsächlichen Anwendung führen, aufgrund der Unterschiede zwischen der Simulation und der realen Umgebung. In dieser Arbeit wird ein Ansatz vorgestellt, um diese Unterschiede speziell in Bezug auf die Lenkung eines Fahrzeugs zu behandeln. Dieser Ansatz wird bei drei unterschiedlichen Reinforcement Learning Algorithmen angewandt: TD3, PPO und DQN. Die Idee besteht darin, anstatt das Netzwerk mit einem absoluten Lenkwinkel zu trainieren, mit der Differenz zwischen dem gewünschten und dem gegebenen Lenkwinkel zu arbeiten. Dadurch können Abweichungen in der Lenkung korrigiert werden, die durch technische Fehler in einer realen Anwendung verursacht wurden. Dieser Ansatz, der als TD3Δ, PPOΔ und DQNΔ bezeichnet wird, wird mit dem herkömmlichen TD3, PPO und DQN verglichen. Zusätzlich werden die Architekturen beschrieben, die in TD3Δ, PPOΔ und DQNΔ verwendet werden. The discrepancy between reality and simulation presents numerous challenges in the field of autonomous driving research. Simulations do not capture all aspects of the real world, and training in a simulation can lead to unpredictable behavior in real-world applications due to differences between the simulation and the actual environment. This work presents an approach to specifically address these differences in relation to vehicle steering. This approach is applied to three different reinforcement learning algorithms: TD3, PPO, and DQN. The idea is to train the network not with an absolute steering angle but with the difference between the desired and actual steering angles. This allows for correcting steering deviations caused by technical errors in a real-world application. This approach, referred to as TD3Δ, PPOΔ, and DQNΔ, is compared with the conventional TD3, PPO, and DQN methods. Additionally, the architectures used in TD3Δ, PPOΔ, and DQNΔ are described.
URI:	https://hdl.handle.net/20.500.12738/16344
Institute:	Fakultät Technik und Informatik Department Informatik
Type:	Thesis
Thesis type:	Master Thesis
Advisor:	Pareigis, Stephan
Referee:	Tiedemann, Tim
Appears in Collections:	Theses