Diese Bachelor-Thesis untersucht den Einsatz von Reinforcement Learning unter Verwendung von
Stable Baselines3. Reinforcement Learning dient als Methode zur Regelung von Systemen mit
unbekannten Zustandsübergängen, insbesondere wenn ein zugrundeliegendes Modell fehlt und nur
eine Zielfunktion gegeben ist. Die Arbeit nutzt die Reinforcement-Learning-Algorithmen DQN, A2C
und PPO, um virtuelle Systeme wie z.B. das inverse Pendel zu steuern. Das angewendete Werkzeug
Stable Baselines3 basiert auf Python und bietet vorimplementierte Algorithmen und
Simulationsumgebungen. Die Arbeit konzentriert sich darauf, die Fähigkeit von Reinforcement
Learning zu untersuchen und stabile Regelungssysteme ohne bekanntes Modell einzulernen. Die
Ergebnisse zeigen, dass DQN, A2C und PPO mehrheitlich stabile Regelungen ermöglichen, wobei
Optimierungsmöglichkeiten mit längeren Einlernprozessen bestehen. Die Nutzung von Stable
Baselines3 für benutzerdefinierte Umgebungen wird ebenfalls untersucht und mit den Ergebnissen
der vorimplementierten Umgebungen verglichen. Die Arbeit schliesst mit der Erkenntnis, dass Stable
Baselines3 ein leistungsfähiges Werkzeug für Reinforcement-Learning-Anwendungen ist, betont
jedoch die Notwendigkeit einer umfangreichen Einarbeitung aufgrund anfänglicher Komplexität.
This bachelor thesis investigates the use of reinforcement learning using stable baselines3.
Reinforcement learning is used as a method to control systems with unknown state transitions,
especially when an underlying model is missing and only one objective function is given. The work
uses the reinforcement learning algorithms DQN, A2C and PPO to control virtual systems such as the
inverse pendulum. The applied tool Stable Baselines3 is based on Python and provides preimplemented
algorithms and simulation environments. The work focuses on investigating the ability
of reinforcement learning to learn stable control systems without a known model. The results show
that DQN, A2C and PPO provide mostly stable control, with optimization opportunities with longer
learning processes. The use of stable baselines3 for user-defined environments is also investigated
and compared with the results of the pre-implemented environments. The paper concludes that
Stable Baselines3 is a powerful tool for reinforcement learning applications, but emphasizes the need
for extensive training due to initial complexity.
Diese Bachelor-Thesis untersucht den Einsatz von Reinforcement Learning unter Verwendung von
Stable Baselines3. Reinforcement Learning dient als Methode zur Regelung von Systemen mit
unbekannten Zustandsübergängen, insbesondere wenn ein zugrundeliegendes Modell fehlt und nur
eine Zielfunktion gegeben ist. Die Arbeit nutzt die Reinforcement-Learning-Algorithmen DQN, A2C
und PPO, um virtuelle Systeme wie z.B. das inverse Pendel zu steuern. Das angewendete Werkzeug
Stable Baselines3 basiert auf Python und bietet vorimplementierte Algorithmen und
Simulationsumgebungen. Die Arbeit konzentriert sich darauf, die Fähigkeit von Reinforcement
Learning zu untersuchen und stabile Regelungssysteme ohne bekanntes Modell einzulernen. Die
Ergebnisse zeigen, dass DQN, A2C und PPO mehrheitlich stabile Regelungen ermöglichen, wobei
Optimierungsmöglichkeiten mit längeren Einlernprozessen bestehen. Die Nutzung von Stable
Baselines3 für benutzerdefinierte Umgebungen wird ebenfalls untersucht und mit den Ergebnissen
der vorimplementierten Umgebungen verglichen. Die Arbeit schliesst mit der Erkenntnis, dass Stable
Baselines3 ein leistungsfähiges Werkzeug für Reinforcement-Learning-Anwendungen ist, betont
jedoch die Notwendigkeit einer umfangreichen Einarbeitung aufgrund anfänglicher Komplexität.
This bachelor thesis investigates the use of reinforcement learning using stable baselines3.
Reinforcement learning is used as a method to control systems with unknown state transitions,
especially when an underlying model is missing and only one objective function is given. The work
uses the reinforcement learning algorithms DQN, A2C and PPO to control virtual systems such as the
inverse pendulum. The applied tool Stable Baselines3 is based on Python and provides preimplemented
algorithms and simulation environments. The work focuses on investigating the ability
of reinforcement learning to learn stable control systems without a known model. The results show
that DQN, A2C and PPO provide mostly stable control, with optimization opportunities with longer
learning processes. The use of stable baselines3 for user-defined environments is also investigated
and compared with the results of the pre-implemented environments. The paper concludes that
Stable Baselines3 is a powerful tool for reinforcement learning applications, but emphasizes the need
for extensive training due to initial complexity.