Die Entwicklung von Reinforcement Learning (RL) im Bereich der modellfreien Regelung steigt schnell
an. Speziell der Aspekt, dass kein Wissen über das Modell bestehen muss, macht diese Ansätze
nützlich und vielversprechend. Reinforcement Learning Algorithmen sind oftmals mithilfe von
neuronalen Netzwerken realisiert. In dieser Bachelorthesis soll ein neuer Ansatz mithilfe von Support
Vektor Maschinen (SVM) am Anwendungsfall des räumlich inversen Pendels untersucht werden. Im
speziellen geht es darum, über eine geeignete Belohnungsstrategie eine Entscheidungsfunktion zu
finden, welche das Pendel in den ausbalancierten Zustand bringt. Die Support Vektor Maschinen
werden verwendet, um eine Hyperebene in die Daten zu legen, welche als solche
Entscheidungsfunktion verwendet werden kann. Die Ergebnisse bestätigen die Funktionalität dieses
Ansatzes. Das Pendel konnte mit diesem Ansatz, ohne Kenntnisse über das Modell, erfolgreich in den
ausbalancierten Zustand gebracht werden.
The development of reinforcement learning (RL) in the field of model-free control is increasing
rapidly. Especially the aspect that no knowledge about the model is required makes these
approaches useful and promising. Reinforcement learning algorithms are often realised with the help
of neural networks. In this bachelor thesis, a new approach using support vector machines (SVM) will
be investigated for the application case of the cartpole. In particular, the aim is to find a decision
function via a suitable reward strategy that brings the pole into the balanced state. Support vector
machines are used to place a hyperplane in the data that can be used as such a decision function.
The results confirm the functionality of this approach. The pole could be successfully brought into the
balanced state with this approach, without any knowledge about the model.