In der vorliegenden Arbeit werden mehrere machinelearning Modelle mit unterschiedlichen
Konfigurationen trainiert und ausgewertet. Zweck ist es einen Überblick in die Technologie zu zu
geben und die Transformerarchitektur zu erklären. Als Grundlage dieser Arbeit dient das Paper
''Attention Is All You Need'' aus 2017. Die Modelle werden mit Pytorch entwickelt. Als Grundlage für
die Software wird ein Tutorial von Pytorch verwendet und angepasst. Zuerst wurde ein Modell mit
dem Wikitext2 Datensatz trainiert. Es werden Texte generiert und untersucht. Nach nicht
zufriedenstellenden Resultaten mit diesem Datensatz, mit einer Perplexity im Testsplit von 170.28
werden weitere Modelle mit Büchern von Karl May trainiert. Diese Erreichen bessere Ergebnisse in
Perplexity und im generieren von natürlicher Sprache. Die Perplexity des besten Modells mit dem
Karl May Datensatz erreicht eine Perplexity von 59.99. Zusätzlich werden Self-Attention Matrizen
visualisiert und der Unterschied zwei Modellen genauer aufgezeigt.
In this paper, several machinelearning models with different configurations are trained and analysed.
The purpose is to provide an overview of the technology and explain the transformer architecture.
The paper ''Attention Is All You Need'' from 2017 serves as the basis for this work. The models are
developed with Pytorch. A tutorial from Pytorch is used and adapted as the basis for the software.
First, a model was trained with the Wikitext2 data set. Texts are generated and analysed. After
unsatisfactory results with this data set, with a perplexity in the test split of 170.28, further models
are trained with books by Karl May. These achieve better results in perplexity and in generating
natural language. The perplexity of the best model with the Karl May data set achieves a perplexity
of 59.99. In addition, self-attention matrices are visualised and the difference between the two
models is shown in more detail.