Automatische Spracherkennung (ASR) ist eine zentrale Komponente von Sprachassistenten. ASR hat
sich in mehreren Sprachen, darunter Englisch und Deutsch, bewährt. Bei Sprachen mit geringen
Ressourcen ist die Leistung jedoch nicht zufriedenstellend, da es an großen Datensätzen mangelt.
Die schlechte Leistung schränkt die Akzeptanz in Ländern wie der Schweiz ein. In dieser Arbeit
untersuchen wir die Möglichkeit, die schweizerdeutsche Spracherkennung durch Unsupervised
Learning zu verbessern.
Die Grundlage für unsere Arbeit ist wav2vec-Unsupervised. Sprachrepräsentationen werden aus
Audiodateien mithilfe eines wav2vec2-Modells erzeugt. Wir haben ein Generative Adversarial
Network (GAN) auf diesen Repräsentationen und ungepaarten phonemisierten Text trainiert. Der
Generator lernt Audio zu transkribieren und der Discriminator muss Daten aus unserem Textkorpus
und vom Generator erzeugte Daten unterscheiden. Zunächst haben wir die veröffentlichten
Ergebnisse für Deutsch reproduziert. Danach führten wir Experimente mit schweizerdeutschen Daten
durch.
Wir erzielten eine Phoneme Error Rate (PER) von 17.5% für Deutsch und konnten die veröffentlichten
Ergebnisse auf Phonemebene erfolgreich reproduzieren. Nach verschiedenen Versuchen, die
Trainingsstabilität des GANs zu optimieren, erreichte unser bester schweizerdeutscher Ansatz mit
zehn Stunden Audiodaten eine PER von 86.5%. Abschliessend listen wir einige Vorschläge auf, wie
unsere Ergebnisse in zukünftigen Arbeiten weiter verbessert werden können.
Automatic speech recognition (ASR) is a core building block for voice assistants. ASR has performed
strongly in several languages, among them English and German. However, it performs poorly on lowresource
languages due to a lack of sizable datasets. Poor performance limits acceptance in countries
such as Switzerland because of its unique variants of German. In this work, we explore the possibility
of improving Swiss German speech recognition using unsupervised learning.
The base of our work is wav2vec-Unsupervised. Speech representations are created from audio files
using a wav2vec2 model. We trained a Generative Adversarial Network on these representations and
unpaired phonemized text. The generator learns transcribing audio, and the discriminator has to
distinguish data from our text corpus and data produced by the generator. First, we reproduced the
Standard German results published. Then, we performed experiments on Swiss German data.
We report a Phoneme Error Rate (PER) of 17.5% for Standard German and successfully reproduced
the published results on a phoneme level. After various attempts to optimize the training stability of
the model, our best Swiss German approach achieved a PER of 86.5% using ten hours of audio data.
Finally, we proposed suggestions on how our results could be further improved in future works.