Akustische Signalverarbeitung benutzt meistens adaptive Filtermethoden und Anpassungen der Parameter,
um eine optimale Audioqualität für bestimmte Anwendungen zu erreichen. In Bezug auf Anwedungen mit
Hörgeräten wird eine optimale Sprachverständlichkeit und Wahrnehmung der akustischen Umgebung
angestrebt. Weil akustische Szenen und Geräuschkulissen in der Realität kontinuierlich ändern, müssen
Parameteranpassungen in Hörgeräten in Echtzeit erfolgen. In dieser Thesis wird ein System vorgestellt
welches in der Lage ist, mit Hilfe von künstlicher Intelligenz (KI) verschiedene akustische Umgebungen
kontinuierlich erfassen zu können. In diesem Fall wurde ein Deep Convolutional Neural Network (CNN)
benutzt, während der Fokus auf einer Echtzeit-Implementierung lag. Als Grundlage der CNN Architektur
dient VGGNet-16, welches zu einem multi-label multi-output Modell modifiziert wurde. Dies ermöglicht es,
dieselbe Struktur zur Informationsentnahme für zwei Ausgänge zu nutzen und dabei gleichzeitig alle
möglichen Kombinationen von akustische Szenen und Geräuschkulissen zu klassifizieren. Für das Training
des CNN wurde ein eigener Datensatz erfasst welcher aus 23.8h von hochqualitativen, binauralen Audiodaten
besteht. Dazu wurden im Voraus fünf Klassen pro Label festgelegt, welche von Menschen klar
unterscheidbar sind. Mittels eine Grid Search Methode konnten drei optimierte Modelle gefunden werden
welche sich in ihrer Komplexität deutlich unterscheiden und es somit ermöglichen, eine Auswahl zwischen
Genauigkeit und Durchsatz zu treffen. Alle Modelle wurden im Anschluss mit 8 Bit quantisiert, welches zu
einer durchschnittlichen Genaugkeit von 99.07% führte. Nachdem die Anzahl Multiply-Accumulate (MAC)
Operationen und Parameter mit Faktoren von 154x resp. 18x reduziert wurde, war das System immer noch in
der Lage eine Genauigkeit von 94.82% zu erreichen. Dies ermöglicht es, eine Echtzeit-Anwendung auf der
Ebene von Mikrokontrollern zu realisieren welche eine Taktfrequenz von 10 MHz vorweisen und eine
Klassifikation pro Sekunde produzieren können.
Processing of acoustic signals is often accompanied by adaptive filtering and parameter adjustments in order
to achieve optimal audio quality for specific tasks. In terms of hearing aids, the intention is an optimal speech
intelligibility and environmental audio perception. Since acoustic scenes and soundscapes are constantly
changing during operation, adjustments in parameters for hearing devices have to be executed in real-time.
We introduce a system which is able to continuously recognize acoustic environments using Artificial
Intelligence (AI) in the form of a Deep CNN (Convolutional Neural Networks) with focus on real-time
implementation. Inspired by VGGNet-16, the CNN architecture was modified to a multi-label multi-output
model which is able to predict combinations of scene and soundscape labels simultaneously while sharing the
same feature extraction. For training we acquired a custom dataset consisting of 23.8h of high-quality
binaural audio data including five classes per label which are clearly distinguishable by humans. Using a
manual Grid Search method, we were able to optimize three models with respect to different complexity
metrics for choosing a trade-off between accuracy and throughput. CNNs were then post-quantized to 8-bit
which achieved an overall accuracy of 99.07% in the best case. After reducing the number of Multiply-
Accumulate (MAC) operations by a factor 154x and parameters by 18x, the classifier was still able to detect
scenes and soundscapes with an acceptable accuracy of 94.82% which allows real-time inference at the edge
on discrete low-cost hardware with a clock speed of 10 MHz and one inference per second.