Die vorliegende Arbeit befasst sich mit dem Parallelisierungskonzept des ressourceneffizienten
Hardwarebeschleunigers BinArray. BinArray ist für die Berechnung der Convolutional Layer
zuständig und basiert auf der binären Approximation der Gewichte. Aktuell ist BinArray mit
dem Parallelisierungkonzept Output-Channel-Parallelisation (OCP) realisiert. Dieses Konzept
reicht jedoch nicht aus, um die erforderliche Framerate f¨ur alle Szenarien zu erreichen.
Das existierende Konzept soll deshalb um die Input-Channel-Parallelisierung (ICP) erweitert
werden. In einem ersten Schritt soll die Architektur der zuständigen Berechnungseinheit angepasst
und verifiziert werden. Anschliessend können die Interfaces der Buffer angepasst werden,
welche die Daten für die Berechnungen liefern. Da durch das neue Parallelisierungskonzept die
Daten in den Buffern anders angeordnet sind, muss die Berechnung der Adressen der Lese- und
Schreibzugriffe geändert werden.
Das Design f¨ur ICP ist f¨ur die Beschleunigungs- resp. Parallelisierungsfaktoren 1,2,4 und 8 synthetisierbar.
Zusätzlich konnte für die Faktoren 1 und 4 anhand eines Beispiel-Netzwerks die
korrekte Funktion verifiziert werden. Die Taktrate kann mit dem neuen Design auf demselben
Niveau gehalten werden wie für OCP. Damit kann die erwartete Beschleunigung entsprechend
dem ICP Faktor erzielt werden.
This paper deals with the parallelisation concept of the resource-efficient hardware accelerator
BinArray. BinArray is responsible for the calculation of the convolutional layer and is based on
the binary approximation of the weights. Currently, BinArray is realised with the parallelisation
concept Output Channel Parallelisation (OCP). However, this concept is not sufficient to achieve
the required rate for all scenarios.
Therefore, the existing concept is to be extended by input channel parallelisation (ICP). The
first step is to adapt and verify the architecture of the relevant calculation unit. Since the data
in the buffers is arranged differently due to the new parallelisation concept, the calculation of
the addresses of the read and write accesses must be changed.