Das Ziel dieser Masterarbeit ist es, ein aktuelles YOLO V5 Model zu trainieren, um Personnen in
omnidirektionalen Bildern zu erkennen. Um die Genaugkeit des Models in realen Anwendunsfällen zu
verbessern, verwenden wir Transfer Learning und trainieren bestimmte Schichten des Modells mit
einer sorgfältig ausgewählten Mischung aus synthetischen und realen Bilddaten.
Wir zeigen, dass dieser Ansatz das Problem des „Catastrophic Interference“ entschärft und die
„Domain Gap“ zwischen synthetischen und realen Daten überbrückt, was zu einer signfikanten
Leistungsverbesserung gegenüber dem vortrainierten YOLO V5 führt.
The goal of the Thesis was to train a state-of-the-art YOLO V5 model to detect persons in
omnidirectional image frames. To improve model accuracy in real use cases, we use transfer learning
and train certain layers of the model on a carefully selected mixture of synthetic and real images
data.
We show that this approach mitigates the problem of catastrophic interference and bridges the
domain gap between synthetic and real world data, resulting in a significant performance
improvement over the pre-trained YOLO V5.