Die vorliegende Arbeit befasst sich mit der Konzeption, Umsetzung und Evaluation einer Follow-me-
Implementation f¨ur einen mobilen Roboter im Healthcare-Sektor.
Die entwickelte L¨osung basiert auf einer modularen ROS2-Architektur und kombiniert Objektdetektion
mit YOLOX, Multi-Object-Tracking mit ByteTrack sowie eine Leader-Identifikation mittels MediaPipe.
Zus¨atzlich wird eine Re-Identification des Leaders eingesetzt, die auf einem Appearance-Vektor
basiert. Dieser Vektor wird aus den K¨orperproportionen der Zielperson abgeleitet. Als Grundlage
wird eine Tiefenbildkamera verwendet.
Die Follow-me-Funktionalit¨at gliedert sich in einen Vision- und einen Movement-Aspekt. Die Vision-
Pipeline erkennt die Zielperson, initialisiert diese als Leader und erstellt einen referenzierenden
Appearance-Vektor. Die Position des Leaders wird anschliessend kontinuierlich getrackt, w¨ahrend der
Roboter den ROS2 Nav2-Stack verwendet, um dem Leader zu folgen. Das Tracking zeigt sich robust
gegen¨uber Occlusion sowie kurzzeitigem Trackingverlust.
Die Umsetzung erfolgte ohne GPU, was gezielte Optimierungen hinsichtlich Modellwahl und Framerate
erforderte. Die entwickelte Pipeline wurde anhand mehrerer Testf¨alle in einer Laborumgebung
evaluiert. Die Ergebnisse zeigen, dass eine zuverl¨assige Personenerkennung, Leader-Identifikation
und Re-Identification m¨oglich ist. Gleichzeitig wurde deutlich, dass klassische zielpunktbasierte
Navigationsans¨atze nur eingeschr¨ankt f¨ur dynamische Follow-me-Szenarien geeignet sind. Die Arbeit
leitet daraus zentrale Herausforderungen ab und zeigt konkrete Optimierungsans¨atze f¨ur zuk¨unftige
Weiterentwicklungen auf.
Schlüsselwörter: Mobile Robotik, ROS2, Multi Object Tracking, Follow-me
This thesis addresses the conception, implementation, and evaluation of a follow-me system for
a mobile robot in the healthcare sector.
The developed solution is based on a modular ROS 2 architecture and combines object detection
using YOLOX, multi-object tracking with ByteTrack, and leader identification using MediaPipe.
In addition, a leader re-identification mechanism is employed based on an appearance vector. This
vector is derived from the body proportions of the target person. A depth camera serves as the
primary sensing modality.
The follow-me functionality is divided into a vision and a movement component. The vision pipeline
detects the target person, initializes the leader, and generates a reference appearance vector. The
leader’s position is then continuously tracked, while the robot follows the leader using the ROS 2
Nav2 navigation stack. The tracking approach proves robust against occlusions as well as short-term
tracking losses.
The implementation was carried out without GPU-acceleration, which required targeted optimizations
regarding model selection and frame rate. The developed pipeline was evaluated using multiple test
cases in a laboratory environment resembling a hospital setting. The results demonstrate that reliable
person detection, leader identification, and re-identification are feasible. At the same time, it became
evident that classical goal-based navigation approaches are only partially suitable for dynamic
follow-me scenarios. Based on these findings, key challenges are identified and concrete optimization
strategies for future work are proposed.
Keywords: Mobile robotics, ROS 2, multi-object tracking, follow-me
Die vorliegende Arbeit befasst sich mit der Konzeption, Umsetzung und Evaluation einer Follow-me-
Implementation f¨ur einen mobilen Roboter im Healthcare-Sektor.
Die entwickelte L¨osung basiert auf einer modularen ROS2-Architektur und kombiniert Objektdetektion
mit YOLOX, Multi-Object-Tracking mit ByteTrack sowie eine Leader-Identifikation mittels MediaPipe.
Zus¨atzlich wird eine Re-Identification des Leaders eingesetzt, die auf einem Appearance-Vektor
basiert. Dieser Vektor wird aus den K¨orperproportionen der Zielperson abgeleitet. Als Grundlage
wird eine Tiefenbildkamera verwendet.
Die Follow-me-Funktionalit¨at gliedert sich in einen Vision- und einen Movement-Aspekt. Die Vision-
Pipeline erkennt die Zielperson, initialisiert diese als Leader und erstellt einen referenzierenden
Appearance-Vektor. Die Position des Leaders wird anschliessend kontinuierlich getrackt, w¨ahrend der
Roboter den ROS2 Nav2-Stack verwendet, um dem Leader zu folgen. Das Tracking zeigt sich robust
gegen¨uber Occlusion sowie kurzzeitigem Trackingverlust.
Die Umsetzung erfolgte ohne GPU, was gezielte Optimierungen hinsichtlich Modellwahl und Framerate
erforderte. Die entwickelte Pipeline wurde anhand mehrerer Testf¨alle in einer Laborumgebung
evaluiert. Die Ergebnisse zeigen, dass eine zuverl¨assige Personenerkennung, Leader-Identifikation
und Re-Identification m¨oglich ist. Gleichzeitig wurde deutlich, dass klassische zielpunktbasierte
Navigationsans¨atze nur eingeschr¨ankt f¨ur dynamische Follow-me-Szenarien geeignet sind. Die Arbeit
leitet daraus zentrale Herausforderungen ab und zeigt konkrete Optimierungsans¨atze f¨ur zuk¨unftige
Weiterentwicklungen auf.
Schlüsselwörter: Mobile Robotik, ROS2, Multi Object Tracking, Follow-me
This thesis addresses the conception, implementation, and evaluation of a follow-me system for
a mobile robot in the healthcare sector.
The developed solution is based on a modular ROS 2 architecture and combines object detection
using YOLOX, multi-object tracking with ByteTrack, and leader identification using MediaPipe.
In addition, a leader re-identification mechanism is employed based on an appearance vector. This
vector is derived from the body proportions of the target person. A depth camera serves as the
primary sensing modality.
The follow-me functionality is divided into a vision and a movement component. The vision pipeline
detects the target person, initializes the leader, and generates a reference appearance vector. The
leader’s position is then continuously tracked, while the robot follows the leader using the ROS 2
Nav2 navigation stack. The tracking approach proves robust against occlusions as well as short-term
tracking losses.
The implementation was carried out without GPU-acceleration, which required targeted optimizations
regarding model selection and frame rate. The developed pipeline was evaluated using multiple test
cases in a laboratory environment resembling a hospital setting. The results demonstrate that reliable
person detection, leader identification, and re-identification are feasible. At the same time, it became
evident that classical goal-based navigation approaches are only partially suitable for dynamic
follow-me scenarios. Based on these findings, key challenges are identified and concrete optimization
strategies for future work are proposed.
Keywords: Mobile robotics, ROS 2, multi-object tracking, follow-me