Global Tracking via Ensemble of Local Trackers

论文 代码 暂未开源

针对长时跟踪问题,通过集成多个局部跟踪器实现全局跟踪,以全局视角跟踪目标并且利用时间上下文。

Motivation

问题:长时跟踪的难点在于出视野或遮挡导致的目标运动不连续;

现有方法:

  • 局部-全局切换的策略——局部跟踪器进行平滑跟踪,目标丢失后切换到全局重检测。

局限:难以确定切换时机,是否切换完全由局部跟踪器决定,有可能漂移到干扰物上还认为在稳定跟踪导致没有进入重捕。

  • 在整张图全局搜索——全局的one-shot detection,如GlobalTrack

局限:忽视了时序上下文,对目标外观变化和背景干扰敏感

本文方法:通过集成多个局部跟踪器实现全局跟踪,结合了上述方法的优点:以全局视角跟踪目标并且利用时间上下文。

实现:

  • 在整张图像不同参考位置上分别设置局部跟踪器,每个局部跟踪器在参考位置周围的局部区域内搜索目标,所有局部跟踪器的搜索区域就可以覆盖整个图像。
  • 当目标平滑移动时,一个局部跟踪器可以稳定处理;当目标丢失时,靠近目标的另一个局部跟踪器就会被激活接管跟踪,而之前的跟踪器会被重置到初始位置。
  • 局部跟踪器稳定跟踪目标期间,利用时间上下文提高局部跟踪的鲁棒性

创新点:

  • deformable attention-based local tracker 通过动态移动局部搜索区域,在全局视野中模拟局部跟踪
  • temporal context transferring scheme 探索局部跟踪器中的时序上下文

Method

有点借鉴Deformable DETR来做跟踪的意思。设置了N个query,每个query在其参考点附近做Deformable Attention来生成一个候选目标向量,候选目标向量送入预测头生成置信度和目标框,然后通过匈牙利算法匹配真实目标计算损失。

当选中一个query进行稳定跟踪后,就用跟踪结果来更新该query对应的参考点位置,不断在每一帧上进行检测,这就是一个动态变化搜索区域的局部跟踪器。同时利用图3的时域聚合模块来更新这个query。

当目标丢失时,即跟踪置信度小于阈值,选择目标附近的另一个query接管跟踪,而先前的query会被重置到它的初始参考点位置。

具体实现可以参考论文,挺有意思的。