Towards Grand Unification of Object Tracking

论文 代码

首次实现了目标跟踪网络结构与学习范式的大一统,只需一套网络结构、一套模型参数即可同时完成单目标跟踪(SOT),视频目标分割(VOS),多目标跟踪(MOT),多目标跟踪与分割(MOTS)四种跟踪任务。

引言

针对不同的应用场景,目标跟踪目前主要分成四个领域:单目标跟踪(SOT),视频目标分割(VOS),多目标跟踪(MOT),多目标跟踪与分割(MOTS)。当前着四个方向的发展越来越割裂,带来了一些问题:

  • 跟踪器可能过拟合特定子任务的特性,缺乏向其他任务的泛化能力。
  • 独立的模型设计导致冗余的参数。比如都使用类似结构的backbone但参数不能复用。

近两年整个cv界都在大一统,跟踪领域也不例外。其中主要的困难在于单目标和多目标之间的差异:

  • 目标特性:SOT跟踪一个给定的类别未知的实例,MOT需要跟踪多个特定类别的实例;
  • 匹配关系:SOT主要区分目标和背景,MOT需要匹配当前检测结果和历史轨迹;
  • 模型输入:SOT输入一个小的搜索区域 ,MOT输入整张图像。

针对这些问题,本文提出两个核心设计:目标先验(target prior)和像素级关联(pixel-wise correspondence),分别解决上述问题:

  • 目标先验作为预测头的额外输入,对于SOT&VOS,传递参考目标图,使得预测头关注特定跟踪目标;对于MOT&MOTS,目标先验为零,预测头就是通常的class-specific检测器;
  • 像素级关联是指来自参考帧和当前帧的所有点对之间的相似性,SOT和MOT都可以看成像素关联的子集;
  • 有了目标先验和像素关联,SOT不再依赖小的搜索区域,SOT和MOT都可以输入整张图像

方法

整体框架主要包含三部分:(1) Unified inputs and backbone (2) Unified embedding (3) Unified head。重点在(2)和(3)。

Unified embedding

参考帧和当前帧首先经过Feature Interaction来强化原始特征,特征交互通过deformable attention实现。

然后建立参考帧embedding $E_{ref} \in \mathbb{R}^{hw \times c}$ 和当前帧embedding $E_{cur} \in \mathbb{R}^{hw \times c}$之间的像素级对应关系,通过矩阵相乘得到 $C_{pix} \in \mathbb{R}^{hw \times hw}$。SOT&VOS就使用这个像素级关联。而对于MOT&MOTS,需要构建参考帧中的M个轨迹$e_{ref} \in \mathbb{R}^{M \times c}$和当前帧N个检测目标$e_{cur} \in \mathbb{R}^{N \times c}$的实例级关联,同样是矩阵相乘$C_{inst} \in \mathbb{R}^{N \times M}$。由于instance embedding是在frame embedding上的实例位置处提取得到的,因此实例级关联可以看作是像素级关联的子集,从而实现单目标和多目标的Unified embedding。

Loss 对于SOT&VOS,我们通过像素级关联$C_{pix}$传播参考帧目标图得到当前帧目标图的估计,其中目标区域的标签为1,背景区域为0,通过Dice loss优化。

对于MOT&MOTS,则通过对比学习优化实例间的关系,相同ID的为正样本,其余为负样本,损失为交叉熵。

Unified Head

通过在检测头之前添加目标先验来弥补单目标和多目标之间的差异。对于单目标,将公式3中传播得到的当前帧目标图的估计$\tilde{T}_{cur}$作为目标先验叠加到原始特征中,强化跟踪目标;对于多目标,目标先验为零,就是一个普通的特定类别的检测器。这样做的好处是既可以无缝兼容四个跟踪任务,同时无需改变原始检测头的结构,可以使用预训练权重。

Training and Inference

训练:分两阶段,第一阶段使用SOT&MOT数据计算关联损失和检测损失进行端到端优化;第二阶段固定其他参数,添加掩码分支。利用VOS&MOTS的数据,并根据掩码损失进行优化。

测试:SOT&VOS的参考目标图只在第一帧生成并保持不变,Unicorn 直接挑选置信度最高的框或掩码作为最终的跟踪结果,无需后处理。在BDD100K 和 MOT17上,多目标数据关联分别采用的是基于Embedding和运动模型的匹配策略。即MOT依然是检测+关联的模式。

Experiments

backbone采用ConvNeXt,使用16 个NVIDIA Tesla A100 GPU,将所有BN换成了GN。

表7消融实验提一下single task:统一模型与独立训练的同类模型表现相同,同时参数效率更高。

小结

跟踪大一统似乎是未来的发展趋势之一。之前CVPR22的UTT也是做了类似的工作,都使用了相关性(correspondence & correlation)的思想来统一单目标和多目标;针对单目标都做了额外的特殊处理,UTT是为SOT寻找搜索区域,而本文通过目标先验强化单目标特征;最后对于MOT都还需要一个额外的数据关联。未来是否可以引入一些类似centertrack或者链式跟踪的思想把MOT数据关联的尾巴去掉,似乎更统一更端到端。