Towards Grand Unification of Object Tracking

论文 代码

首次实现了目标跟踪网络结构与学习范式的大一统,只需一套网络结构、一套模型参数即可同时完成单目标跟踪(SOT),视频目标分割(VOS),多目标跟踪(MOT),多目标跟踪与分割(MOTS)四种跟踪任务。

引言

针对不同的应用场景,目标跟踪目前主要分成四个领域:单目标跟踪(SOT),视频目标分割(VOS),多目标跟踪(MOT),多目标跟踪与分割(MOTS)。当前着四个方向的发展越来越割裂,带来了一些问题:

  • 跟踪器可能过拟合特定子任务的特性,缺乏向其他任务的泛化能力。
  • 独立的模型设计导致冗余的参数。比如都使用类似结构的 backbone 但参数不能复用。

近两年整个 cv 界都在大一统,跟踪领域也不例外。其中主要的困难在于单目标和多目标之间的差异:

  • 目标特性:SOT 跟踪一个给定的类别未知的实例,MOT 需要跟踪多个特定类别的实例;
  • 匹配关系:SOT 主要区分目标和背景,MOT 需要匹配当前检测结果和历史轨迹;
  • 模型输入:SOT 输入一个小的搜索区域 ,MOT 输入整张图像。

针对这些问题,本文提出两个核心设计:目标先验(target prior)和像素级关联(pixel-wise correspondence),分别解决上述问题:

  • 目标先验作为预测头的额外输入,对于 SOT&VOS,传递参考目标图,使得预测头关注特定跟踪目标;对于 MOT&MOTS,目标先验为零,预测头就是通常的 class-specific 检测器;
  • 像素级关联是指来自参考帧和当前帧的所有点对之间的相似性,SOT 和 MOT 都可以看成像素关联的子集;
  • 有了目标先验和像素关联,SOT 不再依赖小的搜索区域,SOT 和 MOT 都可以输入整张图像

方法

整体框架主要包含三部分:(1) Unified inputs and backbone (2) Unified embedding (3) Unified head。重点在(2)和(3)。

Unified embedding

参考帧和当前帧首先经过 Feature Interaction 来强化原始特征,特征交互通过 deformable attention 实现。

然后建立参考帧 embedding ErefRhw×c 和当前帧 embedding EcurRhw×c 之间的像素级对应关系,通过矩阵相乘得到 CpixRhw×hw。SOT&VOS 就使用这个像素级关联。而对于 MOT&MOTS,需要构建参考帧中的 M 个轨迹 erefRM×c 和当前帧 N 个检测目标 ecurRN×c 的实例级关联,同样是矩阵相乘 CinstRN×M。由于 instance embedding 是在 frame embedding 上的实例位置处提取得到的,因此实例级关联可以看作是像素级关联的子集,从而实现单目标和多目标的 Unified embedding。

Loss 对于 SOT&VOS,我们通过像素级关联 Cpix 传播参考帧目标图得到当前帧目标图的估计,其中目标区域的标签为 1,背景区域为 0,通过 Dice loss 优化。

对于 MOT&MOTS,则通过对比学习优化实例间的关系,相同 ID 的为正样本,其余为负样本,损失为交叉熵。

Unified Head

通过在检测头之前添加目标先验来弥补单目标和多目标之间的差异。对于单目标,将公式 3 中传播得到的当前帧目标图的估计 T~cur 作为目标先验叠加到原始特征中,强化跟踪目标;对于多目标,目标先验为零,就是一个普通的特定类别的检测器。这样做的好处是既可以无缝兼容四个跟踪任务,同时无需改变原始检测头的结构,可以使用预训练权重。

Training and Inference

训练:分两阶段,第一阶段使用 SOT&MOT 数据计算关联损失和检测损失进行端到端优化;第二阶段固定其他参数,添加掩码分支。利用 VOS&MOTS 的数据,并根据掩码损失进行优化。

测试:SOT&VOS 的参考目标图只在第一帧生成并保持不变,Unicorn 直接挑选置信度最高的框或掩码作为最终的跟踪结果,无需后处理。在 BDD100K 和 MOT17 上,多目标数据关联分别采用的是基于 Embedding 和运动模型的匹配策略。即 MOT 依然是检测 + 关联的模式。

Experiments

backbone 采用 ConvNeXt,使用 16 个 NVIDIA Tesla A100 GPU,将所有 BN 换成了 GN。

表 7 消融实验提一下 single task:统一模型与独立训练的同类模型表现相同,同时参数效率更高。

小结

跟踪大一统似乎是未来的发展趋势之一。之前 CVPR22 的 UTT 也是做了类似的工作,都使用了相关性(correspondence & correlation)的思想来统一单目标和多目标;针对单目标都做了额外的特殊处理,UTT 是为 SOT 寻找搜索区域,而本文通过目标先验强化单目标特征;最后对于 MOT 都还需要一个额外的数据关联。未来是否可以引入一些类似 centertrack 或者链式跟踪的思想把 MOT 数据关联的尾巴去掉,似乎更统一更端到端。