Towards Grand Unification of Object Tracking

发表于 2022-07-19 分类于目标跟踪阅读次数：

论文代码

首次实现了目标跟踪网络结构与学习范式的大一统，只需一套网络结构、一套模型参数即可同时完成单目标跟踪（SOT），视频目标分割（VOS），多目标跟踪（MOT），多目标跟踪与分割（MOTS）四种跟踪任务。

引言

针对不同的应用场景，目标跟踪目前主要分成四个领域：单目标跟踪（SOT），视频目标分割（VOS），多目标跟踪（MOT），多目标跟踪与分割（MOTS）。当前着四个方向的发展越来越割裂，带来了一些问题：

跟踪器可能过拟合特定子任务的特性，缺乏向其他任务的泛化能力。
独立的模型设计导致冗余的参数。比如都使用类似结构的backbone但参数不能复用。

近两年整个cv界都在大一统，跟踪领域也不例外。其中主要的困难在于单目标和多目标之间的差异：

目标特性：SOT跟踪一个给定的类别未知的实例，MOT需要跟踪多个特定类别的实例；
匹配关系：SOT主要区分目标和背景，MOT需要匹配当前检测结果和历史轨迹；
模型输入：SOT输入一个小的搜索区域，MOT输入整张图像。

针对这些问题，本文提出两个核心设计：目标先验（target prior）和像素级关联（pixel-wise correspondence），分别解决上述问题：

目标先验作为预测头的额外输入，对于SOT&VOS，传递参考目标图，使得预测头关注特定跟踪目标；对于MOT&MOTS，目标先验为零，预测头就是通常的class-specific检测器；
像素级关联是指来自参考帧和当前帧的所有点对之间的相似性，SOT和MOT都可以看成像素关联的子集；
有了目标先验和像素关联，SOT不再依赖小的搜索区域，SOT和MOT都可以输入整张图像

方法

整体框架主要包含三部分：(1) Unified inputs and backbone (2) Unified embedding (3) Unified head。重点在（2）和（3）。

Unified embedding

参考帧和当前帧首先经过Feature Interaction来强化原始特征，特征交互通过deformable attention实现。

然后建立参考帧embedding $E_{ref} \in \mathbb{R}^{hw \times c}$ 和当前帧embedding $E_{cur} \in \mathbb{R}^{hw \times c}$之间的像素级对应关系，通过矩阵相乘得到 $C_{pix} \in \mathbb{R}^{hw \times hw}$。SOT&VOS就使用这个像素级关联。而对于MOT&MOTS，需要构建参考帧中的M个轨迹$e_{ref} \in \mathbb{R}^{M \times c}$和当前帧N个检测目标$e_{cur} \in \mathbb{R}^{N \times c}$的实例级关联，同样是矩阵相乘$C_{inst} \in \mathbb{R}^{N \times M}$。由于instance embedding是在frame embedding上的实例位置处提取得到的，因此实例级关联可以看作是像素级关联的子集，从而实现单目标和多目标的Unified embedding。

Loss 对于SOT&VOS，我们通过像素级关联$C_{pix}$传播参考帧目标图得到当前帧目标图的估计，其中目标区域的标签为1，背景区域为0，通过Dice loss优化。

对于MOT&MOTS，则通过对比学习优化实例间的关系，相同ID的为正样本，其余为负样本，损失为交叉熵。

Unified Head

通过在检测头之前添加目标先验来弥补单目标和多目标之间的差异。对于单目标，将公式3中传播得到的当前帧目标图的估计$\tilde{T}_{cur}$作为目标先验叠加到原始特征中，强化跟踪目标；对于多目标，目标先验为零，就是一个普通的特定类别的检测器。这样做的好处是既可以无缝兼容四个跟踪任务，同时无需改变原始检测头的结构，可以使用预训练权重。

Training and Inference

训练：分两阶段，第一阶段使用SOT&MOT数据计算关联损失和检测损失进行端到端优化；第二阶段固定其他参数，添加掩码分支。利用VOS&MOTS的数据，并根据掩码损失进行优化。

测试：SOT&VOS的参考目标图只在第一帧生成并保持不变，Unicorn 直接挑选置信度最高的框或掩码作为最终的跟踪结果，无需后处理。在BDD100K 和 MOT17上，多目标数据关联分别采用的是基于Embedding和运动模型的匹配策略。即MOT依然是检测+关联的模式。

Experiments

backbone采用ConvNeXt，使用16 个NVIDIA Tesla A100 GPU，将所有BN换成了GN。

表7消融实验提一下single task：统一模型与独立训练的同类模型表现相同，同时参数效率更高。

小结

跟踪大一统似乎是未来的发展趋势之一。之前CVPR22的UTT也是做了类似的工作，都使用了相关性（correspondence & correlation）的思想来统一单目标和多目标；针对单目标都做了额外的特殊处理，UTT是为SOT寻找搜索区域，而本文通过目标先验强化单目标特征；最后对于MOT都还需要一个额外的数据关联。未来是否可以引入一些类似centertrack或者链式跟踪的思想把MOT数据关联的尾巴去掉，似乎更统一更端到端。