MixFormer: End-to-End Tracking with Iterative Mixed Attention

论文 代码

核心:用transfrom架构整合特征提取和特征融合

Motivation

主流的跟踪框架分三步:特征提取、特征融合、预测头分类回归

其中特征融合是关键,下图展示了不同的融合方法。(摘自 【VALSE论文速览-68期】MixFormer:更加简洁的端到端单目标跟踪器

最近的研究使用transformer进行融合,但仍然依赖CNN提取特征,这其中存在一些局限:

  1. attention只作用在高层抽象的特征表示空间,忽略了浅层特征;
  2. CNN对通用对象识别进行预训练,可能会忽略用于跟踪的更精细的结构信息;
  3. CNN的表征能力是局部的,缺乏长距离建模的能力

解决方案:

提出一个通用的transformer结构同时进行特征提取和特征融合。

具有如下好处:

  1. 使特征提取更具体到相应的跟踪目标,并捕获更多目标特定的判别特征;
  2. 让目标信息更extensive的融合进搜索区域;
  3. 结构更加紧凑简洁。

主要创新点:

  • 提出了 MAM 模块,应用 attnetion 机制同时进行特征提取与信息交互
  • 提出SPM模块进行模板更新

Method

网络整体框架如图3所示,包括两部分:模板和搜索图像经过基于mixed attention module(MAM)的backbone进行特征提取和融合,再通过预测头输出结果。backbone部分包含3个stage,每个stage输入特征首先经过patch embedding变成一系列token,然后送入MAM模块提取并融合特征。预测头部分直接将融合后的搜索区域的token输入进行预测。

Mixed Attention Module (MAM)

本文的核心模块MAM,目的是同时提取并融合模板和搜索图像的特征,因此设计了dual attention分别用于二者。具体来说,MAM输入模板和搜索特征拼接成的 token序列,首先会将输入分开并reshape 成二维的模板和搜索特征,经过$3\times3$ DW卷积编码局部上下文和线性映射生成q,k,v后,同时进行 self-attention和 cross-attention。

注意MAM 是一个非对称的attention,删去了target-to-search的cross-attention。如图2所示,模板的q只会和模板自己的k,v计算attention(黄色虚线);而搜索图的q会同时和模板和搜索图的k,v计算attention(蓝色虚线)。用公式表达为:

这样做可以使得模板的token在跟踪过程中保持不变,避免被动态的搜索区域影响。为后续引入多个在线模板做铺垫,无需每帧重新计算模板token。

Localization Head

采用类似stark的角点预测模式。作者也额外尝试了类似detr的采用一个query进行预测的方式。均无需后处理。

Template Online Update

在线更新模板能够很好的利用时序信息处理一些形变和外观变化,然而低质量的更新模板可能使得结果变差。本文设计了一个score prediction module (SPM),根据预测置信度得分来选择可靠的在线模板,如图4所示。

SPM由两个attention和一个三层的MLP组成,该模块接在backbone最后一个stage后,和预测头是并行的。首先输入一个可学习的score token,与search ROI token计算attention,对搜索图中挖掘的目标信息进行编码。然后将score token与第一帧的模板token做attention,隐式地将挖掘的目标与初始目标进行比较。最后过一个MLP预测出置信度得分,小于0.5判断为不可靠。

Training and Inference

作者设计了两种网络架构MixFormer 和 MixFormer-L ,分别基于CVT-21 和 CVT24-W,也就是说可以使用CVT在Imagenet上预训练的权重来初始化backbone(虽然原始的CVT并没有两个输入,计算attention的方式也不一样,但是每个block的参数是一样的)。

训练过程分为两步,首先用500个epoch训练backbone和head;最后用40个epoch单独训练SPM,冻结其他部分参数。这个训练流程和stark类似。

推理阶段每隔200帧更新一次模板,选择区间中得分最高的模板替换先前的模板。本文的框架允许输入任意张数的模板,代码实现中只包含两张模板,一张初始模板,一张在线更新模板。

Experiments

SOTA比较

SOTA性能就一个字:恐怖!

探究实验

  • 1 2 3 8 统一特征提取和融合的MAM比先提特征SAM再融合CAM要好,因为耦合的方式可以互相促进。
  • 4 5 6 7 8 MAM的数量越多越好,因为这样可以获得更extensive 的目标感知特征提取和分层融合。
  • 8 9 corner head比query head效果更好

  • 使用非堆成结构效果略有下降,但是速度提升了
  • 从固定间隔中随机采样更新模板效果变差了,加上预测得分后才能提升效果
  • pretrain的规模越大,对效果也是有提升的。

Attention可视化

  • 背景中的干扰物逐层受到抑制
  • 在线模板更适应外观变化并有助于区分目标
  • 多个模板的前景可以通过交叉注意力来增强
  • 某个位置倾向于与周围的局部块相互作用。