相关滤波和孪生网络目标跟踪综述(Martin团队)
Visual Object Tracking with Discriminative Filters and Siamese Networks: A Survey and Outlook 马丁团队的新作,强烈推荐。
精确和鲁棒的视觉目标跟踪是计算机视觉中最具挑战性和最基本的问题之一。它需要在只给定目标初始状态的条件下,准确估计图像序列中目标的轨迹及状态。相关滤波和孪生网络已经成为当下的主流跟踪算法,本文选取了90多个DCF和Siamese跟踪器进行系统和全面的回顾。首先,介绍了DCF和Siamese跟踪核心公式的背景理论。然后,区分和全面回顾了这两种跟踪范式中共享的和各自特定的挑战。此外,深入分析了DCF和Siamese跟踪器在9个benchmark上的性能,涵盖了视觉跟踪的不同方面的实验:数据集、评估指标、性能和速度比较。在此分析的基础上,提出了对视觉跟踪开放挑战的建议。
轻量化目标跟踪
Saliency-Associated Object Tracking
Motivation
和上一篇一样是研究跟踪的匹配问题。目前主流的跟踪策略分为全局和局部两种,全局策略(如DW-Corr)学习目标的整体表示,当目标发生较大变化时表现不佳。局部策略(如PG-Corr)将目标分割成多个patch,并行跟踪所有patch,通过聚合这些patch的跟踪结果,推断出目标状态。而局部策略的局限在于并不是所有patch都包含丰富的信息,一些没有判别能力的patch难以跟踪,可能对推断目标状态产生不利影响。因此,本文提出只跟踪目标的显著局部区域而不是简单跟踪所有局部块,具体提出了细粒度的显著性挖掘模块(fine-grained saliency mining module),用于捕获局部显著性;以及显著性关联模块(saliency-association modeling module) 将捕获的显著区域关联在一起,学习目标模板与搜索图像之间的全局相关性,以进行状态估计。
HiFT: Hierarchical Feature Transformer for Aerial Tracking
Motivation
现有的孪生跟踪算法大多是基于相似得分图对目标对象进行分类和回归,使用单一的相似图会降低复杂场景下的定位精度,而像SiamRPN++那样单独使用多个相似图分别进行预测又会引入较大计算负担,不适用于移动设备。因此,本文提出一种 hierarchical feature transformer (HiFT) 对多个层级的相似图进行融合,既可以捕获全局的依赖关系,又可以高效地学习多层级特征之间的依赖关系。
在介绍本文方法前,我们先分析经典的transformer架构应用于目标跟踪任务中的难点。
- 预定义的(或学习的)解码query在面对任意跟踪对象时很难保持有效性;
- transformer难以处理小目标(参考deform DETR)。
Domain Adaptive SiamRPN++ for Object Tracking in the Wild
Motivation
基于孪生网络的跟踪算法均假定训练和测试数据遵循相同的分布,然而在正常图像上训练的跟踪器并不能保证在其他领域的数据上(如雨雾天气的序列)也表现良好,即存在域偏移(domain shift)问题,如图1和图2。作者称本文是首次将域分布差异问题引入视觉跟踪领域。
针对这一问题,本文提出一种域自适应方法,包括Pixel Domain Adaptation (PDA) 和 Semantic Domain Adaptation (SDA)。PDA分别对(不同域的)模板和搜索图像的特征对齐,消除天气、光照等引起的像素级域偏移;SDA将(不同域的)跟踪目标的特征表达对齐,以消除语义级的域偏移。二者均通过对抗训练的方式学习域分类器,域分类器强制网络学习域不变的特征表达,从而实现域自适应。