CV home

Computer vision paper notes

0%

论文

写在开头:本文的写作值得学习,实验极其详尽。本篇博文按照作者的写作思路过一遍摘要和引言,对于我们大多数人写文章按照这个套路都没什么问题。

摘要

切入点:鲁棒性和判别性都很重要

现有问题:孪生网络无法判别性的建模目标和干扰

提出新方法:target-dependent feature network

做法:通过attention,将跨图像的特征相关性嵌入特征网络的多个层中。

好处:

  1. 在多个层进行匹配,压制非目标特征,得到实例感知的特征提取;
  2. 输出的搜索特征可以直接用于预测定位,无需互相关操作;
  3. 可以在大量不成对数据上预训练,加速收敛
阅读全文 »

Visual Object Tracking with Discriminative Filters and Siamese Networks: A Survey and Outlook 马丁团队的新作,强烈推荐。

论文

精确和鲁棒的视觉目标跟踪是计算机视觉中最具挑战性和最基本的问题之一。它需要在只给定目标初始状态的条件下,准确估计图像序列中目标的轨迹及状态。相关滤波和孪生网络已经成为当下的主流跟踪算法,本文选取了90多个DCF和Siamese跟踪器进行系统和全面的回顾。首先,介绍了DCF和Siamese跟踪核心公式的背景理论。然后,区分和全面回顾了这两种跟踪范式中共享的和各自特定的挑战。此外,深入分析了DCF和Siamese跟踪器在9个benchmark上的性能,涵盖了视觉跟踪的不同方面的实验:数据集、评估指标、性能和速度比较。在此分析的基础上,提出了对视觉跟踪开放挑战的建议。

阅读全文 »

引言

近些年的目标跟踪算法都在往做大做强的方向发展,比如更深的网络和更复杂的模块。尽管性能越刷越高,但是却很少考虑效率问题,以至于几乎无法在边缘设备上实时运行部署,实用性较低,因此研究轻量化的目标跟踪算法是非常必要的(另外一个原因也可能是做大做强上能水论文的点越来越不好找了 /狗头保命)。本篇博客总结了三篇最近研究跟踪模型轻量化的工作。

阅读全文 »

论文

Motivation

作者认为当前方法的局限在于,跟踪目标的特征仅被表达学习,而没有做判别性的建模(即网络只学会了如何从表观上描述一个目标的特征,但并未学到不同目标特征之间的差异)。为了解决这一问题,本文引入对比学习(contrastive learning)构建实例级的跟踪器 Instance-Aware Tracker (IAT),确保每个训练样本都能被唯一建模,并与其他大量样本高度区分。提出的IAT包括video-level和object-level两种形式,前者提高了从背景中识别目标的能力,后者提高了区分目标和干扰物的判别能力。

阅读全文 »

论文 代码

Motivation

本文着眼于移动平台的无人机目标跟踪,融合了CNN和Transformer的优点。具体来说,通过轻量的shufflenet v2来构建特征金字塔,并使用Transformer对其进行强化(特征融合),以构建一个鲁棒的目标外观模型。开发了一种具有横向交叉注意力的集中式架构,用于构建增强的高级特征图。此外,作者设计了pooling attention module减少key和value的数量进一步降低了Transformer的内存消耗和时间复杂度。提出的方法在CPU端运行速度可超过30 FPS。

阅读全文 »

论文

Motivation

本文是去年RPT方法的改进,作者来自同一团队。出发点是现有的跟踪方法对于分类和回归使用的是同一套特征,而作者指出这两个任务是有差异的,因此对特征的需求也是不同的。如图1所示,分类需要的是显著区域中更具有判别力的特征,而回归需要边界附近的特征来精确定位。针对这一问题,作者提出了两种定制化的特征提取,用于捕获特定任务的视觉模式。其中Polar Pooling从语义关键点收集丰富的信息,以进行更强的分类;而Extreme Pooling捕获目标边界的清晰视觉模式,实现目标状态的精确估计。

阅读全文 »

论文 代码

Motivation

和上一篇一样是研究跟踪的匹配问题。目前主流的跟踪策略分为全局和局部两种,全局策略(如DW-Corr)学习目标的整体表示,当目标发生较大变化时表现不佳。局部策略(如PG-Corr)将目标分割成多个patch,并行跟踪所有patch,通过聚合这些patch的跟踪结果,推断出目标状态。而局部策略的局限在于并不是所有patch都包含丰富的信息,一些没有判别能力的patch难以跟踪,可能对推断目标状态产生不利影响。因此,本文提出只跟踪目标的显著局部区域而不是简单跟踪所有局部块,具体提出了细粒度的显著性挖掘模块(fine-grained saliency mining module),用于捕获局部显著性;以及显著性关联模块(saliency-association modeling module) 将捕获的显著区域关联在一起,学习目标模板与搜索图像之间的全局相关性,以进行状态估计。

阅读全文 »

论文 代码

Motivation

本文聚焦于孪生跟踪算法的匹配过程,目前主流的互相关操作是启发式设计的,严重依赖人工经验,并且单一的匹配方法无法适应各种复杂的跟踪场景。因此,本文引入了6种新的匹配算子来替代互相关。通过分析这些算子在不同跟踪挑战场景下的适应性,作者发现可以将它们结合起来进行互补,并借鉴NAS思想提出一种搜索方法 binary channel manipulation (BCM) 探索这些匹配算子的最优组合。

阅读全文 »

论文 代码

Motivation

现有的孪生跟踪算法大多是基于相似得分图对目标对象进行分类和回归,使用单一的相似图会降低复杂场景下的定位精度,而像SiamRPN++那样单独使用多个相似图分别进行预测又会引入较大计算负担,不适用于移动设备。因此,本文提出一种 hierarchical feature transformer (HiFT) 对多个层级的相似图进行融合,既可以捕获全局的依赖关系,又可以高效地学习多层级特征之间的依赖关系。

在介绍本文方法前,我们先分析经典的transformer架构应用于目标跟踪任务中的难点。

  1. 预定义的(或学习的)解码query在面对任意跟踪对象时很难保持有效性;
  2. transformer难以处理小目标(参考deform DETR)。
阅读全文 »

论文

Motivation

基于孪生网络的跟踪算法均假定训练和测试数据遵循相同的分布,然而在正常图像上训练的跟踪器并不能保证在其他领域的数据上(如雨雾天气的序列)也表现良好,即存在域偏移(domain shift)问题,如图1和图2。作者称本文是首次将域分布差异问题引入视觉跟踪领域。

针对这一问题,本文提出一种域自适应方法,包括Pixel Domain Adaptation (PDA) 和 Semantic Domain Adaptation (SDA)。PDA分别对(不同域的)模板和搜索图像的特征对齐,消除天气、光照等引起的像素级域偏移;SDA将(不同域的)跟踪目标的特征表达对齐,以消除语义级的域偏移。二者均通过对抗训练的方式学习域分类器,域分类器强制网络学习域不变的特征表达,从而实现域自适应。

阅读全文 »