Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking

发表于 2021-06-30 更新于 2022-06-11 分类于目标跟踪

Motivation

现有的跟踪方法依赖大量高质量标注数据集训练，但很多复杂挑战场景并未出现在训练数据中。为了避免昂贵的人工标注，本文提出一种自监督学习方式。作者设计了Crop-Transform-Paste，通过模拟跟踪过程中各种场景变化，合成足够的训练数据。在合成数据中目标状态是已知的，因此无需人工标注。

本文提出的自监督方法可以无缝集成到任何现有的跟踪框架中进行训练，实验证明提出的方法：1）在少样本跟踪场景中取得比监督学习更好的性能；2）能够处理目标形变、遮挡、背景干扰等各种挑战；3）可以与监督学习相结合，进一步提高性能。

阅读全文 »

强化学习在目标跟踪中的应用

发表于 2021-06-08 更新于 2022-06-11 分类于目标跟踪

强化学习讨论的问题是智能体(agent) 如何在一个复杂不确定的环境(environment) 里去最大化它能获得的奖励。今天介绍三篇关于强化学习在目标跟踪中的工作，分别利用强化学习来决策使用的特征，多个跟踪器的切换以及是否更新模板。

论文列表：

阅读全文 »

SiamRCR: Reciprocal Classification and Regression for Visual Object Tracking

发表于 2021-05-26 更新于 2022-06-11 分类于目标跟踪

论文

本文解决的是老生常谈的分类和回归不匹配的问题。作者提出在分类和回归之间建立双向的连接，可以动态地重新加权每个正样本的损失。此外，增加了一个定位分支用于预测定位精度，可以在推理过程中替代回归辅助连接(regression assistance link)，使得训练和测试更加一致。最终运行速度为65FPS。

阅读全文 »

Siamese Natural Language Tracker: Tracking by Natural Language Descriptions with Siamese Trackers

发表于 2021-05-19 更新于 2022-06-11 分类于目标跟踪

论文

Introduction

本文研究的课题为tracking by natural language(NL) 。人类的学习过程是视觉和语言共同作用的，而在基于外观的跟踪过程中引入语言描述同样可以使得跟踪器更加精确、灵活和鲁棒（如图1的例子）。因此，本文将孪生跟踪器与语言描述结合，将语言描述编码成一个卷积核嵌入到孪生框架中（SNL-RPN），并将视觉和语言的预测进行动态聚合（Dynamic Aggregation），为tracking by NL任务提供了一个新的baseline。具体贡献总结如下：

提出一种新的tracking by NL的baseline，Siamese Natural Language Region Proposal Network (SNL-RPN)；
提出了一种基于视觉和语言预测的动态聚合（Dynamic Aggregation），将SNL-RPN转换为Siamese Natural Language Tracker (SNLT)；
在NL标注的数据集上将孪生跟踪器的性能提升了3-7个百分点，并且性能超过其他NL tracker，速度为50FPS。

阅读全文 »

DeepMix: Online Auto Data Augmentation for Robust Visual Object Tracking

发表于 2021-05-10 更新于 2022-06-11 分类于目标跟踪

论文

Motivation

通过历史帧样本在线更新目标模型对跟踪具有重要意义。最近的研究主要集中在构建有效的更新方法，而忽略了用于学习判别模型的训练样本；
本文提出DeepMix，对历史帧样本的特征进行在线增广，从而强化模型的在线更新能力。具体包括通过object-aware filtering在线增强历史样本，以及通过离线训练的MixNet混合多个样本进行数据增强；
最后通过三个典型的跟踪器DiMP, DSiam和SiamRPN++验证提出的方法。

阅读全文 »

Updatable Siamese Tracker with Two-stage One-shot Learning

发表于 2021-05-10 更新于 2022-06-11 分类于目标跟踪

论文

Motivation

本文主要解决孪生跟踪器缺乏在线更新能力的问题。传统的线性模板更新难以处理目标的不规则变化和采样噪声，造成跟踪漂移；而一些像updatenet采用网络进行自适应更新的方法，其更新网络和跟踪器在结构上是分离的，不能从联合训练中受益，也不能以最佳方式合作。

为了实现高质量的自适应更新，作者从 one-shot learning的角度提出一个two-stage one-shot learner，利用不同阶段的目标样本预测分类器的参数。具体来说，除了使用模板分支来学习初始目标特征，作者额外增加了一个输入分支用于捕获后续帧中的目标特征，并设计了一个残差模块来使用这些特征更新初始模板。通过残差学习融合多帧目标特征，跟踪器可以用更合适的模板跟踪当前目标。此外，还设计了一种多方面(multi-aspect)的训练损失来避免过拟合。

阅读全文 »

Learning to Filter: Siamese Relation Network for Robust Tracking

发表于 2021-05-08 更新于 2022-06-11 分类于目标跟踪

论文

Motivation

Siamese跟踪器的训练设置只是在大量的图像对中匹配同一个目标，而忽略了它们之间的区别，因此对相似干扰物的判别能力不够好；
分类和回归是独立优化的，造成二者之间的不匹配。具体来说，分类置信度最高的位置对应的目标框可能并不是最准确的（类似检测中general focal loss等文章的观点）。

针对上述问题，作者提出了两个模块：

Relation Detector (RD) 构造了一个2-way-1-shot的少样本学习方法来过滤干扰物。并且使用对比训练策略 (contrastive training strategy)，不仅学习匹配相同的目标，而且学习如何区分不同的目标；
Refinement Module (RM) 将RD和分类分支获得的信息进行整合，细化跟踪结果。RM可以联合优化分类分支和回归分支，缓解两个分支的不匹配。

阅读全文 »

Learning Target Candidate Association to Keep Track of What Not to Track

发表于 2021-04-28 更新于 2022-06-11 分类于目标跟踪

论文代码

Motivation

Martin参与的新作，出发点和之前的KYS类似，均指出仅外观模型不足以区分目标和干扰物，因此需要对所有潜在目标保持跟踪。不同的是KYS是通过一个传播模块隐式地跟踪所有对象，最后作用于外观模型的输出来抑制干扰响应；而本文则是借助SuperGlue显式地匹配帧间所有的候选对象，构建跟踪链，有点多目标跟踪的意思，可解释性也更强。

主流跟踪方法大多聚焦于建立强大的外观模型，然而仅依靠外观模型对于干扰物的鲁棒性较差；
作者提出另一种思路，即对干扰物也保持跟踪。为此构建一个可学习的关联网络（受启发自SuperGlue），允许在帧与帧之间传播所有候选目标；
针对跟踪数据集没有对干扰物标注的问题，提出了一种结合部分标注和自监督的训练策略。

阅读全文 »

Real-Time Visual Object Tracking via Few-Shot Learning

发表于 2021-04-27 更新于 2022-06-11 分类于目标跟踪

论文

跟踪可以看成是一个特殊的 few-shot learning (FSL) 问题，本文提出了一个通用的两阶段框架，它能够使用大量的FSL算法并且保持较快的速度。第一阶段通过SiamRPN生成若干潜在候选框，第二阶段通过少样本分类的思想对候选框进行分类。按照这种coarse-to-fine结构，第一阶段为第二阶段提供稀疏的样本，在第二阶段可以更方便、高效地进行多种FSL算法。作者选取了几种基于优化的少样本学习方法进行证明。此外，该框架可将大多数FSL算法直接应用到视觉跟踪中，使研究人员能够在这两个领域相互交流。

阅读全文 »

STMTrack: Template-free Visual Tracking with Space-time Memory Networks

发表于 2021-04-27 更新于 2022-06-11 分类于目标跟踪

论文

Motivation

离线训练的Siamese跟踪器已经充分完全挖掘了第一帧模板信息，但它们抵抗目标外观变化的能力依然有限。现有的模板更新机制大多依赖耗时的数值优化或复杂的手工设计策略，这阻碍了它们的实时跟踪和实际应用。本文提出了一种基于时空记忆网络的跟踪框架，该框架能够充分利用与目标相关的历史信息，从而更好地适应跟踪过程中的外观变化。这样避免了模板更新，所以叫template-free。主要创新点包括：

引入记忆机制存储目标的历史信息，引导跟踪器聚焦在当前帧中信息最丰富的区域；
memory network的像素级相似度计算能够生成更精确的目标框。

运行速度37 FPS

阅读全文 »