强化学习在目标跟踪中的应用
强化学习讨论的问题是智能体(agent) 如何在一个复杂不确定的环境(environment) 里去最大化它能获得的奖励。 今天介绍三篇关于强化学习在目标跟踪中的工作,分别利用强化学习来决策使用的特征,多个跟踪器的切换以及是否更新模板。
论文列表:
Siamese Natural Language Tracker: Tracking by Natural Language Descriptions with Siamese Trackers
Introduction
本文研究的课题为tracking by natural language(NL) 。人类的学习过程是视觉和语言共同作用的,而在基于外观的跟踪过程中引入语言描述同样可以使得跟踪器更加精确、灵活和鲁棒(如图1的例子)。因此,本文将孪生跟踪器与语言描述结合,将语言描述编码成一个卷积核嵌入到孪生框架中(SNL-RPN),并将视觉和语言的预测进行动态聚合(Dynamic Aggregation),为tracking by NL任务提供了一个新的baseline。具体贡献总结如下:
- 提出一种新的tracking by NL的baseline,Siamese Natural Language Region Proposal Network (SNL-RPN);
- 提出了一种基于视觉和语言预测的动态聚合(Dynamic Aggregation),将SNL-RPN转换为Siamese Natural Language Tracker (SNLT);
- 在NL标注的数据集上将孪生跟踪器的性能提升了3-7个百分点,并且性能超过其他NL tracker,速度为50FPS。
Updatable Siamese Tracker with Two-stage One-shot Learning
Motivation
本文主要解决孪生跟踪器缺乏在线更新能力的问题。传统的线性模板更新难以处理目标的不规则变化和采样噪声,造成跟踪漂移;而一些像updatenet采用网络进行自适应更新的方法,其更新网络和跟踪器在结构上是分离的,不能从联合训练中受益,也不能以最佳方式合作。
为了实现高质量的自适应更新,作者从 one-shot learning的角度提出一个two-stage one-shot learner,利用不同阶段的目标样本预测分类器的参数。具体来说,除了使用模板分支来学习初始目标特征,作者额外增加了一个输入分支用于捕获后续帧中的目标特征,并设计了一个残差模块来使用这些特征更新初始模板。通过残差学习融合多帧目标特征,跟踪器可以用更合适的模板跟踪当前目标。此外,还设计了一种多方面(multi-aspect)的训练损失来避免过拟合。
Learning to Filter: Siamese Relation Network for Robust Tracking
Motivation
- Siamese跟踪器的训练设置只是在大量的图像对中匹配同一个目标,而忽略了它们之间的区别,因此对相似干扰物的判别能力不够好;
- 分类和回归是独立优化的,造成二者之间的不匹配。具体来说,分类置信度最高的位置对应的目标框可能并不是最准确的(类似检测中general focal loss等文章的观点)。
针对上述问题,作者提出了两个模块:
- Relation Detector (RD) 构造了一个2-way-1-shot的少样本学习方法来过滤干扰物。并且使用对比训练策略 (contrastive training strategy),不仅学习匹配相同的目标,而且学习如何区分不同的目标 ;
- Refinement Module (RM) 将RD和分类分支获得的信息进行整合,细化跟踪结果。RM可以联合优化分类分支和回归分支,缓解两个分支的不匹配。
Learning Target Candidate Association to Keep Track of What Not to Track
Motivation
Martin参与的新作,出发点和之前的KYS类似,均指出仅外观模型不足以区分目标和干扰物,因此需要对所有潜在目标保持跟踪。不同的是KYS是通过一个传播模块隐式地跟踪所有对象,最后作用于外观模型的输出来抑制干扰响应;而本文则是借助SuperGlue显式地匹配帧间所有的候选对象,构建跟踪链,有点多目标跟踪的意思,可解释性也更强。
- 主流跟踪方法大多聚焦于建立强大的外观模型,然而仅依靠外观模型对于干扰物的鲁棒性较差;
- 作者提出另一种思路,即对干扰物也保持跟踪。为此构建一个可学习的关联网络(受启发自SuperGlue),允许在帧与帧之间传播所有候选目标;
- 针对跟踪数据集没有对干扰物标注的问题,提出了一种结合部分标注和自监督的训练策略。