Unsupervised Domain Adaptation for Nighttime Aerial Tracking
无监督域适应的夜间空中跟踪 + 夜间跟踪benchmark
Motivation
由于白天和夜间场景的域分布差异(低对比度、亮度、信噪比),导致现有的跟踪器在夜间场景表现较差。而标注大量夜间数据成本过高,因此本文提出一种无监督域适应的方式,即源域(白天)中的训练数据具有手动注释的标签,而目标域中(夜间)的训练数据没有标注。具体贡献如下:
- object discovery 用于预处理,从无标注数据中提取训练patch
- Transformer-based bridging layer 对齐不同域的特征
- Transformer day/night feature discriminator 通过对抗学习进一步缩小域差异
- 提出一个夜间空中跟踪数据集NAT2021,包括训练和测试
Method
首先对未标记的目标域数据预处理,采用基于显著性检测的策略来定位潜在目标和裁剪成对训练patch。训练过程中,使用 bridging layer 调制,使得不同域的特征对齐。后面接一个判别器用于区分源域和目标域的特征。整个过程通过对抗性学习来减少源域和目标域之间的特征分布差异。
Data preprocessing
- low-light enhancement:Learning to Enhance Low-Light Image via Zero-Reference Deep Curve Estimation
- salient object detection:Dynamic Context-Sensitive Filtering Network for Video Salient Object Detection
- dynamic programming :根据帧与帧之间候选框的归一化距离进行动态规划,确保轨迹是平滑的。对于动态规划没有选取候选框的帧,采用相邻帧的线性插值得到一个候选框。最后,根据得到的框序列从原始图像中裁剪出成对的训练patch。
Transformer bridging layer
在特征提取后面接一个transformer来缩小白天和夜间特征分布的gap,效果如图4所示,直接通过backbone提取的特征有明显的差异,而由桥接层修改的特征在分布上有重合。
Transformer discriminator
首先将特征通过gradient reverse layer (GRL) 反转梯度 (参考Gradient Reversal Layer指什么? - Just4Fan的回答 - 知乎 )
然后增加一个classification token,送入两层Transformer layers输出域分类结果
判别器需要正确区分源域和目标域,而前面的特征提取和对齐需要混淆二者,它们形成对抗训练。
NAT2021
为了对夜间空中跟踪进行性能评估,并为无监督训练提供足够的无标签夜间跟踪视频,作者提出了 nighttime aerial tracking benchmark (NAT2021)。 训练集没有标注,并且增加了一个新的光照属性