文献阅读笔记：ADA-Track 端到端的多摄像头多目标跟踪

引言#

基于多摄像头的多目标跟踪主要有两种方法：一种将多视角特征转化为 鸟瞰图（BEV）表示，然后在BEV空间中进行跟踪；另一种利用 对象查询 构建跨视角的对象表示，然后在图像空间中进行跟踪。后者通常基于检测器的对象查询或跟踪器的轨迹查询，在常见的端到端的方法中（MOTR, TrackFormer, TransTrack），轨迹查询用于跨帧关联，而对象查询则用于检测新出现的对象。这样的设计导致跟踪和检测的任务高度耦合，不利于平衡检测和跟踪的性能。其次，这些方法的目标输出一个 置信度分数 ，但没有明确区分检测和跟踪的置信度，这使得在实际应用中难以根据不同的需求调整检测和跟踪的权重。

方法介绍#

ADA-Track的基本框架

在自注意力层，通过将检测查询( $Q_D$ )和轨迹查询( $Q_T$ )拼接在一起做自注意力操作，使得检测查询能够将轨迹查询作为先验信息，在对图像进行解码时更好地定位目标，轨迹查询也能利用检测查询的信息，从而提升检测性能。

在查询与图像的交叉注意力层，将轨迹查询和检测查询一起作为查询，图像特征作为键和值进行交叉注意力操作，得到检测框和轨迹框的特征表示。

在边缘增强的交叉注意力层，使用了 图Transformer 来增强轨迹查询之间的关系建模。通过构建一个图结构，节点表示轨迹查询和检测查询，边 (E)表示它们之间的相似性。与3DMOTFormer不同的是，ADA-Track的查询位置会在各个层进行更新，从而提升了关联的准确性。因此，此处使用了全连接图而非距离截断图（稀疏图）。

在解码器的最后一层，在推理阶段，将 $E^{L_d}$ 输入到一个MLP中，得到轨迹查询之间的关联分数，然后使用匈牙利算法进行数据关联。通过公式 $q_{T,i} = w_T q^{(L_d)}_{T,i} + (1 − w_T)q^{(L_d)}_{D, j}$ 使用最后一层的轨迹查询和检测查询的加权和作为最终的轨迹查询表示，从而结合了检测和跟踪的信息，得到轨迹特征，并用作下一时间步的轨迹查询。在实际使用中，ADA-Track直接使用了检测查询的权重为1，来更新轨迹特征。

文献阅读笔记：ADA-Track 端到端的多摄像头多目标跟踪

引言#

相关工作#

方法介绍#

参考资料#