多目标跟踪综述
2238 字
12 分钟
在多目标跟踪领域,根据输入数据的模态,可将现有研究分为基于视觉的多目标跟踪和多模态多目标跟踪。基于视觉的方案成本较低、部署简单,但受到光照、视角、遮挡的影响较大;多模态多目标跟踪则通过融合深度、红外、雷达与视觉等信息,在单一视觉受限或其他恶劣场景表现更优。
基于视觉的多目标跟踪主要可分为基于检测的跟踪 (Track by Detection, TBD) 范式和端到端方法。
TBD范式首先利用 目标检测 方法获取目标的边界框,再通过 数据关联 策略将检测结果与已有轨迹进行匹配。其结构简单,通常具备较高的推理速度和可接受的精度,因此特别适用于算力受限且对实时性要求较高的场景。然而,其跟踪性能在很大程度上依赖于检测器的准确性。尽管一些TBD方法引入轻量级CNN网络用于Re-ID(重识别),但整体上对外观特征的利用仍较为有限,导致在目标外观相似或存在遮挡等复杂场景下,Re-ID的可靠性显著下降。
端到端方法通过一个统一的网络架构,直接从原始视频帧中输出目标轨迹。这些方法将特征提取、检测、数据关联等模块深度融合,实现从端到端训练到端到端预测。其优势在于能够联合优化各子任务,更好地建模目标间的时空一致性与外观演化,从而在复杂场景(如密集遮挡、频繁交互)中展现出更强的鲁棒性和更高的跟踪精度。但是,端到端的方法模型结构更为复杂,计算开销更大,在实时性或资源受限场景中的部署仍面临挑战。
还有一些联合检测和跟踪的方法,比如FairMOT、CenterTrack,其本质是在训练检测器时联合训练出其他特征,一同用于数据关联。本文并未严格区分,将其与TBD的算法总结了在一起。
| 算法 | 简介 | 相关链接 |
| SORT (2016) |
早期基于TBD范式的代表算法,使用(基于恒定速度模型的)卡尔曼滤波得到预测框。 并通过检测框和预测框之间的 IoU 构建代价矩阵,采用匈牙利算法进行匹配。 |
论文 代码 |
| DeepSORT (2017) |
在 SORT 的基础上引入了 外观模型 ,使用一个残差网络学习物体的外观特征,将运动代价与外观代价进行加权融合,形成最终的综合匹配代价矩阵。 采用 级联匹配 (Matching Cascade)策略:根据轨迹的活跃程度,优先匹配存活时间长的轨迹,从而尽可能减少ID切换。 |
论文 代码 |
| CenterTrack (2020) |
简化了跟踪流程,用一个点来表示一个对象,用热点图来表示相邻帧中的对象,跨帧关联中只需考虑 中心点 即可。 通过检测器定位中心点,训练检测器的同时输出对于当前对象的 偏移向量 ,通过简单的贪心算法就能利用偏移向量进行数据关联。 |
论文 代码 |
| ByteTrack (2021) |
关注对 低置信度检测框 的利用。 传统方法只使用高置信度(>0.5)的检测框,而 ByteTrack 认为低置信度的检测框可能是被遮挡的物体,虽然其外观置信度低,但位置可能是准确的。 采用 双重匹配 策略:首先使用高置信度的检测框与活越轨迹进行匹配,然后在用低置信度的检测框和未匹配的轨迹进行匹配。通过第二次利用低置信度检测框的匹配能提升在密集、遮挡场景的召回率,减少ID切换。 |
论文 代码 |
| BoT-SORT (2022) |
采用放射变换的的全局运动补偿技术,减弱了相机运动/抖动对于数据关联的影响,减少了 ID-Switch 和 假阳性。 在ByteTrack中的 双重匹配 机制上加以改进,结合运动信息和外观信息拒绝低余弦相似度且距离较远的候选者。 通过 指数移动平均(EMA) 机制更新外观特征。 |
论文 代码 |
| FastTracker (2025) |
是一种依赖运动特征而非外观特征的多种类通用跟踪框架,对于不同种类物体使用不同的动力学模型。 受ByteTrack中的双重匹配的启发而使用一种有所区别的 双重匹配 策略,第一阶段使用宽松的相似度阈值,第二阶段使用严格的相似度约束,相似度的评估主要依据运动特征而非外观特征。避免了深度卷积网络带来的计算开销,适用于实时在线应用。 利用基于道路和场景的 语义信息 的环境感知约束来强制执行合理的运动以提高识别的准确性。 |
论文 代码 |
| FairMOT (2020) |
||
| OC-SORT (2023) |
传统的 SORT 类方法遵循卡尔曼滤波方法,以估计为中心,当目标被遮挡或检测失败时,没有观测,将完全信任运动模型的估计,导致跟踪漂移。 该研究认为现代的观测器有更强的目标检测能力,通常能够假设观测噪声的方差小于 运动噪声的方差,因此将跟踪器设计为观测中心能获得更好的跟踪效果。 在实践中,一段时间未被跟踪的目标再次与观测到的目标匹配时,回溯其丢失的时期,更新卡尔曼滤波的参数。 |
论文 代码 |
| 算法 | 简介 | 相关链接 |
| TrackFormer (2021) |
通过一个 CNN 网络提取图像特征,并将特征通过编码器得到 全局特征 信息; 将全局特征作为 Key 和 Value ,(上一帧得到的)轨迹查询与对象查询 拼接 后作为 Query 将输入到解码器中; 解码器的输出作为下一帧的 轨迹查询 ,同时通过 MLP 得到预测框和类别预测。 解码器自注意力无法解决预测框重叠问题,因此需要通过删除低置信度框和 NMS 来解决强烈重叠的预测框。 |
论文 代码 |
| TransTrack (2021) |
通过一个 CNN 网络提取图像特征,并将每个时刻特征保存到下一时刻;再将两个连续帧的特征通过编码器结构(自注意力机制)得到组合特征; 将组合特征作为 Key 和 Value 输入到解码器中,将 对象查询 和上一帧的对象特征作为 轨迹查询 作为 Query 并行 输入到两个解码器中,得到检测特征和跟踪特征; 最后通过并行的全连接层得到检测框和跟踪框,使用匈牙利算法进行 IoU匹配 得到预测框。 |
论文 代码 |
| MOTR (2022) |
通过一个 CNN 网络提取图像特征,并将特征通过编码器得到 全局特征 信息; 将全局特征作为 Key 和 Value ,检测查询和跟踪查询连接起来作为 Query 输入到解码器,生成隐藏状态; 隐状态通过MLP得到当前时刻的跟踪结果,同时通过 查询交互模块 (QIM) 得到下一帧的轨迹查询。 |
论文 代码 |
| MeMOTR (2024) |
||
| MOTIP (2025) |
| 数据集 | 简介 | 来源 |
| Waymo | ||
| KITTI | ||
| LMOT | Multi-object tracking in the dark | |
| MOT20 | ||
| DanceTrack | ||
| BBD100K |