多目标跟踪综述 - 霖的博客

1. 概述#

在多目标跟踪领域，根据输入数据的模态，可将现有研究分为基于视觉的多目标跟踪和多模态多目标跟踪。基于视觉的方案成本较低、部署简单，但受到光照、视角、遮挡的影响较大；多模态多目标跟踪则通过融合深度、红外、雷达与视觉等信息，在单一视觉受限或其他恶劣场景表现更优。

2. 基于视觉的多目标跟踪#

基于视觉的多目标跟踪主要可分为基于检测的跟踪 (Track by Detection, TBD) 范式和端到端方法。

TBD范式首先利用 目标检测 方法获取目标的边界框，再通过 数据关联 策略将检测结果与已有轨迹进行匹配。其结构简单，通常具备较高的推理速度和可接受的精度，因此特别适用于算力受限且对实时性要求较高的场景。然而，其跟踪性能在很大程度上依赖于检测器的准确性。尽管一些TBD方法引入轻量级CNN网络用于Re-ID（重识别），但整体上对外观特征的利用仍较为有限，导致在目标外观相似或存在遮挡等复杂场景下，Re-ID的可靠性显著下降。

端到端方法通过一个统一的网络架构，直接从原始视频帧中输出目标轨迹。这些方法将特征提取、检测、数据关联等模块深度融合，实现从端到端训练到端到端预测。其优势在于能够联合优化各子任务，更好地建模目标间的时空一致性与外观演化，从而在复杂场景（如密集遮挡、频繁交互）中展现出更强的鲁棒性和更高的跟踪精度。但是，端到端的方法模型结构更为复杂，计算开销更大，在实时性或资源受限场景中的部署仍面临挑战。

还有一些联合检测和跟踪的方法，比如FairMOT、CenterTrack，其本质是在训练检测器时联合训练出其他特征，一同用于数据关联。本文并未严格区分，将其与TBD的算法总结了在一起。

2.1. TBD范式的主要算法#

算法	简介	相关链接
SORT (2016)	早期基于TBD范式的代表算法，使用（基于恒定速度模型的）卡尔曼滤波得到预测框。并通过检测框和预测框之间的 IoU 构建代价矩阵，采用匈牙利算法进行匹配。	论文代码
DeepSORT (2017)	在 SORT 的基础上引入了外观模型，使用一个残差网络学习物体的外观特征，将运动代价与外观代价进行加权融合，形成最终的综合匹配代价矩阵。采用级联匹配 (Matching Cascade)策略：根据轨迹的活跃程度，优先匹配存活时间长的轨迹，从而尽可能减少ID切换。	论文代码
CenterTrack (2020)	简化了跟踪流程，用一个点来表示一个对象，用热点图来表示相邻帧中的对象，跨帧关联中只需考虑中心点即可。通过检测器定位中心点，训练检测器的同时输出对于当前对象的偏移向量，通过简单的贪心算法就能利用偏移向量进行数据关联。	论文代码
ByteTrack (2021)	关注对低置信度检测框的利用。传统方法只使用高置信度(>0.5)的检测框，而 ByteTrack 认为低置信度的检测框可能是被遮挡的物体，虽然其外观置信度低，但位置可能是准确的。采用双重匹配策略：首先使用高置信度的检测框与活越轨迹进行匹配，然后在用低置信度的检测框和未匹配的轨迹进行匹配。通过第二次利用低置信度检测框的匹配能提升在密集、遮挡场景的召回率，减少ID切换。	论文代码
BoT-SORT (2022)	采用放射变换的的全局运动补偿技术，减弱了相机运动/抖动对于数据关联的影响，减少了 ID-Switch 和假阳性。在ByteTrack中的双重匹配机制上加以改进，结合运动信息和外观信息拒绝低余弦相似度且距离较远的候选者。通过指数移动平均(EMA) 机制更新外观特征。	论文代码
FastTracker (2025)	是一种依赖运动特征而非外观特征的多种类通用跟踪框架，对于不同种类物体使用不同的动力学模型。受ByteTrack中的双重匹配的启发而使用一种有所区别的双重匹配策略，第一阶段使用宽松的相似度阈值，第二阶段使用严格的相似度约束，相似度的评估主要依据运动特征而非外观特征。避免了深度卷积网络带来的计算开销，适用于实时在线应用。利用基于道路和场景的语义信息的环境感知约束来强制执行合理的运动以提高识别的准确性。	论文代码
FairMOT (2020)
OC-SORT (2023)	传统的 SORT 类方法遵循卡尔曼滤波方法，以估计为中心，当目标被遮挡或检测失败时，没有观测，将完全信任运动模型的估计，导致跟踪漂移。该研究认为现代的观测器有更强的目标检测能力，通常能够假设观测噪声的方差小于运动噪声的方差，因此将跟踪器设计为观测中心能获得更好的跟踪效果。在实践中，一段时间未被跟踪的目标再次与观测到的目标匹配时，回溯其丢失的时期，更新卡尔曼滤波的参数。	论文代码

2.2. 端到端的主要算法#

算法	简介	相关链接
TrackFormer (2021)	通过一个 CNN 网络提取图像特征，并将特征通过编码器得到全局特征信息；将全局特征作为 Key 和 Value ，(上一帧得到的)轨迹查询与对象查询拼接后作为 Query 将输入到解码器中；解码器的输出作为下一帧的轨迹查询，同时通过 MLP 得到预测框和类别预测。解码器自注意力无法解决预测框重叠问题，因此需要通过删除低置信度框和 NMS 来解决强烈重叠的预测框。	论文代码
TransTrack (2021)	通过一个 CNN 网络提取图像特征，并将每个时刻特征保存到下一时刻；再将两个连续帧的特征通过编码器结构(自注意力机制)得到组合特征；将组合特征作为 Key 和 Value 输入到解码器中，将对象查询和上一帧的对象特征作为轨迹查询作为 Query 并行输入到两个解码器中，得到检测特征和跟踪特征；最后通过并行的全连接层得到检测框和跟踪框，使用匈牙利算法进行 IoU匹配得到预测框。	论文代码
MOTR (2022)	通过一个 CNN 网络提取图像特征，并将特征通过编码器得到全局特征信息；将全局特征作为 Key 和 Value ，检测查询和跟踪查询连接起来作为 Query 输入到解码器，生成隐藏状态；隐状态通过MLP得到当前时刻的跟踪结果，同时通过查询交互模块 (QIM) 得到下一帧的轨迹查询。	论文代码
MeMOTR (2024)
MOTIP (2025)

3. 多模态多目标跟踪#

4. 常用数据集#

数据集	简介	来源
Waymo
KITTI
LMOT		Multi-object tracking in the dark
MOT20
DanceTrack
BBD100K

算法	简介	相关链接
SORT (2016)	早期基于TBD范式的代表算法，使用（基于恒定速度模型的）卡尔曼滤波得到预测框。并通过检测框和预测框之间的 IoU 构建代价矩阵，采用匈牙利算法进行匹配。	论文代码
DeepSORT (2017)	在 SORT 的基础上引入了外观模型，使用一个残差网络学习物体的外观特征，将运动代价与外观代价进行加权融合，形成最终的综合匹配代价矩阵。采用级联匹配 (Matching Cascade)策略：根据轨迹的活跃程度，优先匹配存活时间长的轨迹，从而尽可能减少ID切换。	论文代码
CenterTrack (2020)	简化了跟踪流程，用一个点来表示一个对象，用热点图来表示相邻帧中的对象，跨帧关联中只需考虑中心点即可。通过检测器定位中心点，训练检测器的同时输出对于当前对象的偏移向量，通过简单的贪心算法就能利用偏移向量进行数据关联。	论文代码
ByteTrack (2021)	关注对低置信度检测框的利用。传统方法只使用高置信度(>0.5)的检测框，而 ByteTrack 认为低置信度的检测框可能是被遮挡的物体，虽然其外观置信度低，但位置可能是准确的。采用双重匹配策略：首先使用高置信度的检测框与活越轨迹进行匹配，然后在用低置信度的检测框和未匹配的轨迹进行匹配。通过第二次利用低置信度检测框的匹配能提升在密集、遮挡场景的召回率，减少ID切换。	论文代码
BoT-SORT (2022)	采用放射变换的的全局运动补偿技术，减弱了相机运动/抖动对于数据关联的影响，减少了 ID-Switch 和假阳性。在ByteTrack中的双重匹配机制上加以改进，结合运动信息和外观信息拒绝低余弦相似度且距离较远的候选者。通过指数移动平均(EMA) 机制更新外观特征。	论文代码
FastTracker (2025)	是一种依赖运动特征而非外观特征的多种类通用跟踪框架，对于不同种类物体使用不同的动力学模型。受ByteTrack中的双重匹配的启发而使用一种有所区别的双重匹配策略，第一阶段使用宽松的相似度阈值，第二阶段使用严格的相似度约束，相似度的评估主要依据运动特征而非外观特征。避免了深度卷积网络带来的计算开销，适用于实时在线应用。利用基于道路和场景的语义信息的环境感知约束来强制执行合理的运动以提高识别的准确性。	论文代码
FairMOT (2020)
OC-SORT (2023)	传统的 SORT 类方法遵循卡尔曼滤波方法，以估计为中心，当目标被遮挡或检测失败时，没有观测，将完全信任运动模型的估计，导致跟踪漂移。该研究认为现代的观测器有更强的目标检测能力，通常能够假设观测噪声的方差小于运动噪声的方差，因此将跟踪器设计为观测中心能获得更好的跟踪效果。在实践中，一段时间未被跟踪的目标再次与观测到的目标匹配时，回溯其丢失的时期，更新卡尔曼滤波的参数。	论文代码