1. 概述#

在多目标跟踪领域,根据输入数据的模态,可将现有研究分为基于视觉的多目标跟踪多模态多目标跟踪。基于视觉的方案成本较低、部署简单,但受到光照、视角、遮挡的影响较大;多模态多目标跟踪则通过融合深度、红外、雷达与视觉等信息,在单一视觉受限或其他恶劣场景表现更优。

2. 基于视觉的多目标跟踪#

基于视觉的多目标跟踪主要可分为基于检测的跟踪 (Track by Detection, TBD) 范式和端到端方法。

TBD范式首先利用 目标检测 方法获取目标的边界框,再通过 数据关联 策略将检测结果与已有轨迹进行匹配。其结构简单,通常具备较高的推理速度和可接受的精度,因此特别适用于算力受限且对实时性要求较高的场景。然而,其跟踪性能在很大程度上依赖于检测器的准确性。尽管一些TBD方法引入轻量级CNN网络用于Re-ID(重识别),但整体上对外观特征的利用仍较为有限,导致在目标外观相似或存在遮挡等复杂场景下,Re-ID的可靠性显著下降。

端到端方法通过一个统一的网络架构,直接从原始视频帧中输出目标轨迹。这些方法将特征提取、检测、数据关联等模块深度融合,实现从端到端训练到端到端预测。其优势在于能够联合优化各子任务,更好地建模目标间的时空一致性与外观演化,从而在复杂场景(如密集遮挡、频繁交互)中展现出更强的鲁棒性和更高的跟踪精度。但是,端到端的方法模型结构更为复杂,计算开销更大,在实时性或资源受限场景中的部署仍面临挑战。

还有一些联合检测和跟踪的方法,比如FairMOT、CenterTrack,其本质是在训练检测器时联合训练出其他特征,一同用于数据关联。本文并未严格区分,将其与TBD的算法总结了在一起。

2.1. TBD范式的主要算法#

算法 简介 相关链接
SORT
(2016)
早期基于TBD范式的代表算法,使用(基于恒定速度模型的)卡尔曼滤波得到预测框。
并通过检测框和预测框之间的 IoU 构建代价矩阵,采用匈牙利算法进行匹配。
论文
代码
DeepSORT
(2017)
在 SORT 的基础上引入了 外观模型 ,使用一个残差网络学习物体的外观特征,将运动代价与外观代价进行加权融合,形成最终的综合匹配代价矩阵。
采用 级联匹配 (Matching Cascade)策略:根据轨迹的活跃程度,优先匹配存活时间长的轨迹,从而尽可能减少ID切换。
论文
代码
CenterTrack
(2020)
简化了跟踪流程,用一个点来表示一个对象,用热点图来表示相邻帧中的对象,跨帧关联中只需考虑 中心点 即可。
通过检测器定位中心点,训练检测器的同时输出对于当前对象的 偏移向量 ,通过简单的贪心算法就能利用偏移向量进行数据关联。
论文
代码
ByteTrack
(2021)
关注对 低置信度检测框 的利用。
传统方法只使用高置信度(>0.5)的检测框,而 ByteTrack 认为低置信度的检测框可能是被遮挡的物体,虽然其外观置信度低,但位置可能是准确的。
采用 双重匹配 策略:首先使用高置信度的检测框与活越轨迹进行匹配,然后在用低置信度的检测框和未匹配的轨迹进行匹配。通过第二次利用低置信度检测框的匹配能提升在密集、遮挡场景的召回率,减少ID切换。
论文
代码
BoT-SORT
(2022)
采用放射变换的的全局运动补偿技术,减弱了相机运动/抖动对于数据关联的影响,减少了 ID-Switch假阳性
在ByteTrack中的 双重匹配 机制上加以改进,结合运动信息和外观信息拒绝低余弦相似度且距离较远的候选者。
通过 指数移动平均(EMA) 机制更新外观特征。
论文
代码
FastTracker
(2025)
是一种依赖运动特征而非外观特征的多种类通用跟踪框架,对于不同种类物体使用不同的动力学模型。
受ByteTrack中的双重匹配的启发而使用一种有所区别的 双重匹配 策略,第一阶段使用宽松的相似度阈值,第二阶段使用严格的相似度约束,相似度的评估主要依据运动特征而非外观特征。避免了深度卷积网络带来的计算开销,适用于实时在线应用。
利用基于道路和场景的 语义信息 的环境感知约束来强制执行合理的运动以提高识别的准确性。
论文
代码
FairMOT
(2020)
OC-SORT
(2023)
传统的 SORT 类方法遵循卡尔曼滤波方法,以估计为中心,当目标被遮挡或检测失败时,没有观测,将完全信任运动模型的估计,导致跟踪漂移。
该研究认为现代的观测器有更强的目标检测能力,通常能够假设观测噪声的方差小于 运动噪声的方差,因此将跟踪器设计为观测中心能获得更好的跟踪效果。
在实践中,一段时间未被跟踪的目标再次与观测到的目标匹配时,回溯其丢失的时期,更新卡尔曼滤波的参数。
论文
代码

2.2. 端到端的主要算法#

算法 简介 相关链接
TrackFormer
(2021)
通过一个 CNN 网络提取图像特征,并将特征通过编码器得到 全局特征 信息;
将全局特征作为 Key 和 Value ,(上一帧得到的)轨迹查询与对象查询 拼接 后作为 Query 将输入到解码器中;
解码器的输出作为下一帧的 轨迹查询 ,同时通过 MLP 得到预测框和类别预测。
解码器自注意力无法解决预测框重叠问题,因此需要通过删除低置信度框和 NMS 来解决强烈重叠的预测框。
论文
代码
TransTrack
(2021)
通过一个 CNN 网络提取图像特征,并将每个时刻特征保存到下一时刻;再将两个连续帧的特征通过编码器结构(自注意力机制)得到组合特征;
将组合特征作为 Key 和 Value 输入到解码器中,将 对象查询 和上一帧的对象特征作为 轨迹查询 作为 Query 并行 输入到两个解码器中,得到检测特征和跟踪特征;
最后通过并行的全连接层得到检测框和跟踪框,使用匈牙利算法进行 IoU匹配 得到预测框。
论文
代码
MOTR
(2022)
通过一个 CNN 网络提取图像特征,并将特征通过编码器得到 全局特征 信息;
将全局特征作为 Key 和 Value ,检测查询和跟踪查询连接起来作为 Query 输入到解码器,生成隐藏状态;
隐状态通过MLP得到当前时刻的跟踪结果,同时通过 查询交互模块 (QIM) 得到下一帧的轨迹查询。
论文
代码
MeMOTR
(2024)
MOTIP
(2025)

3. 多模态多目标跟踪#

4. 常用数据集#

数据集 简介 来源
Waymo
KITTI
LMOT Multi-object tracking in the dark
MOT20
DanceTrack
BBD100K

参考资料#

多目标跟踪综述
https://blog.rinne05.top/blog/research/mot-survey/
作者
发布于
9/23/2025
许可协议
CC BY-NC-SA 4.0

主题设置

主题模式
主题色
透明度
模糊
© 2025 霖,采用 CC BY-NC-SA 4.0 许可
ICP备案号: 豫ICP备2025156598号-1
输入以搜索...
通过 Fuse.js 搜索