Background

基于视觉的2D多目标跟踪

3115
11 分钟阅读

1. 概述

在多目标跟踪领域,根据输入数据的模态,可将现有研究分为基于视觉的多目标跟踪多模态多目标跟踪。基于视觉的方案成本较低、部署简单,但受到光照、视角、遮挡的影响较大;多模态多目标跟踪则通过融合深度、红外、雷达与视觉等信息,在单一视觉受限或其他恶劣场景表现更优。本文主要介绍基于视觉的2D多目标跟踪方法。

2. 基于视觉的多目标跟踪

基于视觉的多目标跟踪主要可分为基于检测的跟踪 (Track by Detection, TBD) 范式和端到端方法。

TBD范式首先利用 目标检测 方法获取目标的边界框,再通过 数据关联 策略将检测结果与已有轨迹进行匹配。其结构简单,通常具备较高的推理速度和可接受的精度,因此特别适用于算力受限且对实时性要求较高的场景。然而,其跟踪性能在很大程度上依赖于检测器的准确性。尽管一些TBD方法引入轻量级CNN网络用于Re-ID(重识别),但整体上对外观特征的利用仍较为有限,导致在目标外观相似或存在遮挡等复杂场景下,Re-ID的可靠性显著下降。

端到端方法通过一个统一的网络架构,直接从原始视频帧中输出目标轨迹。这些方法将特征提取、检测、数据关联等模块深度融合,实现从端到端训练到端到端预测。其优势在于能够联合优化各子任务,更好地建模目标间的时空一致性与外观演化,从而在复杂场景(如密集遮挡、频繁交互)中展现出更强的鲁棒性和更高的跟踪精度。但是,端到端的方法模型结构更为复杂,计算开销更大,在实时性或资源受限场景中的部署仍面临挑战。

还有一些联合检测和跟踪的方法,比如CenterTrack,其使用深度学习方法取代了卡尔曼滤波器等后处理步骤,但仍需通过匈牙利/贪心匹配进行数据关联。本文并未严格区分,将其与端到端的算法总结了在一起。

2.1. TBD范式的主要算法

算法简介相关链接
SORT
(2016)
早期基于TBD范式的代表算法,使用(基于恒定速度模型的)卡尔曼滤波得到预测框。
并通过检测框和预测框之间的 IoU 构建代价矩阵,采用匈牙利算法进行匹配。
论文
代码
DeepSORT
(2017)
在 SORT 的基础上引入了 外观模型 ,使用一个残差网络学习物体的外观特征,将运动代价与外观代价进行加权融合,形成最终的综合匹配代价矩阵。
采用 级联匹配 (Matching Cascade)策略:根据轨迹的活跃程度,优先匹配存活时间长的轨迹,从而尽可能减少ID切换。
论文
代码
ByteTrack
(2021)
关注对 低置信度检测框 的利用。
传统方法只使用高置信度(>0.5)的检测框,而 ByteTrack 认为低置信度的检测框可能是被遮挡的物体,虽然其外观置信度低,但位置可能是准确的。
采用 双重匹配 策略:首先使用高置信度的检测框与活越轨迹进行匹配,然后在用低置信度的检测框和未匹配的轨迹进行匹配。通过第二次利用低置信度检测框的匹配能提升在密集、遮挡场景的召回率,减少ID切换。
论文
代码
BoT-SORT
(2022)
采用放射变换的的全局运动补偿技术,减弱了相机运动/抖动对于数据关联的影响,减少了 ID-Switch假阳性
在ByteTrack中的 双重匹配 机制上加以改进,结合运动信息和外观信息拒绝低余弦相似度且距离较远的候选者。
通过 指数移动平均(EMA) 机制更新外观特征。
论文
代码
FastTracker
(2025)
是一种依赖运动特征而非外观特征的多种类通用跟踪框架,对于不同种类物体使用不同的动力学模型。
受ByteTrack中的双重匹配的启发而使用一种有所区别的 双重匹配 策略,第一阶段使用宽松的相似度阈值,第二阶段使用严格的相似度约束,相似度的评估主要依据运动特征而非外观特征。避免了深度卷积网络带来的计算开销,适用于实时在线应用。
利用基于道路和场景的 语义信息 的环境感知约束来强制执行合理的运动以提高识别的准确性。
论文
代码
OC-SORT
(2023)
传统的 SORT 类方法遵循卡尔曼滤波方法,以估计为中心,当目标被遮挡或检测失败时,没有观测,将完全信任运动模型的估计,导致跟踪漂移。
该研究认为现代的观测器有更强的目标检测能力,通常能够假设观测噪声的方差小于 运动噪声的方差,因此将跟踪器设计为观测中心能获得更好的跟踪效果。
在实践中,一段时间未被跟踪的目标再次与观测到的目标匹配时,回溯其丢失的时期,更新卡尔曼滤波的参数。
论文
代码

2.2. 端到端的主要算法

算法简介相关链接
CenterTrack
(2020)
简化了跟踪流程,用一个点来表示一个对象,用热点图来表示相邻帧中的对象,跨帧关联中只需考虑 中心点 即可。
通过检测器定位中心点,训练检测器的同时输出对于当前对象的 偏移向量 ,通过简单的贪心算法就能利用偏移向量进行数据关联。
论文
代码
TrackFormer
(2021)
通过一个 CNN 网络提取图像特征,并将特征通过编码器得到 全局特征 信息;
将全局特征作为 Key 和 Value ,(上一帧得到的)轨迹查询与对象查询 拼接 后作为 Query 将输入到解码器中;
解码器的输出作为下一帧的 轨迹查询 ,同时通过 MLP 得到预测框和类别预测。
解码器自注意力无法解决预测框重叠问题,因此需要通过删除低置信度框和 NMS 来解决强烈重叠的预测框。
论文
代码
TransTrack
(2021)
通过一个 CNN 网络提取图像特征,并将每个时刻特征保存到下一时刻;再将两个连续帧的特征通过编码器结构(自注意力机制)得到组合特征;
将组合特征作为 Key 和 Value 输入到解码器中,将 对象查询 和上一帧的对象特征作为 轨迹查询 作为 Query 并行 输入到两个解码器中,得到检测特征和跟踪特征;
最后通过并行的全连接层得到检测框和跟踪框,使用匈牙利算法进行 IoU匹配 得到预测框。
论文
代码
MOTR
(2022)
通过一个 CNN 网络提取图像特征,并将特征通过编码器得到 全局特征 信息;
将全局特征作为 Key 和 Value ,检测查询和跟踪查询连接起来作为 Query 输入到解码器,生成隐藏状态;
隐状态通过MLP得到当前时刻的跟踪结果,同时通过 查询交互模块 (QIM) 得到下一帧的轨迹查询。
论文
代码
## 3. 常用数据集
数据集名称简介链接
MOT Challenge最主流的基准系列,包含MOT15/16/17/20等版本。主要聚焦城市街道、广场等场景下的行人跟踪,包含不同密度和遮挡情况。MOT20专注于极端拥挤场景。motchallenge.net
KITTI Tracking自动驾驶领域经典数据集。由车载摄像头和激光雷达采集,包含城市、乡村和高速公路场景,提供2D/3D边界框,挑战在于目标尺度变化大。kitti
DanceTrack高遮挡与外观相似挑战。包含100个群舞视频,超过10万帧。由于舞者穿着相似且动作频繁交互,该数据集极度依赖运动模式而非外观特征。github.com/DanceTrack
BDD100K大规模驾驶视频数据集。包含10万段高清视频,覆盖昼夜及多种天气条件(晴天、雨天等),适用于车辆和行人跟踪,背景复杂且存在运动模糊。bdd-data.berkeley.edu
VisDrone无人机视角数据集。由无人机拍摄,包含城市和乡村场景,目标涵盖行人、车辆、自行车等,挑战在于视角动态变化和目标尺度多变。github.com/VisDrone
DukeMTMC跨摄像头行人跟踪。在Duke大学校园内使用8个摄像头采集,主要用于研究跨视角下的目标匹配与身份保持(Re-ID)。
TAO通用目标跟踪。包含2907个高分辨率视频,涵盖833个类别,旨在跟踪“任何对象”,词汇量远超传统基准。taodataset.org
SportsMOT体育场景专用。专为篮球、足球等体育赛事设计,解决运动员频繁遮挡、队服颜色相似以及快速运动等问题。github.com/MCG-NJU
RGBDT500多模态跟踪数据集。包含RGB、深度(D)和热红外(TIR)三种模态的500个视频,用于增强复杂环境(如低光)下的跟踪鲁棒性。RGBDT500
nuScenes全面的自动驾驶数据集。包含1000个驾驶场景,提供了6个摄像头、1个32线激光雷达等多传感器同步数据。包含23类物体的140万个3D边界框,支持3D检测、跟踪和预测任务。nuscenes
Waymo Open Dataset超大规模真实驾驶数据集。包含约1000段驾驶记录,由5个激光雷达和5个高分辨率摄像头采集。提供了精确的3D边界框(约2500万个)和2D边界框(约2200万个),覆盖了多种城市和郊区环境,以及白天/夜晚、晴天/雨天等多种天气光照条件。waymo
基于视觉的2D多目标跟踪
/blog/26029359
作者
发布于
2026/3/13
许可协议
CC BY-NC-SA 4.0