基于视觉的2D多目标跟踪

2026/3/13

3115 字

11 分钟阅读

1. 概述

在多目标跟踪领域，根据输入数据的模态，可将现有研究分为基于视觉的多目标跟踪和多模态多目标跟踪。基于视觉的方案成本较低、部署简单，但受到光照、视角、遮挡的影响较大；多模态多目标跟踪则通过融合深度、红外、雷达与视觉等信息，在单一视觉受限或其他恶劣场景表现更优。本文主要介绍基于视觉的2D多目标跟踪方法。

2. 基于视觉的多目标跟踪

基于视觉的多目标跟踪主要可分为基于检测的跟踪 (Track by Detection, TBD) 范式和端到端方法。

TBD范式首先利用 目标检测 方法获取目标的边界框，再通过 数据关联 策略将检测结果与已有轨迹进行匹配。其结构简单，通常具备较高的推理速度和可接受的精度，因此特别适用于算力受限且对实时性要求较高的场景。然而，其跟踪性能在很大程度上依赖于检测器的准确性。尽管一些TBD方法引入轻量级CNN网络用于Re-ID（重识别），但整体上对外观特征的利用仍较为有限，导致在目标外观相似或存在遮挡等复杂场景下，Re-ID的可靠性显著下降。

端到端方法通过一个统一的网络架构，直接从原始视频帧中输出目标轨迹。这些方法将特征提取、检测、数据关联等模块深度融合，实现从端到端训练到端到端预测。其优势在于能够联合优化各子任务，更好地建模目标间的时空一致性与外观演化，从而在复杂场景（如密集遮挡、频繁交互）中展现出更强的鲁棒性和更高的跟踪精度。但是，端到端的方法模型结构更为复杂，计算开销更大，在实时性或资源受限场景中的部署仍面临挑战。

还有一些联合检测和跟踪的方法，比如CenterTrack，其使用深度学习方法取代了卡尔曼滤波器等后处理步骤，但仍需通过匈牙利/贪心匹配进行数据关联。本文并未严格区分，将其与端到端的算法总结了在一起。

2.1. TBD范式的主要算法

算法	简介	相关链接
SORT (2016)	早期基于TBD范式的代表算法，使用（基于恒定速度模型的）卡尔曼滤波得到预测框。并通过检测框和预测框之间的 IoU 构建代价矩阵，采用匈牙利算法进行匹配。	论文代码
DeepSORT (2017)	在 SORT 的基础上引入了外观模型，使用一个残差网络学习物体的外观特征，将运动代价与外观代价进行加权融合，形成最终的综合匹配代价矩阵。采用级联匹配 (Matching Cascade)策略：根据轨迹的活跃程度，优先匹配存活时间长的轨迹，从而尽可能减少ID切换。	论文代码
ByteTrack (2021)	关注对低置信度检测框的利用。传统方法只使用高置信度(>0.5)的检测框，而 ByteTrack 认为低置信度的检测框可能是被遮挡的物体，虽然其外观置信度低，但位置可能是准确的。采用双重匹配策略：首先使用高置信度的检测框与活越轨迹进行匹配，然后在用低置信度的检测框和未匹配的轨迹进行匹配。通过第二次利用低置信度检测框的匹配能提升在密集、遮挡场景的召回率，减少ID切换。	论文代码
BoT-SORT (2022)	采用放射变换的的全局运动补偿技术，减弱了相机运动/抖动对于数据关联的影响，减少了 ID-Switch 和假阳性。在ByteTrack中的双重匹配机制上加以改进，结合运动信息和外观信息拒绝低余弦相似度且距离较远的候选者。通过指数移动平均(EMA) 机制更新外观特征。	论文代码
FastTracker (2025)	是一种依赖运动特征而非外观特征的多种类通用跟踪框架，对于不同种类物体使用不同的动力学模型。受ByteTrack中的双重匹配的启发而使用一种有所区别的双重匹配策略，第一阶段使用宽松的相似度阈值，第二阶段使用严格的相似度约束，相似度的评估主要依据运动特征而非外观特征。避免了深度卷积网络带来的计算开销，适用于实时在线应用。利用基于道路和场景的语义信息的环境感知约束来强制执行合理的运动以提高识别的准确性。	论文代码
OC-SORT (2023)	传统的 SORT 类方法遵循卡尔曼滤波方法，以估计为中心，当目标被遮挡或检测失败时，没有观测，将完全信任运动模型的估计，导致跟踪漂移。该研究认为现代的观测器有更强的目标检测能力，通常能够假设观测噪声的方差小于运动噪声的方差，因此将跟踪器设计为观测中心能获得更好的跟踪效果。在实践中，一段时间未被跟踪的目标再次与观测到的目标匹配时，回溯其丢失的时期，更新卡尔曼滤波的参数。	论文代码

2.2. 端到端的主要算法

算法	简介	相关链接
CenterTrack (2020)	简化了跟踪流程，用一个点来表示一个对象，用热点图来表示相邻帧中的对象，跨帧关联中只需考虑中心点即可。通过检测器定位中心点，训练检测器的同时输出对于当前对象的偏移向量，通过简单的贪心算法就能利用偏移向量进行数据关联。	论文代码
TrackFormer (2021)	通过一个 CNN 网络提取图像特征，并将特征通过编码器得到全局特征信息；将全局特征作为 Key 和 Value ，(上一帧得到的)轨迹查询与对象查询拼接后作为 Query 将输入到解码器中；解码器的输出作为下一帧的轨迹查询，同时通过 MLP 得到预测框和类别预测。解码器自注意力无法解决预测框重叠问题，因此需要通过删除低置信度框和 NMS 来解决强烈重叠的预测框。	论文代码
TransTrack (2021)	通过一个 CNN 网络提取图像特征，并将每个时刻特征保存到下一时刻；再将两个连续帧的特征通过编码器结构(自注意力机制)得到组合特征；将组合特征作为 Key 和 Value 输入到解码器中，将对象查询和上一帧的对象特征作为轨迹查询作为 Query 并行输入到两个解码器中，得到检测特征和跟踪特征；最后通过并行的全连接层得到检测框和跟踪框，使用匈牙利算法进行 IoU匹配得到预测框。	论文代码
MOTR (2022)	通过一个 CNN 网络提取图像特征，并将特征通过编码器得到全局特征信息；将全局特征作为 Key 和 Value ，检测查询和跟踪查询连接起来作为 Query 输入到解码器，生成隐藏状态；隐状态通过MLP得到当前时刻的跟踪结果，同时通过查询交互模块 (QIM) 得到下一帧的轨迹查询。	论文代码

## 3. 常用数据集

数据集名称	简介	链接
MOT Challenge	最主流的基准系列，包含MOT15/16/17/20等版本。主要聚焦城市街道、广场等场景下的行人跟踪，包含不同密度和遮挡情况。MOT20专注于极端拥挤场景。	motchallenge.net
KITTI Tracking	自动驾驶领域经典数据集。由车载摄像头和激光雷达采集，包含城市、乡村和高速公路场景，提供2D/3D边界框，挑战在于目标尺度变化大。	kitti
DanceTrack	高遮挡与外观相似挑战。包含100个群舞视频，超过10万帧。由于舞者穿着相似且动作频繁交互，该数据集极度依赖运动模式而非外观特征。	github.com/DanceTrack
BDD100K	大规模驾驶视频数据集。包含10万段高清视频，覆盖昼夜及多种天气条件（晴天、雨天等），适用于车辆和行人跟踪，背景复杂且存在运动模糊。	bdd-data.berkeley.edu
VisDrone	无人机视角数据集。由无人机拍摄，包含城市和乡村场景，目标涵盖行人、车辆、自行车等，挑战在于视角动态变化和目标尺度多变。	github.com/VisDrone
DukeMTMC	跨摄像头行人跟踪。在Duke大学校园内使用8个摄像头采集，主要用于研究跨视角下的目标匹配与身份保持（Re-ID）。
TAO	通用目标跟踪。包含2907个高分辨率视频，涵盖833个类别，旨在跟踪“任何对象”，词汇量远超传统基准。	taodataset.org
SportsMOT	体育场景专用。专为篮球、足球等体育赛事设计，解决运动员频繁遮挡、队服颜色相似以及快速运动等问题。	github.com/MCG-NJU
RGBDT500	多模态跟踪数据集。包含RGB、深度（D）和热红外（TIR）三种模态的500个视频，用于增强复杂环境（如低光）下的跟踪鲁棒性。	RGBDT500
nuScenes	全面的自动驾驶数据集。包含1000个驾驶场景，提供了6个摄像头、1个32线激光雷达等多传感器同步数据。包含23类物体的140万个3D边界框，支持3D检测、跟踪和预测任务。	nuscenes
Waymo Open Dataset	超大规模真实驾驶数据集。包含约1000段驾驶记录，由5个激光雷达和5个高分辨率摄像头采集。提供了精确的3D边界框（约2500万个）和2D边界框（约2200万个），覆盖了多种城市和郊区环境，以及白天/夜晚、晴天/雨天等多种天气光照条件。	waymo

基于视觉的2D多目标跟踪

/blog/26029359

作者

霖

发布于

2026/3/13

许可协议

CC BY-NC-SA 4.0

算法	简介	相关链接
SORT (2016)	早期基于TBD范式的代表算法，使用（基于恒定速度模型的）卡尔曼滤波得到预测框。并通过检测框和预测框之间的 IoU 构建代价矩阵，采用匈牙利算法进行匹配。	论文代码
DeepSORT (2017)	在 SORT 的基础上引入了外观模型，使用一个残差网络学习物体的外观特征，将运动代价与外观代价进行加权融合，形成最终的综合匹配代价矩阵。采用级联匹配 (Matching Cascade)策略：根据轨迹的活跃程度，优先匹配存活时间长的轨迹，从而尽可能减少ID切换。	论文代码
ByteTrack (2021)	关注对低置信度检测框的利用。传统方法只使用高置信度(>0.5)的检测框，而 ByteTrack 认为低置信度的检测框可能是被遮挡的物体，虽然其外观置信度低，但位置可能是准确的。采用双重匹配策略：首先使用高置信度的检测框与活越轨迹进行匹配，然后在用低置信度的检测框和未匹配的轨迹进行匹配。通过第二次利用低置信度检测框的匹配能提升在密集、遮挡场景的召回率，减少ID切换。	论文代码
BoT-SORT (2022)	采用放射变换的的全局运动补偿技术，减弱了相机运动/抖动对于数据关联的影响，减少了 ID-Switch 和假阳性。在ByteTrack中的双重匹配机制上加以改进，结合运动信息和外观信息拒绝低余弦相似度且距离较远的候选者。通过指数移动平均(EMA) 机制更新外观特征。	论文代码
FastTracker (2025)	是一种依赖运动特征而非外观特征的多种类通用跟踪框架，对于不同种类物体使用不同的动力学模型。受ByteTrack中的双重匹配的启发而使用一种有所区别的双重匹配策略，第一阶段使用宽松的相似度阈值，第二阶段使用严格的相似度约束，相似度的评估主要依据运动特征而非外观特征。避免了深度卷积网络带来的计算开销，适用于实时在线应用。利用基于道路和场景的语义信息的环境感知约束来强制执行合理的运动以提高识别的准确性。	论文代码
OC-SORT (2023)	传统的 SORT 类方法遵循卡尔曼滤波方法，以估计为中心，当目标被遮挡或检测失败时，没有观测，将完全信任运动模型的估计，导致跟踪漂移。该研究认为现代的观测器有更强的目标检测能力，通常能够假设观测噪声的方差小于运动噪声的方差，因此将跟踪器设计为观测中心能获得更好的跟踪效果。在实践中，一段时间未被跟踪的目标再次与观测到的目标匹配时，回溯其丢失的时期，更新卡尔曼滤波的参数。	论文代码

算法	简介	相关链接
CenterTrack (2020)	简化了跟踪流程，用一个点来表示一个对象，用热点图来表示相邻帧中的对象，跨帧关联中只需考虑中心点即可。通过检测器定位中心点，训练检测器的同时输出对于当前对象的偏移向量，通过简单的贪心算法就能利用偏移向量进行数据关联。	论文代码
TrackFormer (2021)	通过一个 CNN 网络提取图像特征，并将特征通过编码器得到全局特征信息；将全局特征作为 Key 和 Value ，(上一帧得到的)轨迹查询与对象查询拼接后作为 Query 将输入到解码器中；解码器的输出作为下一帧的轨迹查询，同时通过 MLP 得到预测框和类别预测。解码器自注意力无法解决预测框重叠问题，因此需要通过删除低置信度框和 NMS 来解决强烈重叠的预测框。	论文代码
TransTrack (2021)	通过一个 CNN 网络提取图像特征，并将每个时刻特征保存到下一时刻；再将两个连续帧的特征通过编码器结构(自注意力机制)得到组合特征；将组合特征作为 Key 和 Value 输入到解码器中，将对象查询和上一帧的对象特征作为轨迹查询作为 Query 并行输入到两个解码器中，得到检测特征和跟踪特征；最后通过并行的全连接层得到检测框和跟踪框，使用匈牙利算法进行 IoU匹配得到预测框。	论文代码
MOTR (2022)	通过一个 CNN 网络提取图像特征，并将特征通过编码器得到全局特征信息；将全局特征作为 Key 和 Value ，检测查询和跟踪查询连接起来作为 Query 输入到解码器，生成隐藏状态；隐状态通过MLP得到当前时刻的跟踪结果，同时通过查询交互模块 (QIM) 得到下一帧的轨迹查询。	论文代码