Background

多目标跟踪中的常用性能指标

1074
4 分钟阅读

2D 多目标跟踪性能指标

MOTA (Multiple Object Tracking Accuracy)

MOTA 是多目标跟踪中最常用的综合性能指标,衡量跟踪目标的准确性,考虑了三种主要错误类型:漏检(False Negatives, FN)、误检(False Positives, FP)和身份切换(ID Switches, IDS)。MOTA 的计算公式如下:

MOTA=1t(FNt+FPt+IDSt)tGTtMOTA = 1 - \frac{\sum_t (FN_t + FP_t + IDS_t)}{\sum_t GT_t}

其中,FNtFN_t 是时间步 tt 的漏检数量,FPtFP_t 是误检数量,IDStIDS_t 是身份切换数量,GTtGT_t 是时间步 tt 的真实目标数量。MOTA 的值越高,表示跟踪算法的性能越好。

MOTP (Multiple Object Tracking Precision)

MOTP 衡量跟踪目标的精度,计算公式如下:

MOTP=i,tdi,ttctMOTP = \frac{\sum_{i,t} d_{i,t}}{\sum_t c_t}

其中,di,td_{i,t} 是时间步 tt 中目标 ii 的位置误差,ctc_t 是时间步 tt 中正确匹配的目标数量。这里的位置误差通常使用目标边界框的重叠度(如 IoU)来衡量,以此 MOTP 的值越高,表示跟踪精度越高。

IDF1 (Identification F1 Score)

IDF1 衡量跟踪算法在保持目标身份一致性方面的性能,计算公式如下:

IDF1=2IDTP2IDTP+IDFP+IDFN=21IDP+1IDRIDP=IDTPIDTP+IDFP,IDR=IDTPIDTP+IDFN\begin{aligned} IDF1 = \frac{2 \cdot IDTP}{2 \cdot IDTP + IDFP + IDFN} = \frac{2}{\frac{1}{IDP} + \frac{1}{IDR}} \\ IDP = \frac{IDTP}{IDTP + IDFP}, \quad IDR = \frac{IDTP}{IDTP + IDFN} \end{aligned}

其中,IDTPIDTP 是正确识别的目标数量,IDFPIDFP 是错误识别的目标数量,IDFNIDFN 是未识别的目标数量。IDF1 的值越高,表示跟踪算法在保持一致的对象识别更有效。 IDPIDP(Identification Precision)和 IDRIDR(Identification Recall)分别衡量识别的精确度和召回率。

HOTA (Higher Order Tracking Accuracy)

HOTA 是一种综合考虑检测和跟踪质量的评估指标,旨在解决 MOTA 在 ID 频繁切换场景下的不足。HOTA 的计算公式如下:

HOTA=1NiNDetA(αi)AssA(αi)DetA(α)=TPαTPα+FNα+FPα,AssA(α)=IDTPαTPα\begin{aligned} HOTA = \frac{1}{|N|} \sum_{i \in N} \sqrt{DetA(\alpha_i) \cdot AssA(\alpha_i)} \\ DetA(\alpha) = \frac{TP_{\alpha}}{TP_{\alpha} + FN_{\alpha} + FP_{\alpha}}, \quad AssA(\alpha) = \frac{IDTP_{\alpha}}{TP_{\alpha}} \end{aligned}

MT (Mostly Tracked)

MT 衡量在整个视频序列中被成功跟踪的目标比例。一个目标如果在其生命周期内被正确跟踪超过 80% 的时间,则被认为是“Mostly Tracked”。

ML (Mostly Lost)

ML 衡量在整个视频序列中几乎未被跟踪的目标比例。一个目标如果在其生命周期内被正确跟踪少于 20% 的时间,则被认为是“Mostly Lost”。

FAF (False Alarms per Frame)

FAF 衡量每帧图像中误检(False Positives)的平均数量。FAF 的值越低,表示跟踪算法的误检率越低。

Frag (Fragmented)

Frag 衡量轨迹的断裂次数。较低的 Frag 值表示跟踪算法能够更好地保持目标的连续性。

3D 多目标跟踪性能指标

3D 多目标跟踪任务中,有一些性能指标与 2D 多目标跟踪类似,但也有一些特定于 3D 跟踪的指标。

AMOTA (Average MOTA)

AMOTA 是 3D 多目标跟踪中常用的综合性能指标,是 MOTA 在不同召回率下的平均值,对于不同的召回率 rr,计算对应的 MOTAR,然后取平均值。计算公式如下:

AMOTA=1n1r{1n1,2n1,,1}MOTARMOTAR=max(0, 1IDSr+FPr+FNr(1r)PrP)\begin{aligned} AMOTA = \frac{1}{n - 1} \sum_{r \in \left\{ \frac{1}{n-1}, \frac{2}{n-1}, \ldots, 1 \right\}} MOTAR \\ MOTAR = \max\left(0,\ 1 - \frac{IDS_r + FP_r + FN_r - (1 - r) * P}{r * P}\right) \end{aligned}

AMOTP (Average MOTP)

AMOTP 衡量 3D 多目标跟踪的精度,是 MOTP 在不同召回率下的平均值。计算公式如下:

AMOTP=1n1r{1n1,2n1,,1}i,tdi,ttctAMOTP = \frac{1}{n-1} \sum_{r \in \left\{ \frac{1}{n-1}, \frac{2}{n-1}, \ldots, 1 \right\}} \frac{\sum_{i,t} d_{i,t}}{\sum_t c_t}

其中,di,td_{i,t} 是时间步 tt 中目标 ii 的 3D 位置误差,ctc_t 是时间步 tt 中正确匹配的目标数量。

TID (average track initialization duration in seconds)

TID 衡量从目标出现到被成功跟踪的平均时间,单位为秒。较低的 TID 值表示跟踪算法能够更快地初始化目标跟踪。

LGD (average longest gap duration in seconds)

LGD 衡量目标在跟踪过程中最长的断裂时间,单位为秒。较低的 LGD 值表示跟踪算法能够更好地保持目标的连续性。

参考资料

多目标跟踪中的常用性能指标
/blog/26022080
作者
发布于
2026/2/21
许可协议
CC BY-NC-SA 4.0