基于trackeval的dancetrack多目标跟踪性能评估实战指南

📅 发布时间：2026/7/6 6:39:02 👁️ 浏览次数：

1. 环境准备与数据“对号入座”搞多目标跟踪算法最怕什么不是模型调不好而是辛辛苦苦跑出来的结果不知道怎么科学地评价它。你说你跟踪得准我说我跟踪得稳到底谁更厉害这时候一个权威、标准的评估工具就至关重要了。今天咱们要聊的trackeval就是多目标跟踪领域一个非常流行的“裁判员”它能帮你把算法在DanceTrack这类复杂数据集上的表现用一系列国际公认的指标比如 HOTA, MOTA, IDF1给量化出来让你心里有本明明白白的账。我自己在折腾各种跟踪算法时没少跟 trackeval 打交道。刚开始也觉得配置有点绕但摸清楚它的“脾气”后发现它其实设计得非常清晰。它的核心思想很简单你把标准答案Ground Truth放一边把你算法的预测结果放另一边它来帮你逐帧比对然后算分。所以准备工作说白了就是两件事第一把 trackeval 这个“裁判”请到你的电脑上第二把“考题”DanceTrack数据集和“答卷”你的算法结果按照“裁判”要求的格式摆好。首先咱们得把 trackeval 的代码拿到手。直接去它的 GitHub 仓库搜索 “trackeval” 就能找到把项目下载到本地。我习惯用 git clone方便后续更新git clone https://github.com/JonathonLuiten/TrackEval.git cd TrackEval下载完你会发现项目结构很清晰。我们今天操作的核心区域就是那个data文件夹。它就像 trackeval 规定好的“考场”所有待评估的数据都必须按照特定结构放在这里面。接下来是准备“考题”——DanceTrack 数据集。DanceTrack 是个很有意思的数据集里面全是舞蹈视频目标舞者运动剧烈、频繁相互遮挡、外观相似非常考验跟踪算法的鲁棒性。你需要从 DanceTrack 官网下载你需要评估的数据分割比如验证集val或者测试集test。这里我以val 验证集为例因为通常我们会在验证集上调试和选择模型。下载下来的数据包你会找到两个关键东西标注文件Ground Truth通常是一个名为gt的文件夹里面包含了每个视频序列的标注文本如dancetrack0001_gt.txt。这就是“标准答案”。序列映射文件seqmap一个.txt文件比如val_seqmap.txt里面列出了所有属于验证集的视频序列名称如dancetrack0001。现在我们要把这些“原材料”放进 trackeval 的“考场”框架里。这个过程我称之为“对号入座”一步错后面就跑不起来。关键点在于trackeval 通过文件夹和文件名称来识别数据集和算法结果所以命名必须严格按照它的约定来。2. 构建评估数据框架GT与预测结果的组织理解了“考场”规则我们现在就来亲手搭建这个评估框架。打开 trackeval 目录下的data文件夹我们的所有操作都将在这里进行。2.1 放置标准答案Ground Truth首先处理“标准答案”。在data/gt/mot_challenge/路径下你会发现一些官方数据集如 MOT17-train 的文件夹。trackeval 遵循 MOT Challenge 的评估格式非常灵活可以支持自定义数据集。我们需要为 DanceTrack 创建一个专属的文件夹。注意这个文件夹的名字将直接作为后续评估命令中的--BENCHMARK参数但需要去掉后缀后面会讲。假设我们评估的是 val 集但按照惯例我们创建一个名为dancetrack-train的文件夹。别被“train”迷惑这只是一种命名习惯代表这个 benchmark 的名称里面实际可以放任何分割的数据。# 在 data/gt/mot_challenge/ 下创建文件夹 mkdir -p data/gt/mot_challenge/dancetrack-train然后将你从 DanceTrack 官网下载的gt文件夹里的所有*_gt.txt文件直接复制到刚创建的dancetrack-train文件夹里。不需要子文件夹直接平铺进去。接下来是至关重要的一步创建序列映射文件。进入data/gt/mot_challenge/seqmaps/文件夹。这里存放着各个数据集的序列列表文件。我们需要新建一个文件文件名必须与我们刚才创建的文件夹名严格一致即dancetrack-train.txt。cd data/gt/mot_challenge/seqmaps/ touch dancetrack-train.txt用文本编辑器打开这个dancetrack-train.txt文件。它的内容就是你需要评估的那些视频序列的名字每行一个不带任何路径和后缀。这个列表内容直接复制你从 DanceTrack 官网下载的val_seqmap.txt文件里的内容即可。例如文件内容看起来应该是这样的dancetrack0001 dancetrack0002 dancetrack0003 ...这个文件的作用是告诉 trackeval“嘿在dancetrack-train这个 benchmark 里你要去评估这些序列。” 少了它trackeval就不知道要评估哪些数据了。2.2 放置算法预测结果Tracker Output放好了“标准答案”现在来放你的“答卷”——也就是你的多目标跟踪算法比如 ByteTrack、OC-SORT、DeepSORT 等在 DanceTrack val 集上运行后生成的结果文件。这些结果文件通常也是文本格式如dancetrack0001.txt每行代表一帧中的一个跟踪框包含“帧号, 目标ID, 框左上角x, 框左上角y, 框宽度, 框高度, 置信度(可选)”等信息。现在我们需要把这些结果文件放到 trackeval 能识别的对应位置。路径在data/trackers/mot_challenge/下。首先创建与 GT 同名的 benchmark 文件夹mkdir -p data/trackers/mot_challenge/dancetrack-train然后在这个文件夹下为你本次实验创建一个文件夹名字可以任意比如叫try代表尝试一。这个文件夹名将作为评估命令中的--TRACKERS_TO_EVAL参数。mkdir -p data/trackers/mot_challenge/dancetrack-train/try最后在try文件夹下必须创建一个名为data的子文件夹。这是 trackeval 的硬性要求。把你所有的算法结果文件dancetrack0001.txt,dancetrack0002.txt...放到这个data文件夹里。# 假设你的结果文件在 /path/to/your/results/ 下 cp /path/to/your/results/*.txt data/trackers/mot_challenge/dancetrack-train/try/data/至此整个数据框架就搭建完毕了。我们来回顾一下核心结构这非常重要很多错误都源于目录不对TrackEval/ ├── scripts/ ├── ...其他文件... └── data/ ├── gt/ │ └── mot_challenge/ │ ├── dancetrack-train/ -- 你创建的GT文件夹 │ │ ├── dancetrack0001_gt.txt │ │ ├── dancetrack0002_gt.txt │ │ └── ... │ └── seqmaps/ │ └── dancetrack-train.txt -- 你创建的序列列表文件 └── trackers/ └── mot_challenge/ └── dancetrack-train/ -- 与GT同名的benchmark文件夹 └── try/ -- 你的实验名 └── data/ -- 必须叫‘data’ ├── dancetrack0001.txt ├── dancetrack0002.txt └── ...我踩过的坑就是经常忘记在try下面创建data文件夹或者把结果文件直接放在try下导致评估时读不到数据。记住这个结构能省下很多排查时间。3. 运行评估脚本与参数详解数据准备妥当最激动人心的时刻来了——运行评估脚本看看你的算法到底能得多少分。trackeval 提供了评估 MOT Challenge 格式数据的专用脚本scripts/run_mot_challenge.py。打开终端进入 trackeval 的根目录然后执行类似下面的命令。我强烈建议你第一次运行时先在一个小的子集上测试或者使用--USE_PARALLEL False关闭并行方便看日志。python scripts/run_mot_challenge.py \ --BENCHMARK dancetrack \ # 关键参数1评估的数据集名称 --SPLIT_TO_EVAL train \ # 关键参数2评估的数据分割 --TRACKERS_TO_EVAL try \ # 关键参数3要评估的算法结果文件夹名 --METRICS HOTA CLEAR Identity VACE \ # 要计算的指标 --USE_PARALLEL False \ # 首次运行关闭并行便于调试 --NUM_PARALLEL_CORES 1 \ # 并行核心数关闭并行时设为1 --DO_PREPROC False # 通常设为False除非你需要重新预处理GT这条命令看起来有点长我们拆开揉碎了讲每个参数都关系到评估能否成功--BENCHMARK dancetrack这是最容易出错的地方之一。这个参数的值应该取你之前在data/gt/mot_challenge/和data/trackers/mot_challenge/下创建的文件夹名但是要去掉后面的-train后缀我们创建的文件夹叫dancetrack-train但这里只写dancetrack。trackeval 会自动去寻找名为{BENCHMARK}-{SPLIT_TO_EVAL}的文件夹。所以这里写dancetrack加上下一参数的train它就组合成了dancetrack-train正好对应我们的文件夹。如果你创建的是dancetrack-val那么这里BENCHMARK写dancetrackSPLIT_TO_EVAL写val。--SPLIT_TO_EVAL train这个参数和上面的BENCHMARK一起用于定位完整的文件夹名。如上所述它和BENCHMARK用连字符拼接起来。在我们的例子中就是dancetrack-train。所以这个参数叫train并不是说我们评估的是训练集而是指我们评估的是名为dancetrack-train的这个 benchmark 配置。这个概念一定要理解。--TRACKERS_TO_EVAL try这个就简单了就是你放在data/trackers/mot_challenge/dancetrack-train/下面的那个实验文件夹的名字。我们之前创建的是try所以这里就写try。注意只写文件夹名本身不要写路径。--METRICS指定要计算哪些评估指标。这是 trackeval 的强大之处它集成了多种指标HOTAHigher Order Tracking Accuracy近年来被认为是最能均衡衡量检测和关联质量的指标强烈建议使用。CLEAR这就是经典的 MOTA多目标跟踪准确率和 MOTP多目标跟踪精度等指标。Identity主要是 IDF1衡量身份保持能力对于重识别要求高的场景很重要。VACE一些更细粒度的指标可以根据需要选择。你可以全选也可以只挑你关心的。首次运行可以全加上全面看看算法表现。--USE_PARALLEL是否使用多进程并行计算。对于 DanceTrack 这种序列较多的数据集开启并行设为True能大幅加速评估过程。但第一次运行时建议设为False这样如果出错错误信息会直接打印在终端更容易排查。等确保流程无误后再开启并行。--NUM_PARALLEL_CORES当USE_PARALLEL为True时指定使用的CPU核心数。通常设为你的物理核心数即可。--DO_PREPROC False这个参数建议保持为False。只有当你的 Ground Truth 数据格式需要被预处理比如转换成评估所需的格式时才设为True。我们的 DanceTrack GT 已经是标准格式所以不需要。命令运行后如果一切顺利你会看到终端开始滚动输出处理每个序列的日志最后会打印出一个汇总的评估表格。这个表格就是你的“成绩单”4. 解读评估结果从数字到洞见脚本跑完终端输出一长串表格是不是有点眼花缭乱别急我们一起来看懂这份“成绩单”。trackeval 的输出非常详细通常会按序列sequence输出指标最后给出整体overall的平均值。我们以最重要的几个指标为例看看它们告诉你什么1. HOTA 指标族这是当前最受推崇的指标。它不像 MOTA 那样过分强调检测而忽视关联。HOTA 本身是一个综合分数0-100%值越高越好。同时它会解耦出两个子分数DetA检测准确度Detection Accuracy衡量检测框与真实框的匹配程度。AssA关联准确度Association Accuracy衡量不同帧间同一目标ID关联的正确性。通过对比 DetA 和 AssA你可以快速定位算法的短板。比如在 DanceTrack 这种遮挡严重的场景如果你的 AssA 显著低于 DetA说明你的算法在目标被遮挡后重新关联的能力即重识别或运动建模有待加强。2. CLEAR 指标族MOTA/MOTP这是最传统、引用最广的指标。MOTA多目标跟踪准确率。它综合考虑了漏检FN、误检FP和 ID 切换IDSW。MOTA 可以是负数如果误检和漏检太多的话。一般来说MOTA 越高越好但它对检测性能非常敏感。MOTP多目标跟踪精度。它衡量的是匹配上的检测框与真实框之间的平均重合度如 IoU。这个指标更多反映你的检测器或者框回归的精度。IDSWID 切换次数。这个值当然是越少越好它直接反映了跟踪器维持目标身份连续性的能力。在 DanceTrack 中由于舞者服装颜色相似、动作交错IDSW 通常会是一个挑战。3. Identity 指标族IDF1IDF1识别 F1 分数。它计算的是基于目标 ID 的精确率和召回率的调和平均数。简单说它关注的是“正确识别出目标身份”的能力。对于需要长期、稳定追踪特定个体的应用比如体育分析IDF1 比 MOTA 更重要。看报告时不要只看一个 overall 的总分。一定要点开每个序列的结果看看。DanceTrack 里不同序列难度差异很大有的场景人多遮挡少有的场景则非常复杂。分析算法在哪些序列上表现差能给你更具体的改进方向。比如你发现算法在dancetrack0010这个群舞场景下 IDSW 暴增那么你就应该去仔细看看这个视频分析是运动模型在快速旋转时失效了还是外观特征在相似服装下区分度不够。trackeval 默认会把详细的评估结果包括每个序列的指标、每个指标的详细数据保存为文件。通常会在trackers/mot_challenge/dancetrack-train/try/下生成一个以评估日期时间命名的文件夹里面包含了.csv或.txt格式的详细报告。这些文件对于写论文或者做深入分析非常有用。5. 常见问题排查与实战技巧就算按照步骤来第一次运行也难免会遇到些“坑”。这里我分享几个自己踩过以及帮别人排查过的常见问题希望能帮你快速过关。问题一运行脚本后报错KeyError: ‘dancetrack-train’或类似说找不到 benchmark。原因99%是目录结构或参数不对。请严格按照第2部分检查确认data/gt/mot_challenge/dancetrack-train文件夹存在且里面有*_gt.txt文件。确认data/gt/mot_challenge/seqmaps/dancetrack-train.txt文件存在且内容正确每行一个序列名无后缀。最关键检查你的命令参数。--BENCHMARK dancetrack和--SPLIT_TO_EVAL train组合起来必须等于你上面创建的文件夹名dancetrack-train。如果文件夹叫my-dance-val那么参数就应该是--BENCHMARK my-dance --SPLIT_TO_EVAL val。问题二评估过程很快结束结果全是0或者NaN。这通常意味着你的预测结果文件没有被正确读取或格式错误。检查data/trackers/mot_challenge/dancetrack-train/try/data/目录下是否有你的.txt结果文件并且文件名是否与seqmap.txt里列出的序列名对应如dancetrack0001.txt对应序列dancetrack0001。检查结果文件格式。用文本编辑器打开一个结果文件看看是否符合 MOT Challenge 格式帧号, 目标ID, x, y, 宽, 高, 置信度, 类别, 可见性比率。通常前7列是必须的。确保数值是合理的比如坐标不是负数ID是整数等。确保你的结果文件覆盖了所有在seqmap.txt中列出的序列。少一个序列整体评估可能就会出问题。问题三评估速度非常慢。默认单进程运行确实慢。解决方法是启用并行计算。将命令中的--USE_PARALLEL False改为--USE_PARALLEL True并设置--NUM_PARALLEL_CORES为你电脑的CPU核心数比如8。速度会有质的提升。另外如果你只是想快速验证流程或看某个指标可以先在--METRICS里少选几个指标比如只跑HOTA这样也能快很多。问题四如何评估多个算法或同一算法的多次实验trackeval 支持一次性评估多个 tracker。你只需要在data/trackers/mot_challenge/dancetrack-train/下创建多个实验文件夹比如try_v1,try_v2,baseline。然后在运行命令时将--TRACKERS_TO_EVAL try改为--TRACKERS_TO_EVAL try_v1 try_v2 baseline用空格分隔多个名字。运行后它会分别计算每个 tracker 的结果并在最终表格中并排显示非常方便对比。问题五我想评估其他数据集比如自定义数据集该怎么适配trackeval 的框架通用性很强。你只需要模仿 DanceTrack 的步骤为你的数据集在data/gt/mot_challenge/下创建一个文件夹例如my_custom-train。将你的标注文件格式需转换为每行帧号, 目标ID, x, y, 宽, 高, 置信度(可选)通常置信度设为1放入该文件夹。在seqmaps文件夹下创建my_custom-train.txt写入你的序列列表。将你的跟踪结果放入data/trackers/mot_challenge/my_custom-train/exp1/data/。运行命令时使用--BENCHMARK my_custom --SPLIT_TO_EVAL train即可。最后一个小技巧trackeval 的评估脚本有很多其他参数比如可以设置检测置信度阈值--SKIP_SPLIT_FOL、是否生成可视化结果--OUTPUT_SUMMARY和--OUTPUT_DETAILED等。建议你有空时看看scripts/run_mot_challenge.py文件开头的参数解析部分能发现更多有用的功能。比如生成详细输出后你可以用 Excel 或 Pandas 进行更深度的数据分析绘制各个指标在不同序列上的分布图这比只看一个平均数能获得更多信息。

相关新闻

最新新闻

日新闻

周新闻

月新闻