Jun, 2024

CARLOR @ Ego4D Step Grounding Challenge: 基于贝叶斯的时序先验用于测试时间细化

TL;DR通过引入贝叶斯 - VSLNet,本技术报告解决了在大段未修剪的自我中心视频中根据自然语言描述定位活动的时间边界的挑战。我们的模型通过在推理过程中引入新颖的贝叶斯时间顺序先验,显著改进了传统模型,提高了时刻预测的准确性。我们的评估表明,在 Ego4D Goal-Step 数据集上具有卓越的性能,测试集中 Recall Top-1 为 35.18(在 0.3 的 IoU 下)和 20.48(在 0.5 的 IoU 下),达到了最先进的结果。