CVPRApr, 2024

SnAG: 视频定位的可扩展和准确性

TL;DR在本文中,我们研究了跨模态融合对视频定位模型可扩展性的影响,通过分析发现,针对长视频和大量文本查询的情况,后期融合是一种更具成本效益的融合方案,并提出了一种基于视频的采样方案以实现高效训练。基于这些发现,我们提出了 SnAG,作为可扩展且准确的视频定位的简单基准模型,相较于现有的 CONE 方法在具有挑战性的 MAD 数据集上,在长视频上 SnAG 更准确且快速,同时在短视频上也取得了极具竞争力的结果。