video moment retrieval (VMR) requires precise modelling of fine-grained moment-text associations to capture intricate visual-language relationships. Due to the lack of a diverse and generalisable VMR dataset to f
本文提出了一种名为Cheaper and Faster Moment Retrieval(CFMR)的新方法,其基于点级别监督,并设计了一种基于概念的多模式对齐机制,旨在提高VMR的检索效率。此方法可有效解决现有VMR方法所存在的昂贵的时间注释、计算成本高、效率低等问题,并在VMR基准测试中取得了新的最佳性能。
用混合学习的方法,从全监督的源领域迁移到弱标记的目标领域,提高视频时刻检索模型的学习能力。通过引入多支视觉文本对齐模型 (EVA),实现跨模态匹配信息共享和多模态特征对齐,优化领域不变的视觉和文本特征,以及具有判别性的联合视频和文本表示。实验证明 EVA 在源领域的时间段注释中的有效性,可以帮助在目标领域中学习无时间标签的视频时刻检索。