Jun, 2024

跨多领域标签的混合学习视频时刻检索

TL;DR用混合学习的方法,从全监督的源领域迁移到弱标记的目标领域,提高视频时刻检索模型的学习能力。通过引入多支视觉文本对齐模型 (EVA),实现跨模态匹配信息共享和多模态特征对齐,优化领域不变的视觉和文本特征,以及具有判别性的联合视频和文本表示。实验证明 EVA 在源领域的时间段注释中的有效性,可以帮助在目标领域中学习无时间标签的视频时刻检索。