MMApr, 2022

视频检索中的否定理解学习

TL;DR本研究使用现有数据集 (VATEX, MSR-VTT) 重新构建评估协议,提出了一种基于学习的方法来训练具有否定意义的视频检索模型,该方法通过部分否定原标题来为特定训练视频构建软负标题,然后计算三元组的双向约束损失,将这个辅助损失加权到标准检索损失中。实验证明,使用所提出的方法重新训练 CLIP 模型能够明显提高处理具有否定查询的能力,同时还提高了模型在原始基准测试中的表现。