Dec, 2023

跨模态对比学习与非对称协同注意网络在视频时刻检索中的应用

TL;DR视频时刻检索是一项具有挑战性的任务,需要视频和文本模态之间的精细交互。我们评估了一个最近提出的解决方案,在视频 grounding 任务中引入了不对称协同注意力网络,并在两个模态中加入了动量对比损失,其整合效果在 TACoS 数据集上表现更好,并在 ActivityNet Captions 上表现可比的结果,而且相对于基线模型,参数数量显著减少。