关键词temporal moment localization
搜索结果 - 2
- CVPR多模态视频问答的情感转移注意力网络
该论文提出了一种称为模态转移关注网络的模型解决多模式视频问答任务,该模型对任务进行任务分解并使用时间提议网络和异构推理网络进行处理,通过模态转移进行任务的执行,这种模型在 TVQA 基准数据集上的实验结果表明它优于之前的最优性能,达到 71 - 使用引导注意力在视频中进行自然语言查询的无需提议的时间时刻定位
本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法,以自然语言作为查询,解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件,实现从语言信息到视觉领域的转换,并评估了该方法在两个基准数据集上