ACLMay, 2021

带序列匹配的并行关注网络用于视频 grounding

TL;DR本文提出了一个名为 SeqPAN 的并行注意力网络,用于解决视频 grounding 时的多模态表示学习和目标时刻边界预测问题。通过一个自主引导的并行注意力模块,SeqPAN 可以有效地捕捉自我模态上下文和视频文本的跨模态关注信息,并使用序列匹配策略指导开始 / 结束边界的预测。实验结果表明,SeqPAN 优于现有最先进方法。另外,自主引导的并行关注模块和序列匹配模块的有效性得到了验证。