CVPRMar, 2021

面向上下文的 Biaffine 本地化网络用于时间句子定位

TL;DR本文提出一种新颖的本地化框架,使用双仿射机制以同时为视频中的所有开始和结束索引打分,该框架结合了全局和本地上下文以实现时间句子定位,同时引入多模态自注意机制提供细粒度的查询引导视频表征。大量实验证明,我们的 CBLN 在三个公共数据集上显著优于现有技术,证明了提出的本地化框架的有效性。