MMAug, 2020

查询两次:双重混合关注元学习用于视频摘要

TL;DR本文提出了一种新的框架,即 Dual Mixture Attention (DMASum) 模型,其中 Mixture of Attention layer (MoA) 通过两次自己 - 查询注意实现,可以捕获二阶变化以及初始查询 - 键注意,进而有效增加视频摘要中的模型能力,在引入新的单帧元学习规则后更广泛地实现小数据集的泛化,并且 DMASum 通过累积方式连接本地关键帧和全局关注,显著提高了 SumMe 和 TVSum 这两个公共数据集的定性和定量实验结果,解决了 softmax 瓶颈问题。