Nov, 2019

低秩 HOCA:视频字幕的高效高阶跨模态注意力

TL;DR介绍了一种基于高阶跨模态关注机制的视频字幕生成模型,通过各模态之间的交互关系计算注意力权重,引入低秩张量分解实现高效实现,实验结果表明新的模型在两种基准数据集上取得了最佳效果。