IJCAIJul, 2020

稀疏边界感知 Transformer 的视频字幕生成 (SBAT)

TL;DR本研究关注将 Transformer 结构应用于视频字幕生成的问题,提出了一种称作 Sparse Boundary-Aware Transformer (SBAT) 的方法来减少视频表征冗余,通过对多头注意力得分的边界感知池化操作和来自不同情境的选择性特征,以及引入局部相关性机制来补偿稀疏操作带来的局部信息丢失,实现多模态交互。在两个基准数据集上的实验结果表明,SBAT 在大多数指标下优于现有方法。