Jan, 2022

基于变分堆叠局部注意力网络的多样化视频字幕生成

TL;DR提出了一种基于 VSLAN 的视频字幕生成模型,该模型在编码器 - 解码器体系结构的基础上利用低秩双线性池化进行自我关注特征交互,并采用多特征流叠加的方式实现多样性编码,并实现了端到端的字幕生成,取得了较好的性能。