AAAINov, 2022

VLTinT: 视觉语言双重 Transformer,用于连贯的视频段落字幕生成

TL;DR本文提出了一种新的视觉 - 语言特征模型 (VL feature),通过 Autoregressive Transformer-in-Transformer (TinT) 模型来捕获视频中的语义,同时提出了一种 VL 对比损失 (VL contrastive loss) 来保证嵌入特征与字幕语义匹配,实验证明该方法优于现有的最优方法。