AAAINov, 2022
VLTinT: 视觉语言双重 Transformer,用于连贯的视频段落字幕生成
VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video Paragraph Captioning
Kashu Yamazaki, Khoa Vo, Sang Truong, Bhiksha Raj, Ngan Le
TL;DR本文提出了一种新的视觉 - 语言特征模型 (VL feature),通过 Autoregressive Transformer-in-Transformer (TinT) 模型来捕获视频中的语义,同时提出了一种 VL 对比损失 (VL contrastive loss) 来保证嵌入特征与字幕语义匹配,实验证明该方法优于现有的最优方法。