Sep, 2023

协作三流变压器用于视频字幕生成

TL;DR通过设计一个名为 COllaborative three-Stream Transformers(COST)的新框架,来在视频字幕任务中对句子的主语、谓语和宾语进行特殊关注,通过三个分支的 transformers 以及交叉粒度的注意力模块对不同粒度的视觉 - 语言交互进行建模和对齐,以获得准确的字幕预测。实验证明,COST 方法在视频字幕领域中表现优于现有的方法。