EMNLPNov, 2022

预训练模型在多模式标题生成中的嫁接

TL;DR本文提出了一种新方法,将预训练的视频 - 语言模型中的视频编码器嫁接到生成式的预训练语言模型上,并通过跨模态和内模态关系的一致性融合机制集成不同组件,以实现多模标题的生成。经过实验证明,嫁接模型在从实际应用程序收集的全新数据集上取得了强大的结果。