AAAISep, 2021

检索、字幕、生成:视觉基础为文本生成模型增强常识

TL;DR本研究探讨了利用图像中的多模态信息增强文本生成 Transformer 模型通用知识的有效方法。我们使用 BART 和 T5 进行了实验,并通过 VisCTG 方法成功地改善了通用知识、流畅性和特定性等问题的基线文本生成模型。