May, 2021

多模态对话生成中的文本视觉相互依赖建模

TL;DR该论文提出了一种解决多模态对话生成的方法,可以更好地模拟真实环境中的多模态对话。通过建模文本 - 视觉特征之间的相互依赖,并研究生成与视觉背景相关的对话,大幅提升了模型性能。