AAAIJan, 2020

视觉对话的模态平衡模型

TL;DR该论文探讨了通过使用图像和对话背景信息生成下一步回答的视觉对话任务。因为一些对话问题只需要看图像,没有历史对话背景的信息,因此先前的联合模式变得依赖和容易陷入对话历史的记忆中,相比之下,仅使用图像的模型更具有普适性,并且在 NDCG 指标上表现更好。因此,作者提出了一种结合两种模型的方法,并在视觉对话挑战赛中取得优异的成绩。