CVPRApr, 2019

使用结构和部分观测推理视觉对话

TL;DR本文提出了一种新的模型来解决复杂的视觉对话结构问题,并将其明确地形式化为具有部分观察节点和未知图结构(对话中的关系)的图形模型中的推断问题。通过期望最大化算法,我们可以在推理过程中推断出潜在的对话结构和所需的答案值,并提出了一种可微分图神经网络解决方案。实验证明,我们的模型在 VisDial 和 VisDial-Q 数据集上表现优异,并且能够推断出更好的对话推理潜在结构。