Aug, 2024

通过多轮对话中的迭代对象-实体对齐增强视觉对话状态跟踪

TL;DR本文针对视觉对话任务中的对话历史信息流被忽视的问题,提出了多轮对话状态跟踪模型(MDST),通过利用对话历史学习到的状态来回答问题。实验结果表明,MDST在生成设置下的表现达到了新的最优水平,并且通过人类研究验证了其在生成长且一致的人类般答案方面的有效性。