Aug, 2024

多模态对话状态跟踪在GuessWhich游戏中的应用

TL;DR本研究解决了在视觉对话游戏GuessWhich中,问题生成者QBot在缺乏视觉信息的情况下进行有效推理的难题。我们提出了一种新颖的方法,通过构建未公开图像的心理模型,使QBot具备视觉推理能力,并能够在对话中动态跟踪状态。实验结果表明,该模型在各项指标上达到了新的最先进水平,显著超越了以往模型的表现。