视觉对话的猜测状态跟踪
我们介绍了GuessWhat?!,一种两个玩家的猜谜游戏,用于研究计算机视觉和对话系统的相互作用。我们收集了一个由150K个人类游戏、66K张图像和总共800K个视觉问答对组成的大规模数据集。我们还使用深度学习模型建立了最初的基线。
Nov, 2016
展示了一个简单对称的辨别性基线,该基线可用于预测答案和问题,其性能与最先进的记忆网络方法相当。此外,首次在视觉对话数据集上评估了提问系统的性能,并展示了如何从辨别式问题生成和问题回答生成视觉对话。
Mar, 2018
本文研究了如何将对话管理器的能力融入端到端的基于视觉的对话代理,通过增加一个决策组件来决定是否询问一个图像中的目标指代,可以减少冗余和不必要的问题,并且可能导致更高效和更自然的交互。
May, 2018
本研究通过利用注意力机制为基础的神经网络,将对话状态跟踪任务转化为阅读理解问答,利用上下文意义理解对话中不同语境中槽位词语的指代,通过利用上下文单词嵌入的最新进展,并将方法与传统的联合状态跟踪方法相结合,得到了比当前最新技术提高11.75%的检测精度。
Aug, 2019
该论文提出了一种基于视觉对话状态跟踪(VDST)的方法,用于生成关于图片中目标的问题,该方法将对话状态表示和跟踪作为重点。该方法利用分布和对象差异注意力等特征来生成问题,并通过GuessWhat!数据集的实验结果证明其在减少重复问题等方面的表现明显优于先前的最先进方法。
Nov, 2019
文章提出了一个基于多模态融合和注意力机制的开放域问答系统,用于解决Audio-Video Scene-Aware Dialogue(AVSD)任务,结果表明基于问答假设的数据增广技术和模型均能在DSTC7-AVSD数据集上带来显著的改进。
Jul, 2020
本文提出了一种基于答案驱动的视觉状态估计器,用于目标视觉内容的更新和问题生成,并在 GuessWhat?! 数据集上完成了问题生成和猜测任务,获得了最先进的表现。
Oct, 2020
在 Q-Bot-A-Bot 图像猜测游戏设置下,利用强化学习与监督学习等方式构建一个关于视觉对话问题的相关实体增强问答系统 (ReeQ) 和基于增强学习的可靠游戏者 (AugG),这一方案在 VisDial v1.0 数据集上达到了最佳表现,能够提供更多视觉相关、丰富和连贯的问题。
Sep, 2021
本文针对视觉对话任务中的对话历史信息流被忽视的问题,提出了多轮对话状态跟踪模型(MDST),通过利用对话历史学习到的状态来回答问题。实验结果表明,MDST在生成设置下的表现达到了新的最优水平,并且通过人类研究验证了其在生成长且一致的人类般答案方面的有效性。
Aug, 2024
本研究解决了在视觉对话游戏GuessWhich中,问题生成者QBot在缺乏视觉信息的情况下进行有效推理的难题。我们提出了一种新颖的方法,通过构建未公开图像的心理模型,使QBot具备视觉推理能力,并能够在对话中动态跟踪状态。实验结果表明,该模型在各项指标上达到了新的最先进水平,显著超越了以往模型的表现。
Aug, 2024