该论文提出了一种基于视觉对话状态跟踪(VDST)的方法,用于生成关于图片中目标的问题,该方法将对话状态表示和跟踪作为重点。该方法利用分布和对象差异注意力等特征来生成问题,并通过 GuessWhat!数据集的实验结果证明其在减少重复问题等方面的表现明显优于先前的最先进方法。
Nov, 2019
我们介绍了 GuessWhat?!,一种两个玩家的猜谜游戏,用于研究计算机视觉和对话系统的相互作用。我们收集了一个由 150K 个人类游戏、66K 张图像和总共 800K 个视觉问答对组成的大规模数据集。我们还使用深度学习模型建立了最初的基线。
Nov, 2016
本文提出了一种基于视觉支撑和对话系统组件融合的对话状态编码器,并以猜谜游戏 GuessWhat?! 为测试基地。通过多任务学习和协作学习,得出本文方法比基准系统更准确且具备更好的语言技能。
Sep, 2018
本文研究了如何将对话管理器的能力融入端到端的基于视觉的对话代理,通过增加一个决策组件来决定是否询问一个图像中的目标指代,可以减少冗余和不必要的问题,并且可能导致更高效和更自然的交互。
May, 2018
利用 “正则化自编码器”(Regularized Auto-Encoders)的 “想象模块”,可以在没有金标准类别标签的情况下,学习上下文感知和类别感知的潜在嵌入,进一步提高分析场景和提问的准确性,从而在知识猜测的游戏中取得更高的成功率。
Nov, 2020
本文提出了一种基于答案驱动的视觉状态估计器,用于目标视觉内容的更新和问题生成,并在 GuessWhat?! 数据集上完成了问题生成和猜测任务,获得了最先进的表现。
Oct, 2020
在 Q-Bot-A-Bot 图像猜测游戏设置下,利用强化学习与监督学习等方式构建一个关于视觉对话问题的相关实体增强问答系统 (ReeQ) 和基于增强学习的可靠游戏者 (AugG),这一方案在 VisDial v1.0 数据集上达到了最佳表现,能够提供更多视觉相关、丰富和连贯的问题。
Sep, 2021
本研究通过利用注意力机制为基础的神经网络,将对话状态跟踪任务转化为阅读理解问答,利用上下文意义理解对话中不同语境中槽位词语的指代,通过利用上下文单词嵌入的最新进展,并将方法与传统的联合状态跟踪方法相结合,得到了比当前最新技术提高 11.75% 的检测精度。
Aug, 2019
提出了一个评估框架 GROLLA,用于属性引导的基于场景的语言学习,其中包括三个子任务,以及一个用于评估学习潜在表征质量的新数据集 CompGuessWhat?!。结果显示,现有的模型学到了表达对象属性的表征的能力不足,并且它们没有学会足够稳健的策略和表征,在涉及新的场景或物体的游戏中表现最佳的无影响的准确度为 50.06%。
Jun, 2020
本文提出了一种基于外部编码的对话状态跟踪方法,通过查询相关知识以基于对话上下文信息来预测对话状态,证明在一些场景下,我们的方法比基线表现更优秀,尤其是在少样本学习情况下。
Oct, 2022