通过多模态对话进行视觉对象发现 ——GuessWhat?!

CVPRNov, 2016

通过多模态对话进行视觉对象发现 ——GuessWhat?!

GuessWhat?! Visual object discovery through multi-modal dialogue

Harm de Vries, Florian Strub, Sarath Chandar, Olivier Pietquin, Hugo Larochelle...

TL;DR我们介绍了 GuessWhat?!，一种两个玩家的猜谜游戏，用于研究计算机视觉和对话系统的相互作用。我们收集了一个由 150K 个人类游戏、66K 张图像和总共 800K 个视觉问答对组成的大规模数据集。我们还使用深度学习模型建立了最初的基线。

Abstract

We introduce GuessWhat?!, a two-player guessing game as a testbed for research on the interplay of computer vision and dialogue systems. The goal of the game is to locate an unknown object in a rich image scene b

guesswhat?!computer vision dialogue systems dataset deep learning models

发现论文，激发创造

视觉对话状态跟踪及其应用于问题生成

该论文提出了一种基于视觉对话状态跟踪（VDST）的方法，用于生成关于图片中目标的问题，该方法将对话状态表示和跟踪作为重点。该方法利用分布和对象差异注意力等特征来生成问题，并通过 GuessWhat！数据集的实验结果证明其在减少重复问题等方面的表现明显优于先前的最先进方法。

Nov, 2019

超越任务成功：关注同时学习观察、提问和猜测

本文提出了一种基于视觉支撑和对话系统组件融合的对话状态编码器，并以猜谜游戏 GuessWhat?! 为测试基地。通过多任务学习和协作学习，得出本文方法比基准系统更准确且具备更好的语言技能。

Sep, 2018

视觉对话的猜测状态跟踪

本文提出了一种猜测状态跟踪的猜测模型，用于 GuessWhat？！任务中的视觉定位和对话，以改善现有的猜测器，如 Guesser 的精度，实验结果显示，该模型在现有模型中表现最佳，猜测成功率达到 83.3％，接近人类的 84.4％。

Feb, 2020

视觉好奇心：学习提问以学习视觉识别

本文提出了一种基于视觉好奇心的智能代理，通过与 Oracle 的对话，实现在开放世界环境下识别物体和属性，使用强化学习作为框架学习角色的所有组件和模块，并通过独立于视觉和特定环境的问策略，在学习了新的视觉概念后，成功运用于新领域。

Oct, 2018

双人博弈：具有辨别式问题生成和回答的视觉对话

展示了一个简单对称的辨别性基线，该基线可用于预测答案和问题，其性能与最先进的记忆网络方法相当。此外，首次在视觉对话数据集上评估了提问系统的性能，并展示了如何从辨别式问题生成和问题回答生成视觉对话。

Mar, 2018

使用对话信息奖励实现目标导向的视觉对话：我应该问什么？

本文研究了目标导向的视觉对话任务，提出了一种结合强化学习和正则化信息增益的端到端目标导向视觉对话系统，并在 GuessWhat？！数据集上进行了测试，取得了优于当前最先进模型的显著结果。

Jul, 2019

询问无益：决定何时在指称视觉对话中猜测

本文研究了如何将对话管理器的能力融入端到端的基于视觉的对话代理，通过增加一个决策组件来决定是否询问一个图像中的目标指代，可以减少冗余和不必要的问题，并且可能导致更高效和更自然的交互。

May, 2018

基于不确定输入的实景问答的多世界方法

本文提出了一种自动回答关于图像的问题的方法，该方法结合了自然语言处理和计算机视觉的最新进展，采用多世界方法将离散推理与不确定预测结合起来，并在贝叶斯框架下表示对感知世界的不确定性。该方法能够处理有关现实场景的高难度的人类问题，并以计数、物体类别、实例和它们的列表等答案的范围进行回复。该系统直接从问题 - 答案对中进行训练。我们建立了该任务的第一个基准，可视为现代视觉图灵测试的一种尝试。

Oct, 2014

通过合作人工智能游戏评估视觉对话代理

本研究设计了一款协作游戏 GuessWhich，通过人类和视觉对话代理人 ALICE 的互动来测试人 - AI 团队的性能表现，并发现 AI 独立测试的表现与人 - AI 团队的性能表现存在差异。

Aug, 2017

Visual7W：基于图像的问答系统

通过物体级别的 grounding，在图像中建立了文本描述与图像区域的语义联系，提出了一种新型维度的视觉问答任务，并使用多个基线模型和带有空间注意力机制的 LSTM 模型来解决该任务。

Nov, 2015