使用深度强化学习学习协作视觉对话代理

Mar, 2017

使用深度强化学习学习协作视觉对话代理

Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning

Abhishek Das, Satwik Kottur, José M. F. Moura, Stefan Lee, Dhruv Batra

TL;DR本文介绍了一种基于深度强化学习的视觉问答和对话代理训练方法，通过协作游戏中的自然语言对话，演示了'visual'对话代理具有自主创建基于视觉属性的语言和沟通的能力，并发现强化学习有助于代理人的团队合作，促进信息交流和提高效率。

Abstract

We introduce the first goal-driven training for visual question answering and dialog agents. Specifically, we pose a cooperative 'image guessing' game between two agents -- Qbot and Abot -- who communicate in nat

发现论文，激发创造

视觉对话

本文介绍了视觉对话任务，即通过图像、对话历史和问题，要求AI智能体以自然、对话式的语言与人类进行有意义的对话，并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上，利用Latre Fusion、Hierarchical Recurrent Encoder和Memory Network等三个编码器和两个解码器（生成式和判别式），超越了许多复杂的基准线，并采用了基于检索的评估协议，Quantify了机器和人类在视觉对话任务上的性能差距，进而演示了第一款“视觉聊天机器人”。

Nov, 2016

学习如何学习: 一种用于增量学习视觉定位词义的自适应对话代理

本研究基于强化学习模型，针对生动图像作为学习基础的人机交互场景，训练了一种多模态对话代理，并基于BURCHAK语料库对代理进行了交互式学习和评估，在提高分类器准确性的同时，尽量减少学习过程中的人工操作。结果表明，该代理学习策略的性能超过基于手工定制的策略，并能够与人类模拟器有效协同学习。

Sep, 2017

双人博弈：具有辨别式问题生成和回答的视觉对话

展示了一个简单对称的辨别性基线，该基线可用于预测答案和问题，其性能与最先进的记忆网络方法相当。此外，首次在视觉对话数据集上评估了提问系统的性能，并展示了如何从辨别式问题生成和问题回答生成视觉对话。

Mar, 2018

面向任务的多模态层次强化学习策略：视觉对话

通过多模态层次强化学习框架和状态适应技术，实现了语音和图像的目标驱动对话。在图像猜谜游戏中进行了实验，取得了良好的效果。

May, 2018

基于视觉对话的社区规范化

本文提出并评估了一种基于多智能体社区的对话框架，在不牺牲任务性能的情况下，通过社区强制规范产生更相关和连贯的对话。

Aug, 2018

超越任务成功：关注同时学习观察、提问和猜测

本文提出了一种基于视觉支撑和对话系统组件融合的对话状态编码器，并以猜谜游戏GuessWhat?!为测试基地。通过多任务学习和协作学习，得出本文方法比基准系统更准确且具备更好的语言技能。

Sep, 2018

使用对话信息奖励实现目标导向的视觉对话：我应该问什么？

本文研究了目标导向的视觉对话任务，提出了一种结合强化学习和正则化信息增益的端到端目标导向视觉对话系统，并在GuessWhat？！数据集上进行了测试，取得了优于当前最先进模型的显著结果。

Jul, 2019

通过回答不同的问题，改进生成式视觉对话

通过辅助目标激励Qbot多样性提问以减少重复, 从而达到更好的视觉对话效果, 在保证与前期研究同等图像相关性的同时, 大大提升了对话的多样性、一致性、流畅度和细节。

Sep, 2019

RMM：对话导航的递归性心理模型

本文提出递归心智模型 (Recursive Mental Model，RMM)，通过两个智能体的对话交互，其中一个询问问题，另一个给予回答，模拟类比人类对话，通过RMM可以更好地应对新的环境变化，为人机对话提供新思路。

May, 2020

通过实体为基础的策略学习和增强猜测器来增强视觉对话问答系统

在 Q-Bot-A-Bot 图像猜测游戏设置下，利用强化学习与监督学习等方式构建一个关于视觉对话问题的相关实体增强问答系统 (ReeQ) 和基于增强学习的可靠游戏者 (AugG)，这一方案在 VisDial v1.0 数据集上达到了最佳表现，能够提供更多视觉相关、丰富和连贯的问题。

Sep, 2021