本文介绍了视觉对话任务,即通过图像、对话历史和问题,要求AI智能体以自然、对话式的语言与人类进行有意义的对话,并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上,利用Latre Fusion、Hierarchical Recurrent Encoder和Memory Network等三个编码器和两个解码器(生成式和判别式),超越了许多复杂的基准线,并采用了基于检索的评估协议,Quantify了机器和人类在视觉对话任务上的性能差距,进而演示了第一款“视觉聊天机器人”。
Nov, 2016
本研究基于强化学习模型,针对生动图像作为学习基础的人机交互场景,训练了一种多模态对话代理,并基于BURCHAK语料库对代理进行了交互式学习和评估,在提高分类器准确性的同时,尽量减少学习过程中的人工操作。结果表明,该代理学习策略的性能超过基于手工定制的策略,并能够与人类模拟器有效协同学习。
Sep, 2017
展示了一个简单对称的辨别性基线,该基线可用于预测答案和问题,其性能与最先进的记忆网络方法相当。此外,首次在视觉对话数据集上评估了提问系统的性能,并展示了如何从辨别式问题生成和问题回答生成视觉对话。
Mar, 2018
通过多模态层次强化学习框架和状态适应技术,实现了语音和图像的目标驱动对话。在图像猜谜游戏中进行了实验,取得了良好的效果。
May, 2018
本文提出并评估了一种基于多智能体社区的对话框架,在不牺牲任务性能的情况下,通过社区强制规范产生更相关和连贯的对话。
Aug, 2018
本文提出了一种基于视觉支撑和对话系统组件融合的对话状态编码器,并以猜谜游戏GuessWhat?!为测试基地。通过多任务学习和协作学习,得出本文方法比基准系统更准确且具备更好的语言技能。
Sep, 2018
本文研究了目标导向的视觉对话任务,提出了一种结合强化学习和正则化信息增益的端到端目标导向视觉对话系统,并在GuessWhat?!数据集上进行了测试,取得了优于当前最先进模型的显著结果。
Jul, 2019
通过辅助目标激励Qbot多样性提问以减少重复, 从而达到更好的视觉对话效果, 在保证与前期研究同等图像相关性的同时, 大大提升了对话的多样性、一致性、流畅度和细节。
Sep, 2019
本文提出递归心智模型 (Recursive Mental Model,RMM),通过两个智能体的对话交互,其中一个询问问题,另一个给予回答,模拟类比人类对话,通过RMM可以更好地应对新的环境变化,为人机对话提供新思路。
May, 2020
在 Q-Bot-A-Bot 图像猜测游戏设置下,利用强化学习与监督学习等方式构建一个关于视觉对话问题的相关实体增强问答系统 (ReeQ) 和基于增强学习的可靠游戏者 (AugG),这一方案在 VisDial v1.0 数据集上达到了最佳表现,能够提供更多视觉相关、丰富和连贯的问题。
Sep, 2021