问者心中的回答者:面向目标的视觉对话的信息论方法
本文介绍了一种基于深度强化学习的方法,使用策略梯度算法来优化基于任务且与视觉相关的对话,该方法在通过Mechanical Turk收集的12万个对话数据集上进行了测试,并提供了鼓舞人心的结果,可以解决生成自然对话和在复杂图像中发现特定对象的问题。
Mar, 2017
本文提出一种深度增强学习框架,通过三种新的中间奖励来鼓励产生精简的问题,旨在解决图像问题中提出智能、目标导向的问题的挑战,同时在 GuessWhat?! 数据集上评估了该模型,结果显示相应的问题有助于在图片中识别特定的物体,并提高了成功率。
Nov, 2017
展示了一个简单对称的辨别性基线,该基线可用于预测答案和问题,其性能与最先进的记忆网络方法相当。此外,首次在视觉对话数据集上评估了提问系统的性能,并展示了如何从辨别式问题生成和问题回答生成视觉对话。
Mar, 2018
本文研究了如何将对话管理器的能力融入端到端的基于视觉的对话代理,通过增加一个决策组件来决定是否询问一个图像中的目标指代,可以减少冗余和不必要的问题,并且可能导致更高效和更自然的交互。
May, 2018
本文提出了一种基于视觉支撑和对话系统组件融合的对话状态编码器,并以猜谜游戏GuessWhat?!为测试基地。通过多任务学习和协作学习,得出本文方法比基准系统更准确且具备更好的语言技能。
Sep, 2018
本篇研究提出了AQM+算法,可以有效地处理大规模问题,并在任务定向的视觉对话问题GuessWhich中展现出了优越的性能,尤其是在处理非是或否的回答方面。
Feb, 2019
本文研究了目标导向的视觉对话任务,提出了一种结合强化学习和正则化信息增益的端到端目标导向视觉对话系统,并在GuessWhat?!数据集上进行了测试,取得了优于当前最先进模型的显著结果。
Jul, 2019
本文提出了一种基于答案驱动的视觉状态估计器,用于目标视觉内容的更新和问题生成,并在 GuessWhat?! 数据集上完成了问题生成和猜测任务,获得了最先进的表现。
Oct, 2020
在 Q-Bot-A-Bot 图像猜测游戏设置下,利用强化学习与监督学习等方式构建一个关于视觉对话问题的相关实体增强问答系统 (ReeQ) 和基于增强学习的可靠游戏者 (AugG),这一方案在 VisDial v1.0 数据集上达到了最佳表现,能够提供更多视觉相关、丰富和连贯的问题。
Sep, 2021
在视觉对话任务中生成面向目标的问题是一个具有挑战性且长期存在的问题。本文提出了一种基于信息搜索和跨情境单词学习的认知文献的启发式模型 Confirm-it 来生成更自然和有效的问题,并在 GuessWhat?! 游戏上进行了案例研究。
Sep, 2021