双人博弈:具有辨别式问题生成和回答的视觉对话
本文介绍了视觉对话任务,即通过图像、对话历史和问题,要求 AI 智能体以自然、对话式的语言与人类进行有意义的对话,并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上,利用 Latre Fusion、Hierarchical Recurrent Encoder 和 Memory Network 等三个编码器和两个解码器(生成式和判别式),超越了许多复杂的基准线,并采用了基于检索的评估协议,Quantify 了机器和人类在视觉对话任务上的性能差距,进而演示了第一款 “视觉聊天机器人”。
Nov, 2016
本文提出了一种基于强化学习和生成对抗网络的新方法,结合注意力机制为每个回答生成可解释的理由,从而在保持自然对话的一致性的同时回答正确地回答问题,取得了当前主要基准测试的最先进结果。
Nov, 2017
本研究提出了一种图像 - 问题 - 答案协同网络来评估答案的作用,该网络将传统的一阶段解决方案扩展为两个阶段,并在 Visual Dialog v1.0 数据集中取得了最新的最高成果。
Feb, 2019
本文介绍了一种用于视觉实例辨析的问答生成方法,通过提出一个包含超过 1 万张图像和相应的有辨识度和无辨识度问题样本的数据集,以及利用现有的视觉问答数据集进行弱监督学习,显著超越了传统对比方法。
Aug, 2017
本文研究了目标导向的视觉对话任务,提出了一种结合强化学习和正则化信息增益的端到端目标导向视觉对话系统,并在 GuessWhat?!数据集上进行了测试,取得了优于当前最先进模型的显著结果。
Jul, 2019
通过辅助目标激励 Qbot 多样性提问以减少重复,从而达到更好的视觉对话效果,在保证与前期研究同等图像相关性的同时,大大提升了对话的多样性、一致性、流畅度和细节。
Sep, 2019
通过使用对比可视化问题生成(ConVQG)方法,我们成功地提出了一种生成基于图像、文本约束以及知识的对比问题的方法,实验证明 ConVQG 在相关性、图像相关性和知识丰富性等方面优于现有方法,并通过人类评估显示对 ConVQG 问题的偏好。
Feb, 2024
该论文训练了一个视觉问答系统,使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统,该数据集使用模板自动生成,模型的最高准确性超过了人类专家水平。
Aug, 2022