通过回答不同的问题,改进生成式视觉对话
本文介绍了视觉对话任务,即通过图像、对话历史和问题,要求AI智能体以自然、对话式的语言与人类进行有意义的对话,并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上,利用Latre Fusion、Hierarchical Recurrent Encoder和Memory Network等三个编码器和两个解码器(生成式和判别式),超越了许多复杂的基准线,并采用了基于检索的评估协议,Quantify了机器和人类在视觉对话任务上的性能差距,进而演示了第一款“视觉聊天机器人”。
Nov, 2016
本文介绍了一种基于深度强化学习的视觉问答和对话代理训练方法,通过协作游戏中的自然语言对话,演示了'visual'对话代理具有自主创建基于视觉属性的语言和沟通的能力,并发现强化学习有助于代理人的团队合作,促进信息交流和提高效率。
Mar, 2017
本文提出一种新的训练神经序列模型,将判别式对话模型的知识传递到生成式对话模型中,通过Gumbel-Softmax逼近离散分布,建立了一个可端对端训练的生成式视觉对话模型,并在视觉对话数据集上显著优于现有模型(10个问题中有2.67个问题得分有所提高)。
Jun, 2017
本文提出了一种基于强化学习和生成对抗网络的新方法,结合注意力机制为每个回答生成可解释的理由,从而在保持自然对话的一致性的同时回答正确地回答问题,取得了当前主要基准测试的最先进结果。
Nov, 2017
展示了一个简单对称的辨别性基线,该基线可用于预测答案和问题,其性能与最先进的记忆网络方法相当。此外,首次在视觉对话数据集上评估了提问系统的性能,并展示了如何从辨别式问题生成和问题回答生成视觉对话。
Mar, 2018
本研究提出了一种图像-问题-答案协同网络来评估答案的作用,该网络将传统的一阶段解决方案扩展为两个阶段,并在 Visual Dialog v1.0 数据集中取得了最新的最高成果。
Feb, 2019
本文研究了目标导向的视觉对话任务,提出了一种结合强化学习和正则化信息增益的端到端目标导向视觉对话系统,并在GuessWhat?!数据集上进行了测试,取得了优于当前最先进模型的显著结果。
Jul, 2019
本文提出了一种基于ViLBERT的方法,该方法采用与Visual Dialog相关的视觉语言数据集的预训练,随后转移到Visual Dialog的训练上。文中还发现,在Visual Dialog中使用密集注释进行微调,可以提高NDCG,但会降低MRR。
Dec, 2019
在 Q-Bot-A-Bot 图像猜测游戏设置下,利用强化学习与监督学习等方式构建一个关于视觉对话问题的相关实体增强问答系统 (ReeQ) 和基于增强学习的可靠游戏者 (AugG),这一方案在 VisDial v1.0 数据集上达到了最佳表现,能够提供更多视觉相关、丰富和连贯的问题。
Sep, 2021
本文提出了一种名为UniMM-UL的统一多模态模型,它使用Unlikelihood Training方法来探索负样本中使用的有用知识,具有比先前工作更好的生成结果和与最先进技术相媲美的区分结果,并支持视觉对话理解和生成的多任务学习。
Nov, 2022