双人博弈:具有辨别式问题生成和回答的视觉对话
本文介绍了视觉对话任务,即通过图像、对话历史和问题,要求AI智能体以自然、对话式的语言与人类进行有意义的对话,并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上,利用Latre Fusion、Hierarchical Recurrent Encoder和Memory Network等三个编码器和两个解码器(生成式和判别式),超越了许多复杂的基准线,并采用了基于检索的评估协议,Quantify了机器和人类在视觉对话任务上的性能差距,进而演示了第一款“视觉聊天机器人”。
Nov, 2016
本文介绍了一种基于深度强化学习的视觉问答和对话代理训练方法,通过协作游戏中的自然语言对话,演示了'visual'对话代理具有自主创建基于视觉属性的语言和沟通的能力,并发现强化学习有助于代理人的团队合作,促进信息交流和提高效率。
Mar, 2017
本文提出一种新的训练神经序列模型,将判别式对话模型的知识传递到生成式对话模型中,通过Gumbel-Softmax逼近离散分布,建立了一个可端对端训练的生成式视觉对话模型,并在视觉对话数据集上显著优于现有模型(10个问题中有2.67个问题得分有所提高)。
Jun, 2017
本文提出了一种名为Recursive Visual Attention(RvA)的新型注意力机制,用于解决视觉对话中的视觉协同参考问题,并在大规模的VisDial v0.9和v1.0数据集上进行了实验,结果表明RvA不仅超越了现有技术,而且在没有附加注释的情况下实现了合理的递归和可解释的注意力图。
Dec, 2018
本研究提出了一种图像-问题-答案协同网络来评估答案的作用,该网络将传统的一阶段解决方案扩展为两个阶段,并在 Visual Dialog v1.0 数据集中取得了最新的最高成果。
Feb, 2019
通过辅助目标激励Qbot多样性提问以减少重复, 从而达到更好的视觉对话效果, 在保证与前期研究同等图像相关性的同时, 大大提升了对话的多样性、一致性、流畅度和细节。
Sep, 2019
本文提出了一种基于ViLBERT的方法,该方法采用与Visual Dialog相关的视觉语言数据集的预训练,随后转移到Visual Dialog的训练上。文中还发现,在Visual Dialog中使用密集注释进行微调,可以提高NDCG,但会降低MRR。
Dec, 2019
本文提出了一种基于答案驱动的视觉状态估计器,用于目标视觉内容的更新和问题生成,并在 GuessWhat?! 数据集上完成了问题生成和猜测任务,获得了最先进的表现。
Oct, 2020
在 Q-Bot-A-Bot 图像猜测游戏设置下,利用强化学习与监督学习等方式构建一个关于视觉对话问题的相关实体增强问答系统 (ReeQ) 和基于增强学习的可靠游戏者 (AugG),这一方案在 VisDial v1.0 数据集上达到了最佳表现,能够提供更多视觉相关、丰富和连贯的问题。
Sep, 2021
本文提出了一种名为UniMM-UL的统一多模态模型,它使用Unlikelihood Training方法来探索负样本中使用的有用知识,具有比先前工作更好的生成结果和与最先进技术相媲美的区分结果,并支持视觉对话理解和生成的多任务学习。
Nov, 2022