双人博弈：具有辨别式问题生成和回答的视觉对话

Mar, 2018

双人博弈：具有辨别式问题生成和回答的视觉对话

Two can play this Game: Visual Dialog with Discriminative Question Generation and Answering

Unnat Jain, Svetlana Lazebnik, Alexander Schwing

TL;DR展示了一个简单对称的辨别性基线，该基线可用于预测答案和问题，其性能与最先进的记忆网络方法相当。此外，首次在视觉对话数据集上评估了提问系统的性能，并展示了如何从辨别式问题生成和问题回答生成视觉对话。

Abstract

Human conversation is a complex mechanism with subtle nuances. It is hence an ambitious goal to develop artificial intelligence agents that can participate fluently in a conversation. While we are still far from achieving this goal, recent progress in →

发现论文，激发创造

视觉对话

本文介绍了视觉对话任务，即通过图像、对话历史和问题，要求AI智能体以自然、对话式的语言与人类进行有意义的对话，并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上，利用Latre Fusion、Hierarchical Recurrent Encoder和Memory Network等三个编码器和两个解码器（生成式和判别式），超越了许多复杂的基准线，并采用了基于检索的评估协议，Quantify了机器和人类在视觉对话任务上的性能差距，进而演示了第一款“视觉聊天机器人”。

Nov, 2016

使用深度强化学习学习协作视觉对话代理

本文介绍了一种基于深度强化学习的视觉问答和对话代理训练方法，通过协作游戏中的自然语言对话，演示了'visual'对话代理具有自主创建基于视觉属性的语言和沟通的能力，并发现强化学习有助于代理人的团队合作，促进信息交流和提高效率。

Mar, 2017

将判别学习中的知识转移至生成式视觉对话模型的最佳方法

本文提出一种新的训练神经序列模型，将判别式对话模型的知识传递到生成式对话模型中，通过Gumbel-Softmax逼近离散分布，建立了一个可端对端训练的生成式视觉对话模型，并在视觉对话数据集上显著优于现有模型(10个问题中有2.67个问题得分有所提高)。

Jun, 2017

递归视觉注意力在视觉对话中的应用

本文提出了一种名为Recursive Visual Attention(RvA)的新型注意力机制，用于解决视觉对话中的视觉协同参考问题，并在大规模的VisDial v0.9和v1.0数据集上进行了实验，结果表明RvA不仅超越了现有技术，而且在没有附加注释的情况下实现了合理的递归和可解释的注意力图。

Dec, 2018

基于图片-问题-答案协同的视觉对话网络

本研究提出了一种图像-问题-答案协同网络来评估答案的作用，该网络将传统的一阶段解决方案扩展为两个阶段，并在 Visual Dialog v1.0 数据集中取得了最新的最高成果。

Feb, 2019

通过回答不同的问题，改进生成式视觉对话

通过辅助目标激励Qbot多样性提问以减少重复, 从而达到更好的视觉对话效果, 在保证与前期研究同等图像相关性的同时, 大大提升了对话的多样性、一致性、流畅度和细节。

Sep, 2019

视觉对话的大规模预训练: 一个简单的最先进基准线

本文提出了一种基于ViLBERT的方法，该方法采用与Visual Dialog相关的视觉语言数据集的预训练，随后转移到Visual Dialog的训练上。文中还发现，在Visual Dialog中使用密集注释进行微调，可以提高NDCG，但会降低MRR。

Dec, 2019

面向目标导向视觉对话的答案驱动视觉状态估计器

本文提出了一种基于答案驱动的视觉状态估计器，用于目标视觉内容的更新和问题生成，并在 GuessWhat?! 数据集上完成了问题生成和猜测任务，获得了最先进的表现。

Oct, 2020

通过实体为基础的策略学习和增强猜测器来增强视觉对话问答系统

在 Q-Bot-A-Bot 图像猜测游戏设置下，利用强化学习与监督学习等方式构建一个关于视觉对话问题的相关实体增强问答系统 (ReeQ) 和基于增强学习的可靠游戏者 (AugG)，这一方案在 VisDial v1.0 数据集上达到了最佳表现，能够提供更多视觉相关、丰富和连贯的问题。

Sep, 2021

统一多模态模型结合非可能训练用于视觉对话

本文提出了一种名为UniMM-UL的统一多模态模型，它使用Unlikelihood Training方法来探索负样本中使用的有用知识，具有比先前工作更好的生成结果和与最先进技术相媲美的区分结果，并支持视觉对话理解和生成的多任务学习。

Nov, 2022