基于图片-问题-答案协同的视觉对话网络

Feb, 2019

基于图片-问题-答案协同的视觉对话网络

Image-Question-Answer Synergistic Network for Visual Dialog

Dalu Guo, Chang Xu, Dacheng Tao

TL;DR本研究提出了一种图像-问题-答案协同网络来评估答案的作用，该网络将传统的一阶段解决方案扩展为两个阶段，并在 Visual Dialog v1.0 数据集中取得了最新的最高成果。

Abstract

The image, question (combined with the history for de-referencing), and the corresponding answer are three vital components of visual dialog. Classical visual dialog systems integrate the image, question, and his

发现论文，激发创造

基于属性和外部知识的图像字幕和视觉问答

本文提出了在成功的卷积神经网络-循环神经网络方法中加入高级概念的方法，并证明其在图像字幕和视觉问答中取得了显著的改进。该机制还可用于合并外部知识，特别是允许在图像中回答有关内容的问题，即使图像本身不能提供完整答案。

Mar, 2016

视觉对话

本文介绍了视觉对话任务，即通过图像、对话历史和问题，要求AI智能体以自然、对话式的语言与人类进行有意义的对话，并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上，利用Latre Fusion、Hierarchical Recurrent Encoder和Memory Network等三个编码器和两个解码器（生成式和判别式），超越了许多复杂的基准线，并采用了基于检索的评估协议，Quantify了机器和人类在视觉对话任务上的性能差距，进而演示了第一款“视觉聊天机器人”。

Nov, 2016

在视觉问答中提升图像理解的作用：让 VQA 中的 V 更有意义

该研究通过收集相关的图像，用于构建一个平衡的数据集（VQA v2.0），并在此基础上比较现有的 VQA 模型的表现，发现这些模型都受到了语言先验的影响。此外，该研究还提出了一种可解释性模型，它不仅可以回答问题，而且还可以通过提供一个相似但不同的图像来提高用户对其信任度。

Dec, 2016

双人博弈：具有辨别式问题生成和回答的视觉对话

展示了一个简单对称的辨别性基线，该基线可用于预测答案和问题，其性能与最先进的记忆网络方法相当。此外，首次在视觉对话数据集上评估了提问系统的性能，并展示了如何从辨别式问题生成和问题回答生成视觉对话。

Mar, 2018

使用神经模块网络进行视觉对话中的视觉共指消解

本研究提出了一个神经模块网络架构，通过引入Refer和Exclude两个新模块，在更细的词级别上执行明确且基于地面的共指解决，以解决视觉对话中的核心指代消解问题，并展示了在MNIST对话和VisDial数据集上的有效性。

Sep, 2018

递归视觉注意力在视觉对话中的应用

本文提出了一种名为Recursive Visual Attention(RvA)的新型注意力机制，用于解决视觉对话中的视觉协同参考问题，并在大规模的VisDial v0.9和v1.0数据集上进行了实验，结果表明RvA不仅超越了现有技术，而且在没有附加注释的情况下实现了合理的递归和可解释的注意力图。

Dec, 2018

视觉对话中基于双重注意力机制的视觉参考解析网络

本文通过引入Dual Attention Networks （DAN）模型，提出了一种计算机视觉任务解决方法，用于对话历史和图像特征的信息匹配，通过考虑上下文信息和自我注意力机制的学习，解决了视觉指代消解问题，并在多个数据集上得到了显著的表现提升。

Feb, 2019

VD-BERT: 一个与BERT结合的统一视觉和对话Transformer

该研究提出的VD-BERT框架，是一种简单且有效的视觉-对话Transformer编码器，可以通过统一的编码器捕获图像和多回合对话之间的交互，并通过与BERT语言模型的整合实现回答的排名和生成，同时无需预训练外部视觉-语言数据即可获得最新的最高水平。

Apr, 2020

基于多视角注意力网络的视觉对话

论文旨在通过提出 Multi-View Attention Network (MVAN) 模型来解决视觉对话任务中的挑战性问题，该模型基于注意机制，利用多个视角来处理异构输入，并且通过序列对齐过程构建多模态表示，从而可以更好地捕捉到对话历史中与问题相关的信息，并在 VisDial v1.0 数据集上达到了最佳结果。

Apr, 2020

UTC: 一种带有 Inter-Task 对比学习的统一 Transformer，用于视觉对话

本文提出了一种基于对比学习的框架UTC，通过联合学习来实现对话中的判别和生成任务，该框架考虑了对话的上下文和目标答案作为锚点，利用两种相辅相成的对比损失来加强彼此的表示学习信号，并在 VisDial v1.0 数据集上进行了评估，在判别和生成任务上均超越了现有方法，并且在 Recall@1上比以前的状态-of-the-art生成方法提高了2个百分点以上。

May, 2022