改进视觉对话的两个因果原则

CVPRNov, 2019

Two Causal Principles for Improving Visual Dialog

Jiaxin Qi, Yulei Niu, Jianqiang Huang, Hanwang Zhang

TL;DR本文通过发现视觉对话中被忽视的两种因果关系，即通过使用因果干预算法和避免输入对话历史记录来改进数据和模型的方法，提高了某些现有 Visual Dialog 模型的性能，其代码可在指定链接中找到。

Abstract

This paper unravels the design tricks adopted by us, the champion team MReaL-BDAI, for visual dialog Challenge 2019: two causal principles for improving →

visual dialog causal principles improvement data intervention algorithms

发现论文，激发创造

揭示视觉问答中交叉模态偏见：基于可能世界的因果视角 VQA 分析

本文介绍了一种同时减少 VQA 系统中视觉和语言偏差的方法，并推出了一种解释策略，最终在 VQA-CP v2 数据集上取得了比现有方法更好的结果。

May, 2023

视觉对话中的历史记录：我们真的需要吗？

本文提出基于对话历史信息的注意力机制可以有效提高视觉对话系统的性能，并呈现出一种新的评估数据集进行基准测试，取得了 63% 的 NDCG 值。

May, 2020

使用结构和部分观测推理视觉对话

本文提出了一种新的模型来解决复杂的视觉对话结构问题，并将其明确地形式化为具有部分观察节点和未知图结构（对话中的关系）的图形模型中的推断问题。通过期望最大化算法，我们可以在推理过程中推断出潜在的对话结构和所需的答案值，并提出了一种可微分图神经网络解决方案。实验证明，我们的模型在 VisDial 和 VisDial-Q 数据集上表现优异，并且能够推断出更好的对话推理潜在结构。

Apr, 2019

模拟视觉对话中的指代关系

本文提出两个基于人类对话语言知识和语境特征的软约束来改进模型的对话代词消解能力，将这两个约束嵌入到深度 transformer 神经架构中。实验结果显示出了本模型在 VisDial v1.0 数据集上相比于现有模型的性能提升，无需预训练其他视觉语言数据集。

Mar, 2022

视觉对话

本文介绍了视觉对话任务，即通过图像、对话历史和问题，要求 AI 智能体以自然、对话式的语言与人类进行有意义的对话，并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上，利用 Latre Fusion、Hierarchical Recurrent Encoder 和 Memory Network 等三个编码器和两个解码器（生成式和判别式），超越了许多复杂的基准线，并采用了基于检索的评估协议，Quantify 了机器和人类在视觉对话任务上的性能差距，进而演示了第一款 “视觉聊天机器人”。

Nov, 2016

从 VQA 数据中学习视觉对话代理

研究如何提高视觉对话代理的适应性，使其可以在不忘记如何与人交谈的情况下，高效地适应新任务。通过分解意图和语言，减少在新任务中语言漂移的情况，并通过定性结果、自动化指标和人类研究证明我们的模型可以适应新任务并保持语言质量。

Jul, 2020

没有视觉或对话的视觉对话

使用基于规范相关分析 (CCA) 的简单方法，我们对视觉对话进行了特征描述，并指出现有方法存在的问题。该方法忽略了视觉刺激和对话排序，不需要梯度，具有较少的参数数量和学习时间，并在标准数据集上达到了接近最先进的性能水平，进一步分析了数据集的隐含偏差和过度约束的评估指标效应。

Dec, 2018

视觉对话的大规模预训练：一个简单的最先进基准线

本文提出了一种基于 ViLBERT 的方法，该方法采用与 Visual Dialog 相关的视觉语言数据集的预训练，随后转移到 Visual Dialog 的训练上。文中还发现，在 Visual Dialog 中使用密集注释进行微调，可以提高 NDCG，但会降低 MRR。

Dec, 2019

通过对比学习提高视觉对话中的跨模态理解

本文提出了基于 VD-BERT 模型的 ICMU 方法，通过四向对比学习区分不同的输入来提高跨模态理解，支持多次视觉对话，改善视觉对话模型的跨模态理解，并在 VisDial 数据集上得到了令人满意的结果。

Apr, 2022

视觉对话中基于双重注意力机制的视觉参考解析网络

本文通过引入 Dual Attention Networks （DAN）模型，提出了一种计算机视觉任务解决方法，用于对话历史和图像特征的信息匹配，通过考虑上下文信息和自我注意力机制的学习，解决了视觉指代消解问题，并在多个数据集上得到了显著的表现提升。

Feb, 2019