回应《没有视觉或对话的视觉对话》（Massiceti 等，2018）

Jan, 2019

回应《没有视觉或对话的视觉对话》（Massiceti 等，2018）

Response to "Visual Dialogue without Vision or Dialogue" (Massiceti et al., 2018)

Abhishek Das, Devi Parikh, Dhruv Batra

TL;DR本文回应了 Massiceti 等人对 CVPR2017 Visual Dialog 论文基准模型和数据集评估提出的批评，澄清了可能会使从业者和未来参与 Visual Dialog 挑战者感到困惑的问题。

Abstract

In a recent workshop paper, Massiceti et al. presented a baseline model and subsequent critique of visual dialog (Das et al., CVPR 2017) t

visual dialog baseline model critique dataset evaluation

发现论文，激发创造

没有视觉或对话的视觉对话

使用基于规范相关分析 (CCA) 的简单方法，我们对视觉对话进行了特征描述，并指出现有方法存在的问题。该方法忽略了视觉刺激和对话排序，不需要梯度，具有较少的参数数量和学习时间，并在标准数据集上达到了接近最先进的性能水平，进一步分析了数据集的隐含偏差和过度约束的评估指标效应。

Dec, 2018

从 VQA 数据中学习视觉对话代理

研究如何提高视觉对话代理的适应性，使其可以在不忘记如何与人交谈的情况下，高效地适应新任务。通过分解意图和语言，减少在新任务中语言漂移的情况，并通过定性结果、自动化指标和人类研究证明我们的模型可以适应新任务并保持语言质量。

Jul, 2020

视觉对话

本文介绍了视觉对话任务，即通过图像、对话历史和问题，要求 AI 智能体以自然、对话式的语言与人类进行有意义的对话，并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上，利用 Latre Fusion、Hierarchical Recurrent Encoder 和 Memory Network 等三个编码器和两个解码器（生成式和判别式），超越了许多复杂的基准线，并采用了基于检索的评估协议，Quantify 了机器和人类在视觉对话任务上的性能差距，进而演示了第一款 “视觉聊天机器人”。

Nov, 2016

视觉对话中的历史记录：我们真的需要吗？

本文提出基于对话历史信息的注意力机制可以有效提高视觉对话系统的性能，并呈现出一种新的评估数据集进行基准测试，取得了 63% 的 NDCG 值。

May, 2020

DualVD：一种用于视觉对话中深度视觉理解的自适应双编码模型

该研究提出了一种新的模型来从视觉和语义两个角度描述图像，在多角度图像特征的基础上提出了特征选择框架，逐层适应性地捕捉问题相关信息，并在基准视觉对话数据集上取得了最先进的结果。更重要的是，通过可视化门控值，我们能够确定视觉和语义哪个模式在回答当前问题中发挥更重要的作用，为我们理解人类认知在视觉对话中的作用提供了见解。

Nov, 2019

音频 - 视觉场景感知对话的简单基线

本文提出了一种基于数据驱动学习的音视频感知对话基准方法，采用注意力机制从海量传感器中区分实用信号和干扰信号，实验结果表明此方法在音视频感知数据集中性能超过现有最先进方法 20% 以上。

Apr, 2019

模拟视觉对话中的指代关系

本文提出两个基于人类对话语言知识和语境特征的软约束来改进模型的对话代词消解能力，将这两个约束嵌入到深度 transformer 神经架构中。实验结果显示出了本模型在 VisDial v1.0 数据集上相比于现有模型的性能提升，无需预训练其他视觉语言数据集。

Mar, 2022

视觉对话的大规模预训练：一个简单的最先进基准线

本文提出了一种基于 ViLBERT 的方法，该方法采用与 Visual Dialog 相关的视觉语言数据集的预训练，随后转移到 Visual Dialog 的训练上。文中还发现，在 Visual Dialog 中使用密集注释进行微调，可以提高 NDCG，但会降低 MRR。

Dec, 2019

VDialogUE: 一个统一的可视对话评估基准

提出了 VDialogUE 基准测试，定义了五个核心多模态对话任务，并提出了一种综合评估模型性能的新评估指标 VDscore，同时介绍了一种名为 VISIT 的基准模型，该模型通过两阶段的预训练策略逐步构建多模态基础和对话能力，以促进通用多模态对话系统的发展。

Sep, 2023

情感视觉对话：基于视觉对话的情绪推理的大规模基准测试

我们引入情感视觉对话，这是一个情感解释和推理任务，作为研究在视觉对话中理解情感形成的测试基准。该任务涉及三个技能：（1）基于对话的问答（2）基于对话的情感预测和（3）基于对话的情感解释生成。我们的主要贡献是收集了一个大规模的数据集，称为 AffectVisDial，包含 50,000 个 10 轮的视觉对话，以及结论性的情感归因和基于对话的情感解释，总计达 27,180 个工作小时。我们解释了在收集数据集时的设计决策，并介绍了与对话参与者相关的提问者和回答者任务。我们训练并展示了基于最先进模型的坚实的情感视觉对话基准。值得注意的是，我们的模型生成的回答显示了对视觉对话中情感推理能力有希望的结果。我们的项目页面可在此 https URL 找到。

Aug, 2023