DualVD：一种用于视觉对话中深度视觉理解的自适应双编码模型

AAAINov, 2019

DualVD：一种用于视觉对话中深度视觉理解的自适应双编码模型

DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue

Xiaoze Jiang, Jing Yu, Zengchang Qin, Yingying Zhuang, Xingxing Zhang...

TL;DR该研究提出了一种新的模型来从视觉和语义两个角度描述图像，在多角度图像特征的基础上提出了特征选择框架，逐层适应性地捕捉问题相关信息，并在基准视觉对话数据集上取得了最先进的结果。更重要的是，通过可视化门控值，我们能够确定视觉和语义哪个模式在回答当前问题中发挥更重要的作用，为我们理解人类认知在视觉对话中的作用提供了见解。

Abstract

Different from Visual Question Answering task that requires to answer only one question about an image, visual dialogue involves multiple questions which cover a broad range of visual content that could be related to any objects, relationships or semantics. The key challenge in

visual dialogue image representation multi-view image features feature selection framework human cognition

发现论文，激发创造

基于反应式多阶段特征融合的多模态对话建模

本文提出了一种直观的机制，通过多个阶段融合特征和注意力以很好地集成多模式特征，以解决音频视觉场景感知对话任务，并进一步分析了各种最先进的模型在该任务上的泛化能力。

Aug, 2019

视觉对话

本文介绍了视觉对话任务，即通过图像、对话历史和问题，要求 AI 智能体以自然、对话式的语言与人类进行有意义的对话，并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上，利用 Latre Fusion、Hierarchical Recurrent Encoder 和 Memory Network 等三个编码器和两个解码器（生成式和判别式），超越了许多复杂的基准线，并采用了基于检索的评估协议，Quantify 了机器和人类在视觉对话任务上的性能差距，进而演示了第一款 “视觉聊天机器人”。

Nov, 2016

DMRM: 用于视觉对话的双通道多跳推理模型

提出了一种新的视觉对话模型 DMRM，通过双通道多跳推理结合多模态注意力，有效地将问题、图像和历史上下文信息融合，从而提高了视觉对话的生成质量。在 VisDial v0.9 和 v1.0 数据集上，DMRM 模型的实验结果表明，相比较其他模型，DMRM 模型具有更好的效果。

Dec, 2019

基于多视角注意力网络的视觉对话

论文旨在通过提出 Multi-View Attention Network (MVAN) 模型来解决视觉对话任务中的挑战性问题，该模型基于注意机制，利用多个视角来处理异构输入，并且通过序列对齐过程构建多模态表示，从而可以更好地捕捉到对话历史中与问题相关的信息，并在 VisDial v1.0 数据集上达到了最佳结果。

Apr, 2020

视觉对话的模态平衡模型

该论文探讨了通过使用图像和对话背景信息生成下一步回答的视觉对话任务。因为一些对话问题只需要看图像，没有历史对话背景的信息，因此先前的联合模式变得依赖和容易陷入对话历史的记忆中，相比之下，仅使用图像的模型更具有普适性，并且在 NDCG 指标上表现更好。因此，作者提出了一种结合两种模型的方法，并在视觉对话挑战赛中取得优异的成绩。

Jan, 2020

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

VD-BERT: 一个与 BERT 结合的统一视觉和对话 Transformer

该研究提出的 VD-BERT 框架，是一种简单且有效的视觉 - 对话 Transformer 编码器，可以通过统一的编码器捕获图像和多回合对话之间的交互，并通过与 BERT 语言模型的整合实现回答的排名和生成，同时无需预训练外部视觉 - 语言数据即可获得最新的最高水平。

Apr, 2020

VU-BERT：一个视觉对话的统一框架

本文提出了一种名为 VU-BERT 图文联合嵌入的框架，通过用 patch projection 获取视觉嵌入来简化模型，从而解决了现有研究中用于建模交互的具有特定模态的模块难以使用的问题，并在可视对话任务上取得了较高的竞争性表现。

Feb, 2022

利用注意力记忆进行视觉对话的视觉参考解析

本文提出了一种新的基于关联关注记忆的注意力机制，用于解决视觉对话场景下的模糊引用问题，通过在一个新的合成数据集上的实验验证，表明该模型在解决视觉引用问题的重要场景下，比现有技术水平显著提高了 16%；此外，该模型在视觉对话数据集上的表现也优于原有基线模型，而且参数数量明显更少。

Sep, 2017

视觉对话中基于双重注意力机制的视觉参考解析网络

本文通过引入 Dual Attention Networks （DAN）模型，提出了一种计算机视觉任务解决方法，用于对话历史和图像特征的信息匹配，通过考虑上下文信息和自我注意力机制的学习，解决了视觉指代消解问题，并在多个数据集上得到了显著的表现提升。

Feb, 2019