模拟视觉对话中的指代关系

Mar, 2022

Modeling Coreference Relations in Visual Dialog

Mingxiao Li, Marie-Francine Moens

TL;DR本文提出两个基于人类对话语言知识和语境特征的软约束来改进模型的对话代词消解能力，将这两个约束嵌入到深度 transformer 神经架构中。实验结果显示出了本模型在 VisDial v1.0 数据集上相比于现有模型的性能提升，无需预训练其他视觉语言数据集。

Abstract

visual dialog is a vision-language task where an agent needs to answer a series of questions grounded in an image based on the understanding of the dialog history and the image. The occurrences of coreference relations<

visual dialog coreference relations soft constraints deep transformer neural architecture state-of-the-art performance

发现论文，激发创造

使用神经模块网络进行视觉对话中的视觉共指消解

本研究提出了一个神经模块网络架构，通过引入 Refer 和 Exclude 两个新模块，在更细的词级别上执行明确且基于地面的共指解决，以解决视觉对话中的核心指代消解问题，并展示了在 MNIST 对话和 VisDial 数据集上的有效性。

Sep, 2018

视觉对话

本文介绍了视觉对话任务，即通过图像、对话历史和问题，要求 AI 智能体以自然、对话式的语言与人类进行有意义的对话，并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上，利用 Latre Fusion、Hierarchical Recurrent Encoder 和 Memory Network 等三个编码器和两个解码器（生成式和判别式），超越了许多复杂的基准线，并采用了基于检索的评估协议，Quantify 了机器和人类在视觉对话任务上的性能差距，进而演示了第一款 “视觉聊天机器人”。

Nov, 2016

利用注意力记忆进行视觉对话的视觉参考解析

本文提出了一种新的基于关联关注记忆的注意力机制，用于解决视觉对话场景下的模糊引用问题，通过在一个新的合成数据集上的实验验证，表明该模型在解决视觉引用问题的重要场景下，比现有技术水平显著提高了 16%；此外，该模型在视觉对话数据集上的表现也优于原有基线模型，而且参数数量明显更少。

Sep, 2017

论文题目：基于指代消解的对话摘要

研究神经方法在抽象对话摘要模型中显式地结合指代信息的不同方法来解决对话中的核心参照问题，发现这样的模型在追踪对话过程中的信息流和关联与对应的讲话者和人物提及方面需要更准确且精确。

Jun, 2021

通过文本生成解决视觉驱动对话中的引用

通过对话互动生成确切描述来增强视觉引导对话中视觉语言模型（VLMs）的话语处理能力，并使用预训练的 VLMs 在零样本情况下识别参照物，从而提高了参照的准确性和效果。

Sep, 2023

视觉对话中基于双重注意力机制的视觉参考解析网络

本文通过引入 Dual Attention Networks （DAN）模型，提出了一种计算机视觉任务解决方法，用于对话历史和图像特征的信息匹配，通过考虑上下文信息和自我注意力机制的学习，解决了视觉指代消解问题，并在多个数据集上得到了显著的表现提升。

Feb, 2019

递归视觉注意力在视觉对话中的应用

本文提出了一种名为 Recursive Visual Attention (RvA) 的新型注意力机制，用于解决视觉对话中的视觉协同参考问题，并在大规模的 VisDial v0.9 和 v1.0 数据集上进行了实验，结果表明 RvA 不仅超越了现有技术，而且在没有附加注释的情况下实现了合理的递归和可解释的注意力图。

Dec, 2018

从 VQA 数据中学习视觉对话代理

研究如何提高视觉对话代理的适应性，使其可以在不忘记如何与人交谈的情况下，高效地适应新任务。通过分解意图和语言，减少在新任务中语言漂移的情况，并通过定性结果、自动化指标和人类研究证明我们的模型可以适应新任务并保持语言质量。

Jul, 2020

DualVD：一种用于视觉对话中深度视觉理解的自适应双编码模型

该研究提出了一种新的模型来从视觉和语义两个角度描述图像，在多角度图像特征的基础上提出了特征选择框架，逐层适应性地捕捉问题相关信息，并在基准视觉对话数据集上取得了最先进的结果。更重要的是，通过可视化门控值，我们能够确定视觉和语义哪个模式在回答当前问题中发挥更重要的作用，为我们理解人类认知在视觉对话中的作用提供了见解。

Nov, 2019

VU-BERT：一个视觉对话的统一框架

本文提出了一种名为 VU-BERT 图文联合嵌入的框架，通过用 patch projection 获取视觉嵌入来简化模型，从而解决了现有研究中用于建模交互的具有特定模态的模块难以使用的问题，并在可视对话任务上取得了较高的竞争性表现。

Feb, 2022