使用结构和部分观测推理视觉对话

CVPRApr, 2019

使用结构和部分观测推理视觉对话

Reasoning Visual Dialogs with Structural and Partial Observations

Zilong Zheng, Wenguan Wang, Siyuan Qi, Song-Chun Zhu

TL;DR本文提出了一种新的模型来解决复杂的视觉对话结构问题，并将其明确地形式化为具有部分观察节点和未知图结构（对话中的关系）的图形模型中的推断问题。通过期望最大化算法，我们可以在推理过程中推断出潜在的对话结构和所需的答案值，并提出了一种可微分图神经网络解决方案。实验证明，我们的模型在 VisDial 和 VisDial-Q 数据集上表现优异，并且能够推断出更好的对话推理潜在结构。

Abstract

We propose a novel model to address the task of visual dialog which exhibits complex dialog structures. To obtain a reasonable answer based on the current question and the dialog history, the underlying semantic dependencies between dialog entities are essential. In this paper, we expl

visual dialog graphical model expectation maximization algorithm graph neural network dialog reasoning

发现论文，激发创造

稀疏图学习与知识迁移推理视觉对话

本论文研究了视觉对话中的两个核心难题：对话历史下的语义结构推理和给定问题的多个合适答案的识别。为解决这些挑战，我们提出了 Sparse Graph Learning (SGL) 和 Knowledge Transfer (KT) 方法，使用了基于图结构学习的 SGL 推断出稀疏的对话结构，进而创新性地利用了 KT 以缓解单一答案标签限制模型获取多个合理答案的问题。结果表明，模型在 VisDial v1.0 数据集上具有比基线方法更强的推理能力，且表现优于现有的最先进方法。

Apr, 2020

基于上下文感知的迭代图推理在视觉对话中的应用

本文提出了一种上下文感知图神经网络（Context-Aware Graph，CAG），通过自适应的前 K 个节点的信息传递机制，迭代更新每个节点（既包括視觉类、又包括历史关联类特征）的图结构，从而实现关系推理。此方法在 VisDial v0.9 和 v1.0 数据集上得到了有效验证。

Apr, 2020

KBGN：基于知识桥接图网络的视觉 - 文本问答自适应推理

本文提出了一种新颖的知识桥梁图网络模型，该模型使用图形在细粒度上构建跨模式语义关系的桥梁，通过自适应信息选择模式检索所需的知识，从而清晰地提取视觉对话的推理线索，并通过实验结果在 VisDial v1.0 和 VisDial-Q 数据集上展示了超越现有模型的最先进成果。

Aug, 2020

GoG: 基于关系感知的图上图网络用于视觉对话

本文提出了一种新颖的关系感知图嵌入模型（GoG）用于视觉对话，该模型可以捕获对话历史中的代词和依赖关系以及问题和图像对象之间的关系，实验结果表明我们的模型在生成式和判别式的对话任务中都取得了显著的优势。

Sep, 2021

视觉对话

本文介绍了视觉对话任务，即通过图像、对话历史和问题，要求 AI 智能体以自然、对话式的语言与人类进行有意义的对话，并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上，利用 Latre Fusion、Hierarchical Recurrent Encoder 和 Memory Network 等三个编码器和两个解码器（生成式和判别式），超越了许多复杂的基准线，并采用了基于检索的评估协议，Quantify 了机器和人类在视觉对话任务上的性能差距，进而演示了第一款 “视觉聊天机器人”。

Nov, 2016

模拟视觉对话中的指代关系

本文提出两个基于人类对话语言知识和语境特征的软约束来改进模型的对话代词消解能力，将这两个约束嵌入到深度 transformer 神经架构中。实验结果显示出了本模型在 VisDial v1.0 数据集上相比于现有模型的性能提升，无需预训练其他视觉语言数据集。

Mar, 2022

无监督对话结构学习

通过使用改良后的 VRNN 模型和离散潜在向量来提取对话结构，我们的方法在预测未见数据方面具有优异性能，并在加入对话结构后的奖励功能设计实现了更快的强化学习收敛和更好的结果。

Apr, 2019

GraphDialog: 将图表知识整合到端到端任务导向对话系统中

本文提出一种适用于任务导向型对话系统的模型，利用知识库和对话的依存关系图结构信息解决了如何有效地将外部知识库整合到学习框架中以及如何准确捕捉对话历史语义的挑战。此外，该模型采用多跳推理能力以及循环单元架构进行表示学习。实验结果表明，该模型在两个不同的任务导向型对话数据集上均优于现有模型。

Oct, 2020

学习语义图上的推理路径，为基于视频的对话建立基础

使用 PDC 模型通过语义图的构建和路径预测，依据对话上下文进行推理，从而在多轮视频对话中检索视觉线索并有效回答问题。

Mar, 2021

在视觉对话中运用多结构常识知识进行推理

本文提出了一种基于多结构的常识知识的推理模型，通过句子级事实和图级事实表示外部知识，通过图形交互和变压器融合捕获相关的知识并将其融入视觉和语义特征中，已在 VisDial v1.0 和 VisDialCK 数据集上取得了有效的性能优于比较方法。

Apr, 2022