神经符号视觉对话

COLINGAug, 2022

Neuro-Symbolic Visual Dialog

Adnen Abdessaied, Mihai Bâce, Andreas Bulling

TL;DR提出神经符号视觉对话（NSVD）方法，将深度学习和符号程序执行结合起来，用于多轮基于视觉的推理，并取得了显著的性能提升。在使用更严格的评估方案时，我们的最佳模型在 CLEVR-Dialog 数据集上实现了 99.72％的准确度，在总体上比现有技术提高了 10％以上。我们的结果表明，神经符号模型的平均故障轮数更高，对不完整的对话历史记录更稳健，并在长度高达训练期间三倍的对话框架以及未见过的问题类型和场景上表现出更好的泛化能力。

Abstract

We propose neuro-symbolic visual dialog (NSVD) -the first method to combine deep learning and symbolic program execution for multi-round v

neuro-symbolic visual dialog deep learning symbolic program execution visually-grounded reasoning question-answering performance

发现论文，激发创造

神经符号 VQA: 从视觉和语言理解中分离推理

该论文介绍了神经符号视觉问答系统，结合深度表示学习和符号程序执行，具有更好的数据和内存效率以及对推理过程的全透明度。

Oct, 2018

视觉对话

本文介绍了视觉对话任务，即通过图像、对话历史和问题，要求 AI 智能体以自然、对话式的语言与人类进行有意义的对话，并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上，利用 Latre Fusion、Hierarchical Recurrent Encoder 和 Memory Network 等三个编码器和两个解码器（生成式和判别式），超越了许多复杂的基准线，并采用了基于检索的评估协议，Quantify 了机器和人类在视觉对话任务上的性能差距，进而演示了第一款 “视觉聊天机器人”。

Nov, 2016

DualVD：一种用于视觉对话中深度视觉理解的自适应双编码模型

该研究提出了一种新的模型来从视觉和语义两个角度描述图像，在多角度图像特征的基础上提出了特征选择框架，逐层适应性地捕捉问题相关信息，并在基准视觉对话数据集上取得了最先进的结果。更重要的是，通过可视化门控值，我们能够确定视觉和语义哪个模式在回答当前问题中发挥更重要的作用，为我们理解人类认知在视觉对话中的作用提供了见解。

Nov, 2019

神经符号概念学习器：从自然监督中解释场景、单词和句子

提出了一种无需显式监督，通过观察图片和配对问答学习视觉概念、单词和句子语义分析的神经符号概念学习器，其通过神经符号推理模块将符号程序执行于潜在场景表示，辅助学习新词并解析新句子，使用课程学习指导对图像和语言的复合空间进行搜索，并进行了广泛实验来证实其在学习视觉概念、单词表示和语义分析方面的准确性和效率。

Apr, 2019

一种神经符号 ASP 管道用于视觉问答

我们提出了一种基于神经符号的可视化问题回答管道，可以使用 ASP 求解程序对 CLEVR 问题的计算答案，并证明了使用合理选择规则的非确定性场景编码相对于相关神经符号方法具有更高的准确性和更高的效率。

May, 2022

可解释性视觉问答的概率神经符号模型

本研究提出了一种新的概率神经符号模型，其拥有作为潜在随机变量的符号功能程序，并在视觉问题回答的背景下实例化，相比之前的神经符号模型，我们的模型提供了两个关键概念上的优势，第一，我们的模型生成的程序更易理解，需要较少的教学示例；第二，我们展示了我们可以向该模型提出反事实情景，来探究其对于给定图像可以导致特定答案的程序的信念，我们对 CLEVR 和 SHAPES 数据集的结果验证了我们的假设，在低数据情况下，模型具有更好的方案（和答案）预测准确性，并允许人们探究所执行推理的连贯性和一致性。

Feb, 2019

CLEVR-Dialog: 一个用于视觉对话多轮推理的诊断数据集

开发了一个名为 CLEVR-Dialog 的大型诊断数据集，以研究视觉对话中的多轮推理（multiround reasoning），在其中所有视觉对话的所有方面都得到了完全注释。使用 CLEVR-Dialog 测量了标准视觉对话模型的性能，特别是针对视觉指代消解（coreference resolution）的表现，并于之前数据集中的模型进行了比较，发现了其中的差异。

Mar, 2019

一种可解释的神经符号推理框架，用于任务导向的对话生成

本文旨在研究任务驱动对话系统的可解释性，提出了一种采用前后明确逻辑推理的神经符号学方法，并设计了一种由假设生成器和推理器构成的两阶段方法来克服多跳推理带来的错误传播问题，实验结果证明该方法不仅获得了更好的效果，而且具有可解释性决策过程。

Mar, 2022

神经符号视觉推理：将 “视觉” 与 “推理” 分离

本文提出一个框架来单独评估视觉问答（VQA）中的推理方面，同时引入一种新颖的自上而下校准技术，以使模型即使具有不完美的感知也能回答推理问题，通过在具有挑战性的 GQA 数据集上进行深入的分离比较，可以了解到众所周知的 VQA 模型参与的见解以及任务。

Jun, 2020

基于反应式多阶段特征融合的多模态对话建模

本文提出了一种直观的机制，通过多个阶段融合特征和注意力以很好地集成多模式特征，以解决音频视觉场景感知对话任务，并进一步分析了各种最先进的模型在该任务上的泛化能力。

Aug, 2019