DMRM: 用于视觉对话的双通道多跳推理模型

AAAIDec, 2019

DMRM: 用于视觉对话的双通道多跳推理模型

DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog

Feilong Chen, Fandong Meng, Jiaming Xu, Peng Li, Bo Xu...

TL;DR提出了一种新的视觉对话模型 DMRM，通过双通道多跳推理结合多模态注意力，有效地将问题、图像和历史上下文信息融合，从而提高了视觉对话的生成质量。在 VisDial v0.9 和 v1.0 数据集上，DMRM 模型的实验结果表明，相比较其他模型，DMRM 模型具有更好的效果。

Abstract

visual dialog is a vision-language task that requires an ai agent to engage in a conversation with humans grounded in an image. It remains a challenging task since it requires the agent to fully understand a give

visual dialog ai agent dual-channel multi-hop reasoning model multi-modal attention visdial

发现论文，激发创造

II-MMR: 识别和改进多模式多跳推理在视觉问答中

本文介绍了一种新的方法 II-MMR，用于在视觉和语言（V&L）中进行多模多跳推理，通过识别和改进 VQA 中的不同推理案例。II-MMR 通过使用两种新的语言提示：（i）答案预测引导的 Chain-of-Thought（CoT）提示，或（ii）知识三元组引导的提示，找到了一个推理路径来回答 VQA 问题。II-MMR 观察到，在包括 GQA 和 A-OKVQA 的流行基准测试中，大多数 VQA 问题容易回答，只需要 “单跳” 推理，而只有很少的问题需要 “多跳” 推理。另外，尽管最近的 V&L 模型在传统的 CoT 方法下难以处理这些复杂的多跳推理问题，但 II-MMR 在零 - shot 和微调设置中展示了其在所有推理案例中的有效性。

Feb, 2024

在视觉对话中运用多结构常识知识进行推理

本文提出了一种基于多结构的常识知识的推理模型，通过句子级事实和图级事实表示外部知识，通过图形交互和变压器融合捕获相关的知识并将其融入视觉和语义特征中，已在 VisDial v1.0 和 VisDialCK 数据集上取得了有效的性能优于比较方法。

Apr, 2022

DualVD：一种用于视觉对话中深度视觉理解的自适应双编码模型

该研究提出了一种新的模型来从视觉和语义两个角度描述图像，在多角度图像特征的基础上提出了特征选择框架，逐层适应性地捕捉问题相关信息，并在基准视觉对话数据集上取得了最先进的结果。更重要的是，通过可视化门控值，我们能够确定视觉和语义哪个模式在回答当前问题中发挥更重要的作用，为我们理解人类认知在视觉对话中的作用提供了见解。

Nov, 2019

基于循环双重注意力的多步推理视觉对话

本文介绍了一种新的视觉对话模型，称为 Recurrent Dual Attention Network（ReDAN），该模型使用多步推理来回答有关图像的一系列问题，通过迭代细化来定位上下文相关的视觉和文本线索，以逐步找到正确的答案。

Feb, 2019

面向任务的多模态层次强化学习策略：视觉对话

通过多模态层次强化学习框架和状态适应技术，实现了语音和图像的目标驱动对话。在图像猜谜游戏中进行了实验，取得了良好的效果。

May, 2018

视频对话生成中的多模态语义图协同推理

本文研究了基于视频对话生成，提出一种方法，可以将视频数据集成到预训练语言模型中，通过多模态推理实现各种模态之间的互补信息，实验结果表明，该模型能够在自动和人工评估方面显著优于现有的最先进模型。

Oct, 2022

基于多视角注意力网络的视觉对话

论文旨在通过提出 Multi-View Attention Network (MVAN) 模型来解决视觉对话任务中的挑战性问题，该模型基于注意机制，利用多个视角来处理异构输入，并且通过序列对齐过程构建多模态表示，从而可以更好地捕捉到对话历史中与问题相关的信息，并在 VisDial v1.0 数据集上达到了最佳结果。

Apr, 2020

推进大型多模型：明确的推理链与视觉问题生成

本文介绍了一种通过图像内容和文字指令进行显式推理的新方法，采用大型多模态模型（LMM），并引入了一个能够提问以获取必要知识以增强推理过程鲁棒性和可解释性的系统。实验结果表明我们的方法能够在面对模糊的视觉输入时，朝着更具鲁棒性、准确性和可解释性的 LMM 迈进。

Jan, 2024

级联互相调制的视觉推理

CMM 是一种端到端的视觉推理模型，通过特征逐步的线性调制 (FiLM) 技术实现了问答过程中的文本 / 视觉互动，实验结果表明 CMM 在视觉推理问题上达到了最新的最优性能。

Sep, 2018

基于动态键值存储增强的多步图推理方法用于基于知识的视觉问答

本文提出一种名为动态知识记忆增强多步图推理（DMMGR）的新型模型，能够在键 - 值知识记忆模块和空间感知图像图上执行显式和隐式推理，并在 KRVQR 和 FVQA 数据集上实现了新的最先进的准确性。

Mar, 2022