教师引导的组合视觉推理的多模态表示

Oct, 2023

教师引导的组合视觉推理的多模态表示

Multimodal Representations for Teacher-Guided Compositional Visual Reasoning

Wafa Aissa, Marin Ferecatu, Michel Crucianu

TL;DR通过利用跨模态特征和更有效的训练技术，加强了神经模块网络在视觉问答中的性能和透明度。

Abstract

neural module networks (NMN) are a compelling method for visual question answering, enabling the translation of a question into a program consisting of a series of reasoning sub-tasks that are sequentially executed on the image to produce an answer. NMNs provide enhanced →

neural module networks visual question answering explainability cross-modal features training techniques

发现论文，激发创造

神经模块网络用于文本推理

通过引入能够对文本段进行推理的组件、以概率性和可微分的方式执行数字和日期等符号推理的组件，提出了一种改进的神经模块网络（NMNs）模型，提高了非合成问题的预测效果，实验结果表明，该模型在 DROP 数据集上取得了显著的性能提升。

Dec, 2019

学会推理：端到端模块化网络用于视觉问答

本研究提出了一种新的基于神经网络的问题回答方法，使用 End-to-End Module Networks 技术，学习直接预测特定问题网络图层，该方法相对于现有最先进的注意力方法实现了近 50％的误差减少，特别针对 CLEVR 数据集。

Apr, 2017

组合视觉推理的课程学习

本研究提出了基于预定义跨模态嵌入的神经模块网络方法，以 “热启动” 学习 GQA 数据集，进而采用课程学习作为一种改进训练和更好利用数据的方法，在训练期间引入中间损失，并发现这可以简化课程学习策略。多个困难标准用于定义课程学习方法，该研究表明，适当选择课程学习方法可以大大降低训练成本和训练数据量，并对最终视觉问答准确性影响有限。

Mar, 2023

组合视觉推理的元模块网络

通过提出 Meta Module Network，该论文致力于解决 Neural Module Network 包括扩展性和泛化性等局限性，并在 GQA 和 CLEVR 数据集上进行实验证明了该模型的优越性。

Oct, 2019

从组合神经网络中获取忠实的解释

本研究提出采用辅助监督和特定的模块结构开发神经模块网络，解决了在 NLVR2 和 DROP 数据集上多次组合推理步骤问题导致的预期输出和实际中间输出不匹配的问题，并且不会对准确性产生太大的影响。

May, 2020

教授神经模块网络进行算术运算

该研究通过构建可训练模块的编程 - 解释器框架，增加加减法模块，弥补了神经模块网络在多类型、数字推理方面的能力，实验证明该方法提高了 F1 值，表现优于现有模型。

Oct, 2022

OC-NMN: 面向生成性视觉类比推理的物体中心化组合神经模块网络

人工智能的一个关键方面是想象力，即以新颖的方式组合学习的概念，以理解新的情境。本研究展示了如何利用模块化和想象力创建一个基于物体的组合神经模块网络（OC-NMN）框架，用于视觉推理和生成任务，并证明该方法可以带来更好的非分布式泛化性能。

Oct, 2023

学习离散组合推理模块网络，用于视频字幕

本文提出了一种名为推理模块网络 (RMN) 的视觉推理方法，旨在为现有的编码器 - 解码器框架提供视频字幕生成的推理能力，RMN 包括三个复杂的时空推理模块和一个由 Gumbel 估算法训练的动态和离散模块选择器，并且在 MSVD 和 MSR-VTT 数据集上的广泛实验表明，所提出的 RMN 方法优于现有的方法，同时提供了一个明确和可解释的生成过程。

Jul, 2020

基于视频的神经模块网络 (VGNMN) 应用于视频 - 语言任务

本论文提出了 Video-grounded Neural Module Network (VGNMN) 用于建模视频数据的信息提取过程，并在视频场景下的对话任务和视频问答基准测试上展示了良好的性能表现。

Apr, 2021

基于堆栈神经模块网络的可解释神经计算

本研究提出一种新颖的神经模块化方法来实现基于组合推理的问题回答，该方法不需要强监督，能自动诱导期望的子任务分解并通过共享模块链接不同的推理任务，实验表明该模型比当前先进模型更易于人类评估者解释以及预测其中间结果的成功或失败。

Jul, 2018