教师引导的组合视觉推理的多模态表示
通过引入能够对文本段进行推理的组件、以概率性和可微分的方式执行数字和日期等符号推理的组件,提出了一种改进的神经模块网络(NMNs)模型,提高了非合成问题的预测效果,实验结果表明,该模型在 DROP 数据集上取得了显著的性能提升。
Dec, 2019
本研究提出了一种新的基于神经网络的问题回答方法,使用 End-to-End Module Networks 技术,学习直接预测特定问题网络图层,该方法相对于现有最先进的注意力方法实现了近 50%的误差减少,特别针对 CLEVR 数据集。
Apr, 2017
本研究提出了基于预定义跨模态嵌入的神经模块网络方法,以 “热启动” 学习 GQA 数据集,进而采用课程学习作为一种改进训练和更好利用数据的方法,在训练期间引入中间损失,并发现这可以简化课程学习策略。多个困难标准用于定义课程学习方法,该研究表明,适当选择课程学习方法可以大大降低训练成本和训练数据量,并对最终视觉问答准确性影响有限。
Mar, 2023
通过提出 Meta Module Network,该论文致力于解决 Neural Module Network 包括扩展性和泛化性等局限性,并在 GQA 和 CLEVR 数据集上进行实验证明了该模型的优越性。
Oct, 2019
本研究提出采用辅助监督和特定的模块结构开发神经模块网络,解决了在 NLVR2 和 DROP 数据集上多次组合推理步骤问题导致的预期输出和实际中间输出不匹配的问题,并且不会对准确性产生太大的影响。
May, 2020
该研究通过构建可训练模块的编程 - 解释器框架,增加加减法模块,弥补了神经模块网络在多类型、数字推理方面的能力,实验证明该方法提高了 F1 值,表现优于现有模型。
Oct, 2022
人工智能的一个关键方面是想象力,即以新颖的方式组合学习的概念,以理解新的情境。本研究展示了如何利用模块化和想象力创建一个基于物体的组合神经模块网络(OC-NMN)框架,用于视觉推理和生成任务,并证明该方法可以带来更好的非分布式泛化性能。
Oct, 2023
本文提出了一种名为推理模块网络 (RMN) 的视觉推理方法,旨在为现有的编码器 - 解码器框架提供视频字幕生成的推理能力,RMN 包括三个复杂的时空推理模块和一个由 Gumbel 估算法训练的动态和离散模块选择器,并且在 MSVD 和 MSR-VTT 数据集上的广泛实验表明,所提出的 RMN 方法优于现有的方法,同时提供了一个明确和可解释的生成过程。
Jul, 2020
本论文提出了 Video-grounded Neural Module Network (VGNMN) 用于建模视频数据的信息提取过程,并在视频场景下的对话任务和视频问答基准测试上展示了良好的性能表现。
Apr, 2021
本研究提出一种新颖的神经模块化方法来实现基于组合推理的问题回答,该方法不需要强监督,能自动诱导期望的子任务分解并通过共享模块链接不同的推理任务,实验表明该模型比当前先进模型更易于人类评估者解释以及预测其中间结果的成功或失败。
Jul, 2018