CLEVR-Math: 用于复合语言、视觉和数学推理的数据集

Aug, 2022

CLEVR-Math: 用于复合语言、视觉和数学推理的数据集

CLEVR-Math: A Dataset for Compositional Language, Visual and Mathematical Reasoning

PDF

Adam Dahlgren Lindström, Savitha Sam Abraham

TL;DR通过综合应用语言、视觉和数学推理，本文介绍了一个多模态数学问题数据集 CLEVR-Math，并应用最先进的神经模型和神经符号模型对其进行了实证研究，结果显示这两种方法都无法有效解决多模态数学问题。

Abstract

We introduce clevr-math, a multi-modal math word problems dataset consisting of simple →

clevr-math math word problems multi-modal neural models neuro-symbolic models

发现论文，激发创造

CLEVR：一个用于组合语言和初级视觉推理的诊断数据集

通过建立人工智能系统，以便对视觉数据进行推理和回答问题，我们需要有诊断测试来分析进展并发现缺点。该研究提出了一种诊断数据集，测试了各种视觉推理能力，包含最小的偏差并具有详细注释，描述每个问题需要的推理类型，用于分析各种现代视觉推理系统，提供了新的洞见，以及它们的能力和限制。

Dec, 2016

QLEVR: 一个用于量化语言和基本视觉推理的诊断数据集

本文介绍了一个最小偏差、诊断性的视觉问答数据集 QLEVR，专注于集合概念和复杂量化，挑战了当前最先进的视觉问答模型的能力。

May, 2022

CLEVR-Dialog: 一个用于视觉对话多轮推理的诊断数据集

开发了一个名为 CLEVR-Dialog 的大型诊断数据集，以研究视觉对话中的多轮推理（multiround reasoning），在其中所有视觉对话的所有方面都得到了完全注释。使用 CLEVR-Dialog 测量了标准视觉对话模型的性能，特别是针对视觉指代消解（coreference resolution）的表现，并于之前数据集中的模型进行了比较，发现了其中的差异。

Mar, 2019

CLEVR-X：自然语言解释的视觉推理数据集

本文介绍了一个基于机器学习的可视化问答生成自然语言解释过程的方法，使用 CLEVR-X 数据集进行自然语言解释的基线结果分析，以及研究了不同问题和不同数量的真实解释对自然语言生成质量的影响。

Apr, 2022

CLEVR_HYP：用于基于图像进行假设性动作的视觉问答的挑战数据集和基线模型

本研究基于 CLEVR 数据集，将视觉理解提高到更高层次，通过思考特定操作在给定情境下的假想后果来回答问题，并提出了基于最佳现有 VQA 方法的基线求解器。此外，研究还探讨了多种体系结构实施图像 - 文本模态联合推论的能力，为开发更好的视觉语言模型提供了思路。

Apr, 2021

CLEVR Parser：面向语言图像环境的几何学习图解析库

本研究介绍了一个用于 CLEVR 的图形解析器库，可提取基于对象的属性和关系，并为双模态构建结构图表示。结构无序表示使几何学习更容易，可辅助下游任务，例如语言向视觉的基础，机器人学，组合性，可解释性和计算语法构建。我们提供了三个可扩展的主要组件 - 解析器，嵌入器和可视化器，旨在满足特定学习设置的需求。我们还提供了开箱即用的功能，可无缝集成流行的深度图形神经网络（GNN）库。此外，我们还讨论了库的下游用途和应用，以及它如何加速自然语言处理研究社区的研究。

Sep, 2020

测量 CLEVRness：对视觉推理模型的黑盒测试

通过视觉问答框架和基于 CLEVR 的故障排除数据集，提出了一种双方游戏来评估视觉智能系统的推理能力，并探讨了数据驱动方法在没有利用数据集中的种种偏见的情况下是否可以进行推理。

Feb, 2022

CLEVR3D：3D 实际场景中的组合语言与基本视觉推理问答

本文提出了在 3D 真实世界场景中进行视觉问答任务的 VQA-3D，并介绍了第一个 VQA-3D 数据集 CLEVR3D 和基于 Transformer 架构的 VQA-3D 基准模型 TransVQA3D。实验证明，将 VQA-3D 作为辅助任务可以提高 3D 场景理解的性能。

Dec, 2021

超级 CLEVR：诊断视觉推理领域鲁棒性的虚拟基准测试

通过 Super-CLEVR 虚拟基准测试数据，我们研究了不同领域转移的因素，考察了四种现有的 VQA 方法，两种神经符号方法和两种非符号方法以及我们提出的方法 P-NSVQA，发现结合不确定性推理，将推理和感知分离形成一个强大的基于视觉与前因关系问题答案模型，可以更好地应对域迁移。

Dec, 2022

ViCLEVR：一种用于越南视觉问答的视觉推理数据集和混合多模态融合模型

通过引入具有开拓性质的 ViCLEVR 数据集，该研究对当代视觉推理系统进行了全面分析，提出了一种综合的多模态融合模型 PhoVIT，并在四个评估指标上取得了最先进的性能，进一步促进了针对低资源语言的多模态融合算法的发展。

Oct, 2023