CLEVR-Math: 用于复合语言、视觉和数学推理的数据集
通过建立人工智能系统,以便对视觉数据进行推理和回答问题,我们需要有诊断测试来分析进展并发现缺点。该研究提出了一种诊断数据集,测试了各种视觉推理能力,包含最小的偏差并具有详细注释,描述每个问题需要的推理类型,用于分析各种现代视觉推理系统,提供了新的洞见,以及它们的能力和限制。
Dec, 2016
开发了一个名为 CLEVR-Dialog 的大型诊断数据集,以研究视觉对话中的多轮推理(multiround reasoning),在其中所有视觉对话的所有方面都得到了完全注释。使用 CLEVR-Dialog 测量了标准视觉对话模型的性能,特别是针对视觉指代消解(coreference resolution)的表现,并于之前数据集中的模型进行了比较,发现了其中的差异。
Mar, 2019
本文介绍了一个基于机器学习的可视化问答生成自然语言解释过程的方法,使用 CLEVR-X 数据集进行自然语言解释的基线结果分析,以及研究了不同问题和不同数量的真实解释对自然语言生成质量的影响。
Apr, 2022
本研究基于 CLEVR 数据集,将视觉理解提高到更高层次,通过思考特定操作在给定情境下的假想后果来回答问题,并提出了基于最佳现有 VQA 方法的基线求解器。此外,研究还探讨了多种体系结构实施图像 - 文本模态联合推论的能力,为开发更好的视觉语言模型提供了思路。
Apr, 2021
本研究介绍了一个用于 CLEVR 的图形解析器库,可提取基于对象的属性和关系,并为双模态构建结构图表示。结构无序表示使几何学习更容易,可辅助下游任务,例如语言向视觉的基础,机器人学,组合性,可解释性和计算语法构建。我们提供了三个可扩展的主要组件 - 解析器,嵌入器和可视化器,旨在满足特定学习设置的需求。我们还提供了开箱即用的功能,可无缝集成流行的深度图形神经网络(GNN)库。此外,我们还讨论了库的下游用途和应用,以及它如何加速自然语言处理研究社区的研究。
Sep, 2020
通过视觉问答框架和基于 CLEVR 的故障排除数据集,提出了一种双方游戏来评估视觉智能系统的推理能力,并探讨了数据驱动方法在没有利用数据集中的种种偏见的情况下是否可以进行推理。
Feb, 2022
本文提出了在 3D 真实世界场景中进行视觉问答任务的 VQA-3D,并介绍了第一个 VQA-3D 数据集 CLEVR3D 和基于 Transformer 架构的 VQA-3D 基准模型 TransVQA3D。实验证明,将 VQA-3D 作为辅助任务可以提高 3D 场景理解的性能。
Dec, 2021
通过 Super-CLEVR 虚拟基准测试数据,我们研究了不同领域转移的因素,考察了四种现有的 VQA 方法,两种神经符号方法和两种非符号方法以及我们提出的方法 P-NSVQA,发现结合不确定性推理,将推理和感知分离形成一个强大的基于视觉与前因关系问题答案模型,可以更好地应对域迁移。
Dec, 2022
通过引入具有开拓性质的 ViCLEVR 数据集,该研究对当代视觉推理系统进行了全面分析,提出了一种综合的多模态融合模型 PhoVIT,并在四个评估指标上取得了最先进的性能,进一步促进了针对低资源语言的多模态融合算法的发展。
Oct, 2023