提出了一种新的任务称为 3D 推理定位,并引入了一个名为 ScanReason 的新基准,该基准提供了来自五种推理类型的超过 10K 个问题 - 答案 - 位置对,需要推理与定位的相互作用,进一步设计了我们的 ReGround3D 方法,由视觉中心推理模块与多模式大型语言模型(MLLM)驱动的 3D 定位模块组成,通过回顾增强几何和细节从 3D 场景中获得准确的对象位置,并提出了一种推理和定位步骤相互交错的推理链机制来进一步提高性能,在所提出的基准上进行了广泛的实验证实了我们提出的方法的有效性。
Jul, 2024
本文讨论了为非技术用户产生解释的最有效和高效的解决方案,提出了一种基于连接主义和符号范式的推理模型来解释神经网络的决策,并用一个例子演示了它的潜在用途。
Sep, 2019
该研究旨在通过模仿人类视觉问题解决中的 “看、记住、推理” 模式,引入基于视觉输入的原理来整合低级视觉能力,使现有的大型语言模型能够在视觉推理问题上取得竞争性表现。
Jun, 2023
本文提出了一种新颖的方法,开发了一个高性能的 VQA 系统,能够通过集成的文本和视觉解释阐述其答案,并捕捉到深度神经网络推理的重要方面,从而比竞争方法具有更好的自动化和人类评估指标。
Sep, 2018
提出了一种新的深度学习视觉识别模型,可根据可见物体的特征进行分类,并生成解释说明预测标签的原因,该模型使用了一种基于采样和强化学习的新型损失函数,能够生成与现有描述方法不同的描述结果。
Mar, 2016
该研究旨在通过评估不同模型在视觉推理方面的表现来回答视觉问答模型是否在进行视觉推理,为此,研究使用了 GQA 数据集中提供的目标细粒度标注,提出了一种系统性的目标中心的视觉推理诊断方法,并开发了一个名为图形推理机的诊断模型,该模型使用概率场景图替代纯符号视觉表示,并对视觉推理模块进行了教师强制训练。
Dec, 2020
REASONX 是一种基于约束逻辑编程的解释工具,提供可以增加背景知识的互动对比解释,针对机器学习模型和决策树进行解释,并具有更高的灵活性。
May, 2023
本文介绍了首个以生成自然语言解释为中心的研究,该研究关注复杂的视觉推理任务,包括视觉常识推理、视觉文本蕴含和视觉问答。文章提出了 Rationale^VT Transformer,该模型通过结合预训练的语言模型、对象识别、基于视觉的语义框架和视觉常识图生成自由文本解释,实现了全面的图像理解,并且实验证明,自然语言解释是用于复杂视觉 - 文本推理任务的一种具有前景的研究方向。
Oct, 2020
本文综述了现有的因果推理方法在视觉表征学习中的应用,探讨了当前方法和数据集的限制,并提出了因果推理算法基准的前景挑战、机会和未来研究方向,以更有效地实现可靠的视觉表征学习及相关应用。
Apr, 2022
本研究旨在探讨为什么可解释的 AI(XAI)在放射学中的解释尽管具有透明度的优势,但仍无法获得人类信任,并提出了一种人类中心的解释设计原则,从人类推理和证明角度提高可解释 AI 解释的可用性和可信度。
Apr, 2023