抽象视觉推理问题的统一视角
本论文回顾了近年来浮现出的抽象视觉推理问题的研究,并提出了一个分类体系来归纳这些问题的性质。通过研究这些问题在输入形状、隐藏规则、目标任务、认知功能和主要挑战等五个纬度上的共性和差异,一方面对于解决 Abstract Visual Reasoning 问题的现有方法提供了一个统一的视角,同时也为未来的研究方向指明了新契机,如把多种类型的问题结合在一个智商测试中对人类智力进行评估与对机器学习进行研究等。
Feb, 2022
提出了一个统一的模型 SCAR 用于解决单选抽象视觉推理任务,该模型利用新颖的 SAL 结构自适应权重来解决各种类型的 AVR 任务,并在多任务和迁移学习中展示了有效的知识重用,为 AVR 领域的任务无关研究路径的进展提供了刺激和促进。
Dec, 2023
本文总结了近年来深度学习方法在抽象视觉推理领域的应用研究进展,并重点关注了目前最普遍的抽象视觉推理任务 —— 瑞文渐进矩阵(RPM),并提供了综合的深度神经模型和学习方法以及 RPM 基准集的分析,对现有方法的性能进行了分析,为当前和未来研究的趋势提供了见解和意见,并最终展示了实际问题如何受益于 RPM 研究的发现。
Jan, 2022
研究在抽象视觉推理领域中,深度神经网络的泛化和知识重用能力,通过使用 Raven's Progressive Matrices(RPMs)作为评估抽象视觉推理能力的基准任务。通过研究两种知识转移场景,介绍了 Attributeless-I-RAVEN 和 I-RAVEN-Mesh 两个数据集,以及一种名为 PoNG 的新型神经架构,用于解决抽象视觉推理任务。
Jun, 2024
我们提出了一个新数据集 MaRs-VQA 和一个新的基准 VCog-Bench,以评估 Multimodal Large Language Models 的零射击 Abstract Visual Reasoning 能力,并将其与现有的人类智能研究进行比较。我们的实验结果揭示了当前 MLLMs 在视觉认知方面存在的局限性。
Jun, 2024
本文提出了一种非单调计算方法来解决视觉抽象推理任务,使用 RAVEN 数据集进行测试,并与现有单调深度学习模型进行比较,结果表明,该方法比现有单调深度学习模型更加有效。
Feb, 2023
本研究提出了一个新的数据集,旨在通过在分层表示中将视觉与结构、关系和类比推理相匹配,提高机器智能水平,并通过加入神经模块组合视觉理解和结构推理,持续改进所有模型的性能,实现现代视觉与机器推理的结合。
Mar, 2019
我们的研究探索多模式基础模型在可视化中的应用,利用多模式大语言模型 (LMM) 的视觉感知能力来开发自主可视化代理人 (AVAs),它们可以通过自然语言解释和实现用户定义的可视化目标。我们提出了 AVAs 设计的第一个框架,并展示了几种使用场景,以展示该提议范例的普适性。这些 AVAs 作为虚拟可视化助手可以协助领域专家完成可视化输出的参数选择,即使他们缺乏调整可视化输出的知识或专业技能。我们的初步探索和概念验证代理人表明,这种方法在需要解释以往可视化输出以选择适当的可视化参数时可广泛应用。我们与人工智能研究、医学可视化和放射学等领域的专家进行了非结构化访谈,并结合了他们的反馈,突出了 AVAs 的实用性和潜力。我们的研究表明,AVAs 代表了一种设计智能化可视化系统的通用范式,可实现高级可视化目标,为未来发展专家级可视化代理人铺平了道路。
Dec, 2023