通过对抽象模式的基本概念进行评估,我们发现大型多模态模型在简单抽象模式上无法很好地泛化。通过对大型多模态模型的推理挑战进行系统分析,我们发现主要瓶颈在于较弱的视觉感知和归纳推理能力。
Mar, 2024
多模态大型语言模型在抽象视觉推理方面呈现出近乎随机的性能,无法理解视觉特征和难以进行抽象推理。
Apr, 2024
本研究介绍了基于知识图谱的多模式类比推理任务,并通过构建 Multimodal Analogical Reasoning 数据集和 Multimodal knowledge graph MarKG 进行评估。研究表明,从多模态源获取信息可以带来比单模态源更强大的认知转移,该研究进一步提出了一种基于结构映射理论的新型通用 Transformer 框架(MarT),能够取得更好的性能。
Oct, 2022
本研究提出一种基于图形提取算法和大型语言模型的解耦合语言引导抽象推理方法,将复杂的知识图推理作为上下文知识图搜索和抽象逻辑查询推理的组合,显著提高了复杂查询的性能。
May, 2023
探究对象为中心的编码器和变换推理模块是否能提高图像推理任务的效果,并发现其比传统以 Raven 智力测试为基础的任务特定归纳偏见更全面适用。
Mar, 2023
本文提出了 Sherlock 数据集作为机器人推理能力测试的基础,并在此基础上对机器学习模型的推理能力以及人与机器的差距进行了研究和探讨,结果表明目前的最先进技术还有非常大的提升空间。
Feb, 2022
该研究提出了一种多尺度架构,用于处理抽象关系推理任务中的空间和语义关系,其优于现有技术在所有基准测试中的成功表明来自多种创新,包括:在多个解析度中搜索关系模式,优化每个分辨率的推理网络并构建一个新的 RAVEN-FAIR 数据集。
Sep, 2020
本文提出了一种非单调计算方法来解决视觉抽象推理任务,使用 RAVEN 数据集进行测试,并与现有单调深度学习模型进行比较,结果表明,该方法比现有单调深度学习模型更加有效。
Feb, 2023
大型语言模型(LLMs)在知识密集型任务中被广泛采用,通过其知识能力取得了令人印象深刻的性能。本研究提出了结构化知识的几何推理,其中以图结构连接了多个知识片段,模型需要填补遗漏的信息。我们使用 Knowledge Crosswords 进行了广泛的实验来评估现有的 LLMs 提示方法,在此基准测试中,附加了两种新方法,即 Staged Prompting 和 Verify-All,以增强 LLMs 的回溯和验证结构性约束的能力。结果表明,虽然基准方法对于简单问题表现良好但在困难问题上表现不佳,我们提出的 Verify-All 方法在性能上大幅优于其他方法,并且对于困难问题更加稳健。进一步分析发现,LLMs 在结构化知识的几何推理能力仍然不够强大或完美,易受选项顺序、特定结构模式、假设存在正确答案等因素的影响。
Oct, 2023
本文介绍了一个基于 cognitive psychology 和 neuroscience 的撷图,和相应的 deep learning 架构,用来解决视觉和逻辑推理以及记忆方面的问题。架构表现不错且易扩展,是目前解决此问题的有力之选。
Mar, 2018