用七巧板形状进行抽象视觉推理

EMNLPNov, 2022

Abstract Visual Reasoning with Tangram Shapes

Anya Ji, Noriyuki Kojima, Noah Rush, Alane Suhr, Wai Keen Vong...

TL;DR该论文介绍了 KiloGram，这是一种用于研究人类和机器的抽象视觉推理的资源，它包含一个丰富的数据库，并且用于评估近期多模态模型的抽像视觉推理能力，能够通过微调获得更好的结果。

Abstract

We introduce KiloGram, a resource for studying abstract visual reasoning in humans and machines. Drawing on the history of tangram puzzles as stimuli in cognitive science, we build a richly annotated dataset that

visual reasoning abstract reasoning multi-modal models dataset part labels

发现论文，激发创造

PuzzleVQA: 通过抽象视觉模式诊断语言模型的多模态推理挑战

通过对抽象模式的基本概念进行评估，我们发现大型多模态模型在简单抽象模式上无法很好地泛化。通过对大型多模态模型的推理挑战进行系统分析，我们发现主要瓶颈在于较弱的视觉感知和归纳推理能力。

Mar, 2024

MARVEL: 多维度的可视化评估和学习中的抽象和推理

多模态大型语言模型在抽象视觉推理方面呈现出近乎随机的性能，无法理解视觉特征和难以进行抽象推理。

Apr, 2024

基于知识图谱的多模态类比推理

本研究介绍了基于知识图谱的多模式类比推理任务，并通过构建 Multimodal Analogical Reasoning 数据集和 Multimodal knowledge graph MarKG 进行评估。研究表明，从多模态源获取信息可以带来比单模态源更强大的认知转移，该研究进一步提出了一种基于结构映射理论的新型通用 Transformer 框架（MarT），能够取得更好的性能。

Oct, 2022

使用大型语言模型在知识图谱上进行复杂的逻辑推理

本研究提出一种基于图形提取算法和大型语言模型的解耦合语言引导抽象推理方法，将复杂的知识图推理作为上下文知识图搜索和抽象逻辑查询推理的组合，显著提高了复杂查询的性能。

May, 2023

学习如何在视觉对象上进行推理

探究对象为中心的编码器和变换推理模块是否能提高图像推理任务的效果，并发现其比传统以 Raven 智力测试为基础的任务特定归纳偏见更全面适用。

Mar, 2023

福尔摩斯事件：一个用于视觉拟合推理的数据集

本文提出了 Sherlock 数据集作为机器人推理能力测试的基础，并在此基础上对机器学习模型的推理能力以及人与机器的差距进行了研究和探讨，结果表明目前的最先进技术还有非常大的提升空间。

Feb, 2022

尺度局部化的抽象推理

该研究提出了一种多尺度架构，用于处理抽象关系推理任务中的空间和语义关系，其优于现有技术在所有基准测试中的成功表明来自多种创新，包括：在多个解析度中搜索关系模式，优化每个分辨率的推理网络并构建一个新的 RAVEN-FAIR 数据集。

Sep, 2020

视觉抽象推理任务的深度非单调推理

本文提出了一种非单调计算方法来解决视觉抽象推理任务，使用 RAVEN 数据集进行测试，并与现有单调深度学习模型进行比较，结果表明，该方法比现有单调深度学习模型更加有效。

Feb, 2023

知识填字游戏：利用大型语言模型进行结构化知识的几何推理

大型语言模型（LLMs）在知识密集型任务中被广泛采用，通过其知识能力取得了令人印象深刻的性能。本研究提出了结构化知识的几何推理，其中以图结构连接了多个知识片段，模型需要填补遗漏的信息。我们使用 Knowledge Crosswords 进行了广泛的实验来评估现有的 LLMs 提示方法，在此基准测试中，附加了两种新方法，即 Staged Prompting 和 Verify-All，以增强 LLMs 的回溯和验证结构性约束的能力。结果表明，虽然基准方法对于简单问题表现良好但在困难问题上表现不佳，我们提出的 Verify-All 方法在性能上大幅优于其他方法，并且对于困难问题更加稳健。进一步分析发现，LLMs 在结构化知识的几何推理能力仍然不够强大或完美，易受选项顺序、特定结构模式、假设存在正确答案等因素的影响。

Oct, 2023

一种具备工作记忆的视觉推理数据集和架构

本文介绍了一个基于 cognitive psychology 和 neuroscience 的撷图，和相应的 deep learning 架构，用来解决视觉和逻辑推理以及记忆方面的问题。架构表现不错且易扩展，是目前解决此问题的有力之选。

Mar, 2018