视觉草稿本：多模态语言模型的可视化思维链

Jun, 2024

视觉草稿本：多模态语言模型的可视化思维链

Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models

Yushi Hu, Weijia Shi, Xingyu Fu, Dan Roth, Mari Ostendorf...

TL;DR本研究介绍了Sketchpad框架，通过为多模态语言模型提供视觉草图板和绘图工具，使其在推理过程中绘制视觉成果，从而显著改善任务表现。

Abstract

Humans draw to facilitate reasoning: we draw auxiliary lines when solving geometry problems; we mark and circle when reasoning on maps; we use sketches to amplify our ideas and relieve our limited-capacity workin

发现论文，激发创造

用七巧板形状进行抽象视觉推理

该论文介绍了KiloGram，这是一种用于研究人类和机器的抽象视觉推理的资源，它包含一个丰富的数据库，并且用于评估近期多模态模型的抽像视觉推理能力，能够通过微调获得更好的结果。

Nov, 2022

SketchXAI：人类草图解释的初探

该文章首次将人类草图引入XAI（可解释人工智能）领域，提出以草图为数据形式的可解释人工智能设计，通过识别笔画的形状、位置和顺序等内在属性，定义了首个用于草图的XAI任务：笔画位置倒置。研究结果不仅提供了草图解释的角度，同时还展示了该特殊设计的草图编码器最佳的草图识别精度和最小的参数数量。

Apr, 2023

SketchDreamer：互动的文本增强创意草图构思

通过与文本交互的过程，本文提出了一种名为SketchDreamer的方法，利用基于像素表示的图像的文本条件扩散模型训练来生成受控素描，并使文本和素描能够相互作用，以实现非专业用户创作素描，并将叙述扩展为故事板。

Aug, 2023

MathVista: 在视觉背景中评估基础模型的数学推理

通过创建MathVista基准测试，研究提出了对于大型语言模型和大型多模态模型在数学推理和视觉背景下的能力的正式研究，并详细评估了11种不同模型的性能，为未来的通用AI代理的发展提出了挑战。

Oct, 2023

大型语言模型对计算机教育产生了重大影响，研究表明，这些模型能够比学生提供更好的解释，回答多项选择题高于平均水平，并生成能够通过入门课程中的自动化测试的代码。然而，仅仅转向视觉编程问题可能不足以解决在生成AI时代的学术诚信问题。

Nov, 2023

PuzzleVQA: 通过抽象视觉模式诊断语言模型的多模态推理挑战

通过对抽象模式的基本概念进行评估，我们发现大型多模态模型在简单抽象模式上无法很好地泛化。通过对大型多模态模型的推理挑战进行系统分析，我们发现主要瓶颈在于较弱的视觉感知和归纳推理能力。

Mar, 2024

MARVEL: 多维度的可视化评估和学习中的抽象和推理

多模态大型语言模型在抽象视觉推理方面呈现出近乎随机的性能，无法理解视觉特征和难以进行抽象推理。

Apr, 2024

思考跨模态的思维步骤白板

白板思维引导是一个简单的方法，可以解锁多模态大型语言模型在视觉推理方面的能力，通过提供“白板”以图像形式呈现推理步骤，然后将这些图像返回给模型进行进一步处理。该方法在涉及视觉和空间推理的四个自然语言任务方面展现了最先进的结果，同时解决了GPT-4o使用思维链的多个失败场景，并在这些相同场景中实现了92%的准确率。

Jun, 2024

图像能否代表千言万语？深入探究视觉语言模型的空间推理

大型语言模型和视觉-语言模型在广泛的任务和领域表现出了显著的优异性能，但空间理解和推理（人类认知的基本组成部分）仍然未得到充分利用。通过开发多方面的空间推理基准，如关系理解、导航和计数，我们对具有竞争力的语言模型和视觉-语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点：（1）空间推理带来了重大挑战，竞争模型可能不如随机猜测；（2）尽管有额外的视觉输入，视觉-语言模型通常表现不如纯语言模型；（3）当文本和视觉信息都可用时，如果提供足够的文本线索，多模态语言模型对视觉信息的依赖程度降低。此外，我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。

Jun, 2024

混合原始素描：结合类比、定性表征和计算机视觉的场景理解

感知的一个目的是在传感器和概念理解之间搭建桥梁。本文提出了一个受马尔（Marr）工作启发的新框架，即混合原始素描（Hybrid Primal Sketch），它将计算机视觉组件结合为一个集合，通过CogSketch模型进一步处理生成类似素描的实体，从而产生更详细的形状表示和场景表示，可用于通过类比推理实现数据高效学习。本文描述了我们的理论框架，总结了几个先前的实验，并概述了正在进行的一个关于图解理解的新实验。

Jul, 2024