视觉草稿本:多模态语言模型的可视化思维链
该论文介绍了KiloGram,这是一种用于研究人类和机器的抽象视觉推理的资源,它包含一个丰富的数据库,并且用于评估近期多模态模型的抽像视觉推理能力,能够通过微调获得更好的结果。
Nov, 2022
该文章首次将人类草图引入XAI(可解释人工智能)领域,提出以草图为数据形式的可解释人工智能设计,通过识别笔画的形状、位置和顺序等内在属性,定义了首个用于草图的XAI任务:笔画位置倒置。研究结果不仅提供了草图解释的角度,同时还展示了该特殊设计的草图编码器最佳的草图识别精度和最小的参数数量。
Apr, 2023
通过与文本交互的过程,本文提出了一种名为SketchDreamer的方法,利用基于像素表示的图像的文本条件扩散模型训练来生成受控素描,并使文本和素描能够相互作用,以实现非专业用户创作素描,并将叙述扩展为故事板。
Aug, 2023
通过创建MathVista基准测试,研究提出了对于大型语言模型和大型多模态模型在数学推理和视觉背景下的能力的正式研究,并详细评估了11种不同模型的性能,为未来的通用AI代理的发展提出了挑战。
Oct, 2023
大型语言模型对计算机教育产生了重大影响,研究表明,这些模型能够比学生提供更好的解释,回答多项选择题高于平均水平,并生成能够通过入门课程中的自动化测试的代码。然而,仅仅转向视觉编程问题可能不足以解决在生成AI时代的学术诚信问题。
Nov, 2023
通过对抽象模式的基本概念进行评估,我们发现大型多模态模型在简单抽象模式上无法很好地泛化。通过对大型多模态模型的推理挑战进行系统分析,我们发现主要瓶颈在于较弱的视觉感知和归纳推理能力。
Mar, 2024
白板思维引导是一个简单的方法,可以解锁多模态大型语言模型在视觉推理方面的能力,通过提供“白板”以图像形式呈现推理步骤,然后将这些图像返回给模型进行进一步处理。该方法在涉及视觉和空间推理的四个自然语言任务方面展现了最先进的结果,同时解决了GPT-4o使用思维链的多个失败场景,并在这些相同场景中实现了92%的准确率。
Jun, 2024
大型语言模型和视觉-语言模型在广泛的任务和领域表现出了显著的优异性能,但空间理解和推理(人类认知的基本组成部分)仍然未得到充分利用。通过开发多方面的空间推理基准,如关系理解、导航和计数,我们对具有竞争力的语言模型和视觉-语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点:(1)空间推理带来了重大挑战,竞争模型可能不如随机猜测;(2)尽管有额外的视觉输入,视觉-语言模型通常表现不如纯语言模型;(3)当文本和视觉信息都可用时,如果提供足够的文本线索,多模态语言模型对视觉信息的依赖程度降低。此外,我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。
Jun, 2024
感知的一个目的是在传感器和概念理解之间搭建桥梁。本文提出了一个受马尔(Marr)工作启发的新框架,即混合原始素描(Hybrid Primal Sketch),它将计算机视觉组件结合为一个集合,通过CogSketch模型进一步处理生成类似素描的实体,从而产生更详细的形状表示和场景表示,可用于通过类比推理实现数据高效学习。本文描述了我们的理论框架,总结了几个先前的实验,并概述了正在进行的一个关于图解理解的新实验。
Jul, 2024