大型语言模型能理解符号图形程序吗?
ART框架使用冻结的LLM自动生成中间推理步骤作为程序,并能无缝集成生成和外部工具使用,使得在BigBench和MMLU基准测试中,通过自动CoT和few-shot提示,ART实现了对未知任务的实质性改进。在选定的任务上,人们可以通过纠正特定的程序错误或整合新工具来改善ART的性能.
Mar, 2023
通过使用大型语言模型(Large Language Models),我们提出了一种生成性神经符号化视觉推理方法,在模块初始化和执行的阶段,通过生成和复用模块来处理视觉-语言任务。该方法表现出优越的性能,能够在标准任务中进行竞争,并能够无缝地将学习到的模块转移到新任务中。
Nov, 2023
人的推理可以理解为直觉、联想的“系统1”和理性、逻辑的“系统2”之间的协作。对于现有的视觉活动理解中的“系统1”类似方法,整合“系统2”处理以提高解释性、泛化性和数据效率至关重要。人类活动推理的一种可能路径是构建一个由符号和规则组成的符号系统,其中一条规则连接多个符号,暗示人类的知识和推理能力。先前的方法在不断进步,但由于手工制作的符号数量有限和基于视觉的注释的规则有限,从而未能涵盖活动的复杂模式并缺乏组合泛化。为了克服这些缺陷,我们提出了一个新的符号系统,具有两个理想的重要特性:广覆盖的符号和合理的规则。通过手动注释来收集大量的人类知识以实例化这个符号系统是昂贵的。相反,我们利用最近LLMs(大型语言模型)的进展作为这两个理想属性的近似,即来自大型语言模型的符号(Symbol-LLM)。然后,给定一张图像,从图像中提取并检查视觉内容作为符号,并通过模糊逻辑计算的规则推理出活动的语义。我们的方法在广泛的活动理解任务中显示了优越性。代码和数据可以在此https URL找到。
Nov, 2023
通过Visual Program Distillation (VPD)框架将大型语言模型 (LLM) 的理解能力提炼到一个具备单次前向传递解决复杂视觉任务的视觉-语言模型 (VLM) 上,从而改善计数、理解空间关系和组合推理等能力,并在真实世界的应用(有限数据情况下的内容管理)中得到验证。
Dec, 2023
文中系统评估了大型语言模型(LLMs)生成和识别各种复杂视觉概念的能力,并展示了如何使用文本模型训练初步的视觉表示学习系统。实验结果表明,通过精确地建模字符串,语言模型可以在视觉世界的多个方面展现出作用,同时使用文本模型生成的图像进行的自监督视觉表示学习实验突显了仅借助LLMs能够训练具备语义评估能力的视觉模型的潜力。
Jan, 2024
通过引入MathVerse基准测试,我们深入评估多模态大型语言模型(MLLMs)在解决视觉数学问题方面的能力,并提出了链式思维(CoT)评估策略以评估输出答案的细微推理步骤,以期为MLLMs的未来发展提供独特的见解。
Mar, 2024
通过大型语言模型中编码的广泛世界知识,我们提出了一个反向图形的大型语言模型(IG-LLM)框架,将视觉嵌入解码为结构化的、组合的三维场景表示,从而展示了语言模型在逆向图形中的潜力,并推动了关于图像的精确空间推理的新可能性。
Apr, 2024
通过使用VGBench数据集和评估管道,我们发现大型语言模型(LLMs)在处理矢量图方面表现出很强的能力,尤其在视觉理解和生成方面,但在低级格式(SVG)上表现不佳。
Jul, 2024
本研究解决了大型语言模型(LLMs)在解读各种数据可视化(如时间序列、直方图等)中的能力不足的问题。通过构建一个新颖的合成数据集并使用多模态文本提示评估多种先进模型,研究展示了LLMs识别和理解视觉数据的能力,揭示出其在不同视觉数据解释方面的优缺点,从而为未来的研究提供了基础基准。
Sep, 2024