通过几何约束大语言模型导航复杂物理世界
研究使用大型语言模型(LLMs)对几何形状及其空间关系进行表示的能力,并使用GPT-2和BERT等LLMs对几何形状的文本(WKT)格式进行编码,然后将其嵌入分类器和回归器中评估LLMs生成的嵌入表示对几何属性的效果。实验证明,尽管LLMs生成的嵌入可以保留几何类型并捕捉一些空间关系(准确率高达73%),但在估计数值和检索空间相关对象方面仍存在挑战。此研究强调了在捕捉底层地理空间数据的细微差别和复杂性以及整合领域知识以支持各种基于GeoAI应用的需要改进的重要性。
Jul, 2023
大型语言模型(LLMs)展现出在各种任务中的卓越能力。我们探索LLMs对于一种特别显著的基于实际距离的知识,即空间关系的表示。通过设计自然语言导航任务,我们评估了LLMs(特别是GPT-3.5-turbo,GPT-4和Llama2系列模型)在表示和推理空间结构方面的能力,并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了LLMs在不同空间结构(包括正方形、六边形和三角形网格、环和树形结构)中的表现变异性。我们还发现,类似于人类,LLMs利用对象名称作为地标来维护空间地图。最后,在广泛的错误分析中,我们发现LLMs的错误反映了空间和非空间因素。这些发现表明,LLMs似乎能够隐含地捕捉到空间结构的某些方面,但仍有改进空间。
Oct, 2023
利用图像输入,通过理解几何问题,使大型语言模型能够解决几何问题,构建了一个丰富的多模态几何数据集Geo170K,发展了G-LLaVA, 在MathVista基准测试上以仅有7B参数显著优于GPT-4-V。
Dec, 2023
大语言模型在多步数学推理方面表现出色,但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头,我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集,具有可控的难度级别,从而进行系统评估。我们的基准测试结果表明,这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色,特别是通过我们基准测试的多个深度级别构建,因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。
Dec, 2023
大型语言模型(LLMs)在数学和算法任务中展现日益增长的能力,但它们的几何推理技能尚未被充分探索。我们研究了LLMs在构造性几何问题求解上的能力,这是人类数学推理发展中最基本的一步。我们的工作揭示了当前LLMs面临的显著挑战,尽管在类似领域取得了很多成功。LLMs在目标变量选择上存在偏见,并且在二维空间关系方面遇到困难,常常误代和产生对象及其放置的幻觉。为此,我们介绍了一个基于LLMs的多智能体系统框架,通过进行内部对话来增强它们现有的推理潜力。这项工作突出了LLMs在几何推理中目前的局限性,并通过自我纠正、协作和多样化角色专业化来改善几何推理能力。
Feb, 2024
大型语言模型(LLMs)与三维空间数据(3D-LLMs)的整合不断进步,为理解和与物理空间互动提供了前所未有的能力。本文综述了使LLMs能够处理、理解和生成3D数据的方法,强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势,并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场(NeRFs)等各种3D数据表示,分析了它们与LLMs的整合在3D场景理解、字幕生成、问答和对话,以及基于LLMs的空间推理、规划和导航等任务中的应用,同时还对整合3D和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展,但也强调了利用3D-LLMs的全部潜力需要创新方法的必要性。因此,本文旨在为未来的研究规划一个探索和扩展3D-LLMs在理解和与复杂3D世界互动方面能力的道路。为了支持这项综述,我们建立了一个项目页面,其中整理和列出了与我们的主题相关的论文。
May, 2024
大型语言模型(LLMs)具有生成新信息的潜力,这对于研究和创新来说是一个潜在的重大突破。本文观察到LLMs能够对具有空间维度的问题进行复杂推理,这表明现有的LLMs能够达到相当程度的理解能力,支持其具有重要的新现象产生特性。特别地,Claude 3在这方面表现良好。
May, 2024
大型语言模型和视觉-语言模型在广泛的任务和领域表现出了显著的优异性能,但空间理解和推理(人类认知的基本组成部分)仍然未得到充分利用。通过开发多方面的空间推理基准,如关系理解、导航和计数,我们对具有竞争力的语言模型和视觉-语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点:(1)空间推理带来了重大挑战,竞争模型可能不如随机猜测;(2)尽管有额外的视觉输入,视觉-语言模型通常表现不如纯语言模型;(3)当文本和视觉信息都可用时,如果提供足够的文本线索,多模态语言模型对视觉信息的依赖程度降低。此外,我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。
Jun, 2024
通过对大型语言模型(LLMs)的几何理解,我们探索了大型语言模型(LLMs)的推理能力,建立了LLMs的表达能力和自注意力图的密度之间的联系,通过理论分析和玩具示例证明了更高的内在维度意味着更大的LLM表达能力,并提供了将几何框架与增强LLM推理能力方法中的最新进展相联系的经验证据。
Jul, 2024
本研究提出了PLUGH基准,旨在评估大型语言模型在空间理解和推理方面的能力。通过针对48款游戏的125个输入文本和61种不同空间图的任务,研究发现尽管某些商业模型表现优异,开源模型也能够接近同等水平,但仍存在显著改进空间。研究还识别了LLM失败的典型原因,并探讨了应对策略。
Aug, 2024