大型语言模型能否为空间推理任务创造新的知识?
该研究通过探测具备预训练能力的大型语言模型对地理数据的理解程度和与此相关的促进地理空间决策的能力,通过三个实验验证结论,表明合成地理空间知识需要更大规模和更复杂的语言模型,并且对于处理地理空间信息,大型语言模型的潜力和局限性值得研究。
Oct, 2023
大型语言模型(LLMs)展现出在各种任务中的卓越能力。我们探索 LLMs 对于一种特别显著的基于实际距离的知识,即空间关系的表示。通过设计自然语言导航任务,我们评估了 LLMs(特别是 GPT-3.5-turbo,GPT-4 和 Llama2 系列模型)在表示和推理空间结构方面的能力,并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了 LLMs 在不同空间结构(包括正方形、六边形和三角形网格、环和树形结构)中的表现变异性。我们还发现,类似于人类,LLMs 利用对象名称作为地标来维护空间地图。最后,在广泛的错误分析中,我们发现 LLMs 的错误反映了空间和非空间因素。这些发现表明,LLMs 似乎能够隐含地捕捉到空间结构的某些方面,但仍有改进空间。
Oct, 2023
大型语言模型在路径规划和空间推理方面取得了显著的成功,少样本的 GPT-4 通过不同的提示方法在空间推理方面表现出了潜力,而微调的 LLMs 则在小环境或有障碍物的情况下难以推广。
Oct, 2023
大型语言模型(LLMs)与三维空间数据(3D-LLMs)的整合不断进步,为理解和与物理空间互动提供了前所未有的能力。本文综述了使 LLMs 能够处理、理解和生成 3D 数据的方法,强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势,并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场(NeRFs)等各种 3D 数据表示,分析了它们与 LLMs 的整合在 3D 场景理解、字幕生成、问答和对话,以及基于 LLMs 的空间推理、规划和导航等任务中的应用,同时还对整合 3D 和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展,但也强调了利用 3D-LLMs 的全部潜力需要创新方法的必要性。因此,本文旨在为未来的研究规划一个探索和扩展 3D-LLMs 在理解和与复杂 3D 世界互动方面能力的道路。为了支持这项综述,我们建立了一个项目页面,其中整理和列出了与我们的主题相关的论文。
May, 2024
利用大型语言模型 (大型语言模型) 分析 3D 机器人轨迹数据和 2D 方向形状标注等任务,并引入基于前缀的提示机制,提高了性能,为未来的改进提供了基础。
Dec, 2023
该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力,从而证明现有的推理基准测试是简单化的,无法支持关于 LLMs 推理能力的夸张的说法,并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。
Jun, 2022
大型语言模型在知识获取和统计推理方面取得了稳定进展,但在常识推理任务中仍存在局限性,纯统计学习难以应对其中的组合爆炸问题,更大并不总是更好,而且单纯追求统计改进只会加重正确答案与真正推理能力之间的危险混淆。
Apr, 2024
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
大型语言模型(LLMs)在数学和算法任务中展现日益增长的能力,但它们的几何推理技能尚未被充分探索。我们研究了 LLMs 在构造性几何问题求解上的能力,这是人类数学推理发展中最基本的一步。我们的工作揭示了当前 LLMs 面临的显著挑战,尽管在类似领域取得了很多成功。LLMs 在目标变量选择上存在偏见,并且在二维空间关系方面遇到困难,常常误代和产生对象及其放置的幻觉。为此,我们介绍了一个基于 LLMs 的多智能体系统框架,通过进行内部对话来增强它们现有的推理潜力。这项工作突出了 LLMs 在几何推理中目前的局限性,并通过自我纠正、协作和多样化角色专业化来改善几何推理能力。
Feb, 2024
在这篇论文中,我们探讨了机器学习在地理空间预测任务中的应用,提出了一种名为 GeoLLM 的新方法,利用大型语言模型中的地理空间信息和开放街道地图的辅助数据,有效地提取地理空间知识,用于测量人口密度等中心问题,相较于最近邻和直接使用提示信息的基准方法,在多个任务上展现了 70% 的性能提升,并且与卫星数据的基准结果相当甚至超出,证明了大型语言模型在地理空间任务上的可行性和潜力。
Oct, 2023