大型语言模型能成为良好的路径规划器吗?空间-时间推理的基准和研究调查
该研究提出了一种可扩展的评估框架来测试LLMs在行动和变化推理方面的能力,从而证明现有的推理基准测试是简单化的,无法支持关于LLMs推理能力的夸张的说法,并展示了GPT-3、Instruct-GPT3和BLOOM对这些任务的表现不佳。
Jun, 2022
本文提出了一种名为自然语言计划(NLP)的基准测试,由包含新颖任务的Brick World、基于NLVR的操作和自然语言导航组成,着重研究LLMs在需要理解自然语言描述的虚拟空间环境并进行相应文本操作的复杂计划任务中的表现,发现常规的ChatGPT等LLMs缺乏复杂计划的能力,因此提出了一种适用于LLMs的新方法CoS,可以更好地表示符号空间表示方法,并在三个计划任务中显著提高了ChatGPT的性能。
May, 2023
人工智能在许多领域取得了显著进展,类似ChatGPT这样的大型语言模型因其人类化的文本生成能力而受到了广泛关注。然而,空间推理仍然是这些模型面临的重大挑战。本研究通过改进StepGame基准测试,提供了更准确的数据集用于模型评估,并分析了GPT在修正后的基准测试上的空间推理性能。我们发现GPT在将自然语言文本映射到空间关系方面表现出了优势,但在多跳推理方面存在局限性。我们通过将模板到关系映射与基于逻辑的推理相结合,提供了基准测试的完美解决方案,可以在StepGame上进行定性推理而不会出现任何错误。此外,我们还针对GPT模型在空间推理方面的局限性进行了改进,采用了连续思考和思维树提示策略,在准确性方面取得了显著的改善。我们的研究不仅揭示了模型的不足之处,还提出了增强措施,为具备更强大空间推理能力的人工智能的进展做出了贡献。
Jan, 2024
大型语言模型(LLMs)具有生成新信息的潜力,这对于研究和创新来说是一个潜在的重大突破。本文观察到LLMs能够对具有空间维度的问题进行复杂推理,这表明现有的LLMs能够达到相当程度的理解能力,支持其具有重要的新现象产生特性。特别地,Claude 3在这方面表现良好。
May, 2024
我们提出了一个新的基准评估语言模型中的定性空间推理,该基准建立在逼真的三维仿真数据上,提供了一系列具有多样化房间布局、不同对象及其空间关系的详细和富有背景的叙述。我们的基准评估了先进的语言模型在空间推理方面的优势和局限性,发现它们在多跳空间推理和解释混合视角描述方面存在困难,并指出了未来改进的方向。
May, 2024
大型语言模型(LLMs)在各种任务中展示了令人印象深刻的能力,然而它们仍然面临着长期规划的挑战。为了研究这一点,我们提出了路径规划任务作为评估LLMs在几何约束下导航长轨迹能力的平台。我们的基准测试系统地测试了复杂环境中的路径规划技能。使用这个基准测试,我们使用各种任务表示和提示方法来研究GPT-4的规划能力。我们发现将提示框架化为Python代码,并对长期轨迹任务进行分解可以提高GPT-4的路径规划效果。然而,尽管这些方法在改善模型的规划能力方面显示出一些希望,但它们不能获得最优路径,并且无法在较长时间范围内进行泛化。
Jun, 2024
大型语言模型和视觉-语言模型在广泛的任务和领域表现出了显著的优异性能,但空间理解和推理(人类认知的基本组成部分)仍然未得到充分利用。通过开发多方面的空间推理基准,如关系理解、导航和计数,我们对具有竞争力的语言模型和视觉-语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点:(1)空间推理带来了重大挑战,竞争模型可能不如随机猜测;(2)尽管有额外的视觉输入,视觉-语言模型通常表现不如纯语言模型;(3)当文本和视觉信息都可用时,如果提供足够的文本线索,多模态语言模型对视觉信息的依赖程度降低。此外,我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。
Jun, 2024
利用16,000个基于网格的环境构建了一个名为GRASP的大规模基准,用于对比经典基线方法和先进的LLMs(如GPT-3.5-Turbo和GPT-4o)在空间推理场景中解决能量收集问题的表现。实验结果表明,即使是这些先进的LLMs也很难一直实现令人满意的解决方案。
Jul, 2024
本研究针对大型语言模型(LLMs)在长期路径规划中面临的空间幻觉和上下文不一致幻觉的问题,提出了一种创新模型S2RCQL(空间到关系转化与课程Q学习)。通过将空间提示转化为实体关系及路径并结合Q学习算法,该模型显著提高了LLMs的推理能力,并在实验中显示出成功率和最优率提高了23%至40%。
Aug, 2024
本研究针对大型语言模型在规划能力方面的不足,评估了OpenAI的o1模型在多项基准任务中的表现,重点关注可行性、最优性和可推广性。研究发现,虽然后者在遵循任务约束方面优于GPT-4,但在空间复杂任务中的泛化能力和决策记忆管理仍存在瓶颈,为未来提升语言模型的规划能力提供了重要方向。
Sep, 2024