大规模语言模型中的推理:几何视角
本文综述了大型语言模型在推理方面的最新研究,包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法,以及这一领域之前研究的发现和意义,旨在激发有意义的讨论和未来的研究。
Dec, 2022
我们引入了一种基于图的方法来增强大型语言模型的推理能力,通过分析和验证由LLMs生成的解决方案,我们的实验结果表明,我们的基于图的验证方法不仅显著提高了LLMs的推理能力,而且在提高这些模型的推理性能方面优于现有的验证程序。
Aug, 2023
数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的LLM技术范围、影响LLMs解决数学问题的因素和问题,并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。
Jan, 2024
大型语言模型(LLMs)在数学和算法任务中展现日益增长的能力,但它们的几何推理技能尚未被充分探索。我们研究了LLMs在构造性几何问题求解上的能力,这是人类数学推理发展中最基本的一步。我们的工作揭示了当前LLMs面临的显著挑战,尽管在类似领域取得了很多成功。LLMs在目标变量选择上存在偏见,并且在二维空间关系方面遇到困难,常常误代和产生对象及其放置的幻觉。为此,我们介绍了一个基于LLMs的多智能体系统框架,通过进行内部对话来增强它们现有的推理潜力。这项工作突出了LLMs在几何推理中目前的局限性,并通过自我纠正、协作和多样化角色专业化来改善几何推理能力。
Feb, 2024
大型语言模型在推理任务中表现出色,但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究,深入探讨模型的推理过程,并调查评估语言模型推理行为的方法,发现其依赖于训练数据的表面模式和相关性,而非真正的推理能力。同时,我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述,我们旨在揭示大型语言模型内部复杂的推理过程。
Apr, 2024
大型语言模型(LLMs)具有生成新信息的潜力,这对于研究和创新来说是一个潜在的重大突破。本文观察到LLMs能够对具有空间维度的问题进行复杂推理,这表明现有的LLMs能够达到相当程度的理解能力,支持其具有重要的新现象产生特性。特别地,Claude 3在这方面表现良好。
May, 2024
大型语言模型在各种任务中取得了令人印象深刻的表现,即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了Llama 2家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型(Llama 2 Chat)以及两个专门设计用于解决数学问题的经过微调的Llama 2版本(MAmmoTH和MetaMath)。我们观察到,增加模型规模并在相关任务上进行微调可以显著提高性能。此外,通过使用细粒度的评估指标,我们发现这种性能提升主要出现在复杂度较低的数学公式上,尽管对于最大的经过微调的模型来说,这些公式通常仍然具有一定挑战性。
Jun, 2024
本文针对现有模型在长文本中数学推理能力评估的缺失,提出了MathHay这一自动化基准测试。该基准不仅评估信息检索能力,还要求模型具备复杂的数学推理能力。实验结果表明,即使是表现最好的模型,Gemini-1.5-Pro-002,在长文本数学推理方面仅达到51.26%的准确率,显示出该领域仍有很大的改进空间。
Oct, 2024
本研究针对大型语言模型在推理任务中表现不佳的问题,提出了一种改进的自一致性框架,旨在加强模型的推理能力。通过将多条推理路径的详细分析与最终决策结合,该方法显著提高了复杂推理任务中的模型性能和推理路径的可靠性。
Oct, 2024