利用学习的符号抽象启动高水平数学推理
本文介绍了一种利用关系抽象概念来帮助大型语言模型在数学推理方面提高的新方法,并发现将这种序列用作提示可使模型具有更强的推理能力,特别是在需要执行多步任务的情况下。
Oct, 2022
本研究探究如何将较小的语言模型与多步推理能力相结合,通过在合成数据集 MsAT 上进行持续的预训练,我们的实验证明了该方法对增强语言模型的数学推理能力的有效性。
Jun, 2023
在这篇论文中,我们提出了一种名为 SYRELM 的架构,它通过采用符号求解器来将自然语言算术问题转化为形式化语言描述,然后通过一个小型冻结的 LM 生成包含自然语言描述的形式化表达式,并通过策略梯度强化学习训练适应的 LM,从而实现合理的算术推理。该方法在准确性上取得了巨大的改进,并具有易于诊断、解释和大多数研究人员可以使用的特点。
Dec, 2023
本文提出了一种基于应用学习 (LeAp) 框架的方法,通过明确的知识学习和应用来增强现有模型的推理能力,并形成了一种将知识 “学习” 和 “应用” 有机结合的知识图谱,提高了推理过程的解释性以及问题理解和符号推理能力。
Feb, 2023
我们提出了 Llemma 这个大型数学语言模型,通过将 Code Llama 进行预训练得到了 Llemma,并在 MATH 基准测试中表现优于所有已知的开源基础模型,同时还能进行工具使用和形式定理证明而无需进一步微调。
Oct, 2023
本研究中,我们探讨引理在自动定理证明中的重要作用,提出了一种结合学习技术的系统,该系统能够生成有用的引理来协助自动定理证明,并通过试验验证了该系统在几个代表性问题的解决方面的优越性,特别是成功解决了一系列难题,这些难题在过去 20 年间都未被任何系统解决。通过侧重简化附加问题的研究,我们得出了引理以及它们在证明搜索中的根本作用。
Mar, 2023
我们介绍了一个基于人类语言指令的桌面环境下,侧重于任务分配和长时间跨度物体操作的多机器人语言条件操作(LEMMA)基准。LEMMA 具有多种类型的过程生成任务,其复杂度不同,其中一些需要机器人使用工具并将工具传递给彼此。为每个任务提供 800 个专家示范和人类指令进行训练和评估。LEMMA 相对于现有基准提出了更大的挑战,因为它要求系统识别每个操纵器的限制,并相应地分配子任务,同时还要处理每个任务中的强时间依赖。为应对这些挑战,我们提出了一种基于模块化分层规划方法作为基线。我们的结果突显了 LEMMA 在开发未来语言条件多机器人系统方面的潜力。
Aug, 2023
本研究探讨在数学中的程序抽象结构,定案例研究并且说明通过 Peano 定理证明环境和可重用抽象的能力,加上恰当的教学大纲,是保障自动化数学推理的长期文化传播的有效方法。
Nov, 2022
通过对高质量合成数据的微调,本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现,并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明,这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1,而且还在域外数据集上展现出一定的泛化能力,对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集,在这两个更难的任务上,经过微调的模型展示出令人鼓舞的表现,零样本一次通过率 @1 分别为 0.33 和 0.35。
Jun, 2024
大型语言模型在各种任务中取得了令人印象深刻的表现,即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了 Llama 2 家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型(Llama 2 Chat)以及两个专门设计用于解决数学问题的经过微调的 Llama 2 版本(MAmmoTH 和 MetaMath)。我们观察到,增加模型规模并在相关任务上进行微调可以显著提高性能。此外,通过使用细粒度的评估指标,我们发现这种性能提升主要出现在复杂度较低的数学公式上,尽管对于最大的经过微调的模型来说,这些公式通常仍然具有一定挑战性。
Jun, 2024