小型语言模型为方程推理者

Sep, 2024

Small Language Models are Equation Reasoners

Bumjun Kim, Kunha Lee, Juyeon Kim, Sangam Lee

TL;DR本研究解决了小型语言模型在算术推理任务中表现不佳的问题，主要由于自然语言形式的多样性引入了高歧义性。通过引入仅使用方程的推理格式，研究表明该方法显著提升了小型模型的算术推理能力，尤其是在像T5-Tiny这样的超小型模型中表现尤为突出。

Abstract

Chain-of-Thought (CoT) reasoning has enabled Large Language Model (LLM) to achieve remarkable performance in various NLP tasks, including arithmetic problem-solving. However, this success does not generalize to small language model (sLM) like T5, due to their limited capacity and absen

发现论文，激发创造

面向多步推理的小语言模型特化

揭示了将大规模语言模型进行特化，使其在特定任务上具有相对较强的表现的可能性，并使用多步数学推理作为测试，通过设计优化措施来提高其广义性能。

Jan, 2023

从算术任务中学习多步推理

本研究探究如何将较小的语言模型与多步推理能力相结合，通过在合成数据集MsAT上进行持续的预训练，我们的实验证明了该方法对增强语言模型的数学推理能力的有效性。

Jun, 2023

大型语言模型中的符号数学问题推理

该论文研究了大型语言模型在数学问题推理方面的能力，特别关注符号推理在数值问题中的准确性，并通过自提示的方法提高了符号准确性，为模型提供了简洁可验证的推理能力。

Aug, 2023

培训以调用符号求解器为目标的经济型语言模型实现参数高效算术推理

在这篇论文中，我们提出了一种名为SYRELM的架构，它通过采用符号求解器来将自然语言算术问题转化为形式化语言描述，然后通过一个小型冻结的LM生成包含自然语言描述的形式化表达式，并通过策略梯度强化学习训练适应的LM，从而实现合理的算术推理。该方法在准确性上取得了巨大的改进，并具有易于诊断、解释和大多数研究人员可以使用的特点。

Dec, 2023

通过混合思维提炼，提高小型语言模型的数学推理能力

通过将大型语言模型的数学推理能力压缩到亿级参数的小型语言模型中，不影响性能，以实现先进的大型语言模型民主化。我们提出了EoTD（Equation-of-Thought Distillation）技术，将推理过程封装到基于方程的表示中，构建了EoTD数据集用于微调小型语言模型。此外，我们提出了MTD（Mix Thoughts Distillation）框架，以增强小型语言模型的推理性能。实验结果表明，EoTD显著提升了小型语言模型的推理能力，而MTD使这些模型达到了最先进的推理性能。

Jan, 2024

大型语言模型在数学推理方面的进展与挑战

数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的LLM技术范围、影响LLMs解决数学问题的因素和问题，并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。

Jan, 2024

大型语言模型的符号能力研究

研究证实，大型语言模型在处理基于符号的任务时面临符号复杂度上升的挑战，强调了需要专门的训练、内存和架构调整以提高它们在符号推理任务中的熟练度。

May, 2024

LLM中的算术推理：Prolog生成与排列

使用大型语言模型来生成Prolog程序以解决数学问题，在GSM8K基准测试中，我们的Prolog算术问题解决方法在三个不同的大型语言模型中胜过了Chain of Thought。我们提出对真值谓词进行排列组合，以通过数据增强方法来增加训练的健壮性。

May, 2024

评估拉马大型语言模型的新兴符号推理能力

大型语言模型在各种任务中取得了令人印象深刻的表现，即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了Llama 2家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型（Llama 2 Chat）以及两个专门设计用于解决数学问题的经过微调的Llama 2版本（MAmmoTH和MetaMath）。我们观察到，增加模型规模并在相关任务上进行微调可以显著提高性能。此外，通过使用细粒度的评估指标，我们发现这种性能提升主要出现在复杂度较低的数学公式上，尽管对于最大的经过微调的模型来说，这些公式通常仍然具有一定挑战性。

Jun, 2024

基于关键点驱动的大型语言模型的数学推理精炼

通过将大型语言模型分解为更小的语言模型，通过程序或关键点推导，改善了语义理解错误，提高了数学推理任务的性能。

Jul, 2024