通过将大型语言模型与外部符号求解器相结合,我们提出了一种能够将单词问题逐步规范化为一组变量和方程的方法,并使用符号求解器解决问题,相较于 PAL 在解决代数类问题上性能提升了 20%。
Apr, 2023
本文比较了五个数据集和两个模型类型(LLaMA 模型和 OpenAI 模型)上程序辅助语言模型(PAL)和基于文本的思维链(COT)提示技术的校准情况。结果表明,PAL 在 75% 的情况下能够提供更好的校准性能。我们的分析发现,生成较少多样性的提示风格也具有更好的校准结果,因此我们还尝试使用温度缩放来降低生成的多样性,并发现在某些温度下,PAL 不仅更准确,而且还更具校准性。总体而言,我们证明在大多数情况下,程序辅助的推理者比基于文本的对应者更好地了解自己的知识。
Nov, 2023
提出了一种名为 MathPrompter 的技术,它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数,并以不同的方式解决相同的数学问题,从而提高模型在算术问题上的性能并提高置信水平。
Mar, 2023
使用自然语言作为一种新的编程语言来描述任务过程,让其易于被人类和 LMMs 理解,并进一步借助 Learning to Program (LP) 方法通过学习来自训练集中的自然语言程序,优化复杂任务的问题解决能力,该方法在 AMPS 和数学两个数据集上的有效性得到验证,证明其性能超过直接零样本测试表现 18.3%。
研究证实,大型语言模型在处理基于符号的任务时面临符号复杂度上升的挑战,强调了需要专门的训练、内存和架构调整以提高它们在符号推理任务中的熟练度。
May, 2024
本文提出了一种神经符号方法,将大型语言模型和答案集编程的优势相结合,以将逻辑谜题的自然语言描述转化为答案集程序。
Jul, 2023
在这篇论文中,我们提出了一种名为 SYRELM 的架构,它通过采用符号求解器来将自然语言算术问题转化为形式化语言描述,然后通过一个小型冻结的 LM 生成包含自然语言描述的形式化表达式,并通过策略梯度强化学习训练适应的 LM,从而实现合理的算术推理。该方法在准确性上取得了巨大的改进,并具有易于诊断、解释和大多数研究人员可以使用的特点。
Dec, 2023
大型语言模型与符号程序的结合可以在构建人类中心预测模型时解决表达力和解释性之间的平衡问题。
Jun, 2024
使用生成的可执行代码代替自然语言可以减少计算错误。本文介绍了一种通过自然语言生成问题解决方法,并将其转换为代码的方法,以提高大型语言模型在数学问题求解中的准确性。同时引入了近端策略优化算法和注意力机制,通过自我反馈和依赖自然语言推理解决方案来改进模型性能。在五个数学计算数据集上进行了实验证明了该方法的有效性。
Feb, 2024
LoGiPT 是一种新颖的语言模型,通过直接模拟逻辑求解器的推理过程并严格遵守求解器的语法规则,绕过分析错误,并在竞争的语言模型上表现出优异的性能。