通过背景运算符增强大型语言模型的数学推理
使用大型语言模型来生成Prolog程序以解决数学问题,在GSM8K基准测试中,我们的Prolog算术问题解决方法在三个不同的大型语言模型中胜过了Chain of Thought。我们提出对真值谓词进行排列组合,以通过数据增强方法来增加训练的健壮性。
May, 2024
大型语言模型在各种任务中取得了令人印象深刻的表现,即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了Llama 2家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型(Llama 2 Chat)以及两个专门设计用于解决数学问题的经过微调的Llama 2版本(MAmmoTH和MetaMath)。我们观察到,增加模型规模并在相关任务上进行微调可以显著提高性能。此外,通过使用细粒度的评估指标,我们发现这种性能提升主要出现在复杂度较低的数学公式上,尽管对于最大的经过微调的模型来说,这些公式通常仍然具有一定挑战性。
Jun, 2024
Mathador-LM是用于评估大型语言模型在数学推理上的新基准,结合了规则解释、规划和问题求解。该基准受Mathador游戏启发,其目标是使用给定的一组基本数字和简单的规则,通过基本算术运算达到目标数字。我们在领先的大型语言模型中展示了稳定的平均性能,并动态生成基准实例,以符合目标难度级别。因此,我们的基准缓解了测试集泄露到训练数据中的问题,这是经常破坏流行基准的一个问题。此外,我们对Mathador-LM中的开源和闭源最新大型语言模型进行了全面评估。我们的发现表明,现代模型在Mathador-LM上面临困难,得分显著低于平均5年级学生,这与它们在流行数学推理基准上的强大表现形成鲜明对比。
Jun, 2024
我们提出了一种神经符号化方法,该方法通过提示大型语言模型从问题陈述中提取和编码所有相关信息作为逻辑代码语句,并使用逻辑编程语言(Prolog)进行明确的演绎推理的迭代计算,从而显著提高了大型语言模型在标准数学推理基准测试GSM8k和BIG-bench数据集的Navigate数据集上的性能。此外,我们引入了一个新的数据集,Non-Linear Reasoning(NLR)数据集,包含55个唯一的单词问题,针对大型语言模型的下一个令牌预测范式的缺点,并要求使用基本算术技能解决复杂的非线性推理。我们的研究结果表明,Prolog的集成使得大型语言模型能够在NLR数据集上实现高性能,在此任务上,甚至包括GPT4在内的最先进语言模型都无法通过纯文本解决。
Jul, 2024
该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现,研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。
Aug, 2024
本研究旨在提升轻量级大型语言模型在数学推理任务中的表现,填补了系统化测量数学逻辑相似性的空白。通过引入一种新颖的自动筛选机制来构建参考问题集,该方法结合了语义和逻辑相似性,在SVAMP数据集上实现了15.8%的性能提升,并在GSM8K数据集上取得了21.5%的改进,为未来的推理研究提供了重要的见解。
Aug, 2024
本研究解决了大型语言模型在数学问题求解中表现不佳的问题。提出的BEATS方法通过设计新的提示,指导模型逐步推导并生成答案,同时引入了后验证技术以验证生成答案的正确性,并应用了修剪树搜索以优化搜索时间。研究表明,该方法显著提高了Qwen2-7b-Instruct在MATH基准上的得分,从36.94提升至61.52,表现超过了GPT4的42.5。
Sep, 2024
本研究针对大型语言模型在解决数学问题时的性能不足,提出了一种新颖的方法BEATS,该方法通过设计新的提示引导模型迭代重写并基于前一步生成答案,同时引入反向验证技术检查答案的正确性。此外,采用剪枝树搜索优化搜索时间,显著提升了Qwen2-7b-Instruct在MATH基准测试中的分数。该方法为改善LLMs数学能力提供了有效的解决方案。
Sep, 2024
本文针对现有模型在长文本中数学推理能力评估的缺失,提出了MathHay这一自动化基准测试。该基准不仅评估信息检索能力,还要求模型具备复杂的数学推理能力。实验结果表明,即使是表现最好的模型,Gemini-1.5-Pro-002,在长文本数学推理方面仅达到51.26%的准确率,显示出该领域仍有很大的改进空间。
Oct, 2024
本研究解决了大语言模型在复杂任务(如数学和代码推理)中一致性和准确性不足的问题。通过生成多个推理路径并引入验证器评估和排序输出的正确性,提出了一种新的协作方法结合了逐步推理和可执行程序推理。实验结果表明,该方法显著提升了推理验证的准确性和可靠性,潜在地推动了现有大语言模型的性能。
Oct, 2024