填空题:探索和增强 LLM 在数学应用问题中倒向推理的能力
该论文研究了大型语言模型在数学问题推理方面的能力,特别关注符号推理在数值问题中的准确性,并通过自提示的方法提高了符号准确性,为模型提供了简洁可验证的推理能力。
Aug, 2023
通过引入一个包含正确和错误推理步骤的新数据集 MWP-MISTAKE,本研究重点探讨了大型语言模型在检测和纠正推理错误方面的能力,并通过全面的基准测试揭示了目前最先进模型(如 GPT-4o,GPT-4,GPT-3.5Turbo 等)的优点和缺点。此外,我们还发现涉及数据污染和记忆的问题,影响了大型语言模型在实际应用中的可靠性,因此强调了对推理过程进行严格评估的重要性,并提出了提高大型语言模型在数学问题解决中泛化性和鲁棒性的未来方向。
Jun, 2024
提出了一种提示框架,通过添加无关的变量生成数学应用问题的对抗性变体,用于改进大型语言模型在数学应用问题中的性能下降问题。实验证明,对抗性训练实例的微调提高了对抗性数学应用问题的性能,并提高了识别相关数据进行推理的能力。然而,大型语言模型在面对对抗性信息时仍然存在困难,导致性能下降。
May, 2024
通过将大型语言模型与外部符号求解器相结合,我们提出了一种能够将单词问题逐步规范化为一组变量和方程的方法,并使用符号求解器解决问题,相较于 PAL 在解决代数类问题上性能提升了 20%。
Apr, 2023
最近,大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是,它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题,我们引入了一个名为 SearchBench 的新基准测试,其中包含 11 种独特的搜索问题类型,每种问题类型都配备了自动化流程来生成任意数量的实例,并分析 LLM 生成解决方案的可行性、正确性和最优性。我们发现,即使是最先进的 LLM 也无法完全以文本方式解决这些问题,例如 GPT4 只解决了 1.4% 的问题。SearchBench 的问题要求考虑到多个解决路径以及回溯,这对自回归模型构成了重大挑战。指导 LLM 生成解决问题的代码会有所帮助,但是仅有轻微的改进,例如 GPT4 的表现提升到了 11.7%。在这项工作中,我们展示了利用 A * 算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时,它的潜力得到了充分展现,将 GPT-4 的表现提升到了 57% 以上。
Jun, 2024
大型语言模型(LLMs)在解决程序推理问题方面显示出了出色的能力。通过引入 “reasoning in the wild” 任务并使用一个包含详细解决方案的大型策略引导轨迹数据集,我们在更真实的场景中评估了 LLMs 的推理能力,揭示了其存在的关键限制。
Jun, 2024
我们引入了一种新颖的评估范式来评估大型语言模型,这种范式挑战了它们进行元推理。该方法解决了现有的数学问题解决基准测试中存在的关键缺陷,传统上用于评估代理的认知能力。我们的范式将重点从以结果为导向的评估转向更综合的评估,能够有效区分模型之间的认知能力。例如,在我们的基准测试中,GPT-4 的性能比 GPT3-5 准确率高十倍。这种新范式的重要性在于它能够揭示当前基准测试(如 GSM8K)未能发现的语言模型的潜在认知缺陷,这是由于它们的饱和度和在不同推理能力之间缺乏有效区分。我们的综合分析包括来自开源和闭源社区的几个最先进的数学模型,揭示了它们的训练和评估方法的根本缺陷。本文不仅主张在评估 LLMs 时进行范式转变,而且对于关于人工通用智能(AGI)的持续讨论也作出了贡献。通过推广类似于我们的元推理评估方法的采用,我们旨在促进对 LLM 真正认知能力的更准确评估。
Dec, 2023
本文提出了合作推理的预训练语言模型 (CoRe),以类人的推理框架,即系统 1 为生成器,系统 2 为验证器的方式解决数学单词问题,通过几个数学推理数据集的评估,相比于最佳基线方法,取得了相当的改进。
Oct, 2022
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024
通过识别推理路径的最佳集合来确定推理路径增强的能力边界,通过不同类型的数据的最佳集合的混合来累积增强模型的不同能力,以较低的建设成本实现 SOTA 性能,并提供用于鲁棒性测试和教育应用的自动问题生成器。
Feb, 2024