通过轨迹收集和过程奖励合成学习基于规划的推理
本文介绍了基于 Monte Carlo 搜索算法的新型大语言模型推理框架 RAP,利用其上的世界模型进行计划生成和复杂推理。从多个任务测试中,RAP 在效率和准确率上都超过了 Chain-of-Thought 等现有方案。
May, 2023
通过增强大型语言模型的推理能力,我们介绍了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据,将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性,我们结合了结果验证和逐步自我评估,不断更新新生成数据的质量评估。该算法采用直接偏好优化 (DPO) 使用这些新生成的步骤级偏好数据更新语言模型策略。对各种算术和常识推理任务进行的广泛评估表明,我们的方法在准确性方面相比现有模型取得了显著的性能提升。此外,我们的研究还深入探讨了训练和推理计算的权衡关系,为我们的方法如何有效地提高性能提供了见解。
May, 2024
研究论文探讨了在多步推理中利用反馈机制和搜索机制提高模型推理准确性的效果,提出了一种基于奖励模型的启发式贪婪搜索算法,与其他方法相比在数学推理和代码生成任务中表现出更好的结果,并展示了在推理任务中基于奖励模型的方法的鲁棒性。
Oct, 2023
我们引入了一种名为 Step-level Value Preference Optimization (SVPO) 的新算法,它使用蒙特卡洛树搜索(MCTS)自动对多步推理进行步骤级别的偏好注释,并从学习排序的角度训练一个显式值模型来复制隐式奖励模型的行为,从而提高大型语言模型的生成回报响应性能。实验证明,我们的方法在领域内和领域外的数学推理基准测试上达到了最先进的性能。
Jun, 2024
这篇论文提出使用偏好优化方法来提高语言模型的推理性能,通过在思维链中应用这些方法,可以改进语言模型在推理任务中的表现。借助理由追踪数据集,我们提出了两种补充方案:数字损坏和弱语言模型提示。这种方法在 Falcon2-11B 和 Mistral-7B 的 GSM8K、AQuA-RAT 和 ARC 基准测试中提高了准确性,例如在 GSM8K 基准测试中,准确率相对提高了 8.47%,而不需要任何额外的注释。这项工作表明,在推理任务中创建更多的推理追踪数据集将进一步提升语言模型的性能。
Jun, 2024
最近大型语言模型(LLMs)因其执行复杂的推理任务的能力而引起了相当大的关注,但是大部分现有的增强这种能力的方法都过于依赖数据驱动的方法,而忽视了模型推理能力的结构方面。在我们的研究中,我们发现 LLMs 能够很好地处理个别的推理步骤,却在整个推理链上保持一致性方面遇到困难。为了解决这个问题,我们在每个推理步骤的开始引入了 “规划标记”,作为模型的指南。然后,这些标记嵌入与模型的其余参数一起进行微调。我们的方法所需的可训练参数增加微不足道(仅占总参数的 0.001%),可以通过完全微调或更加参数高效的方案来实施。我们通过将其应用于三种不同的 LLMs,并对三个数学问题数据集进行了评估,展示了我们方法的有效性,相对于原始的链式思维微调基准,取得了显著的准确性提升。
Oct, 2023
我们提出了一种新颖的分而治之式蒙特卡洛树搜索(MCTS)算法 OmegaPRM,用于有效地收集高质量的过程监督数据,进一步提高了指导调优的 Gemini Pro 模型在数学推理性能上的成功率,相较于现有方法,我们的方法在财务和计算上都具有成本效益。
Jun, 2024
大型语言模型具有出色的能力来执行需要思考过程的任务,本研究引入了一种新颖且可解释的分析方法,探讨了大型语言模型内部的多跳推理过程,揭示了模型通过简单线性变换来建模组合推理问题的预测过程,并且发现网络的中间层生成高度可解释的嵌入,代表了多跳问题的一组潜在中间答案,这些观察结果揭示了平行推理路径的存在,即使模型缺少解决任务所需的知识,这些结果有助于揭示大型语言模型解决推理任务的策略,并提供了人工智能所能产生的思维过程类型的见解,最后还讨论了认知建模的这些结果的含义。
Jun, 2024
该论文介绍了 AutoRace 和 LLM Reasoners,分别用于评估和实现不同的推理方法,以解决大型语言模型在生成推理链时所面临的挑战。
Apr, 2024
通过建立自我激励学习框架,根据正确性的内在排序,依据奖励模型训练并通过强化学习优化推理能力,本研究的实验证据表明其方法显著提升了模型的推理能力,在部分数据集中甚至超过了 text-davinci-002 模型。
Apr, 2024