ReFT: 强化微调推理

Jan, 2024

ReFT: Reasoning with Reinforced Fine-Tuning

Trung Quoc Luong, Xinbo Zhang, Zhanming Jie, Peng Sun, Xiaoran Jin...

TL;DR通过增强学习和在线增强学习的组合，提出了一种名为 ReFT 的简单而有效的方法来增强大型语言模型在推理中的泛化能力，以数学问题求解为例，通过学习多个标注的推理路径，显著提高了性能。

Abstract

One way to enhance the reasoning capability of large language models (LLMs) is to conduct supervised fine-tuning (SFT) using Chain-of-Thought (CoT) annotations. This approach does not show sufficiently strong gen

large language models supervised fine-tuning chain-of-thought annotations reinforced fine-tuning reasoning paths

发现论文，激发创造

大型语言模型学习数学推理的规模关系

探索大型语言模型中数学推理的挑战，研究预训练损失、监督数据量和增强数据量对监督型语言模型推理性能的影响，发现预训练损失是模型性能的更好指标，应用不同数量的监督数据和拒绝抽样微调来改善模型性能，发现增加数据量与模型性能呈对数线性关系，增加更多不同推理路径的数据样本能进一步改善语言模型的数学推理性能。

Aug, 2023

通过对齐使大型语言模型成为更好的推理者

Reasoning is essential for large language models, and the Alignment Fine-Tuning (AFT) paradigm addresses the Assessment Misalignment problem in fine-tuned models, improving their reasoning abilities by calibrating responses and introducing constraint alignment loss.

Sep, 2023

自我完善指导调优用于对齐语言模型中的推理

我们提出了自我改进指导调整方法，通过引导较小语言模型进行自我改进，以实现对推理能力的进一步发展。此方法通过在大型语言模型提供示范的基础上，将推理能力从较大语言模型传输到较小语言模型，然后使用优化策略使得被指导的模型自我改进能力。在常识与数学推理任务上的结果表明，该方法在领域内外场景均显著优于指导调整方法，并使得较小语言模型与较大语言模型的推理能力逐渐趋于一致。

May, 2024

大型语言模型是推理教师

本研究提出了 Fine-tune-CoT 方法，该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型，从而在较小的模型中实现了大量的推理能力优化。

Dec, 2022

ARES：交替强化学习和监督微调，通过多样化的 AI 反馈提升多模态链式思维推理

大型多模型 (LMMs) 在理解人类指令方面表现出色，并在各种任务中展现出显著的结果。通过强化学习来自人类反馈 (RLHF) 和人工智能反馈 (RLAIF) 进一步完善了 LLMs，通过将其与特定偏好对齐。我们提出了一种两阶段算法 AREAS，交替使用强化学习和监督微调。我们请求 Teacher 对每个句子对于解决问题的贡献进行评分，这种句子级别的反馈使得我们可以考虑个别有价值的段落，为强化学习过程提供更精细的奖励。然后，我们要求 Teacher 在强化学习阶段纠正错误的推理。我们通过 SFT 对 RL 细调的模型进行稳定，以纠正重复单词和不完整句子等错误。我们对多模型数据集 ScienceQA 和 A-OKVQA 进行实验，以证明我们提议的有效性。ARES 合理推理与 GPT-4o 进行评估时的基准模型相比，获胜率约为 70%。此外，我们观察到改进的合理推理导致多模态数据集的推理答案准确性平均提高了 2.5%。

Jun, 2024

通过潜变量推断训练思维链

大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释，一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而，我们提出了一种微调策略，尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然，大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题，并采用一种新颖的控制变量技术，随着模型的改进，将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务，我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。

Nov, 2023

自主探索避免陷阱：以细粒度奖励提升语言模型的推理能力

通过自主探索（Self-Explore）的方法，研究自动增强规划模型（LLMs）的推理能力，并与监督式微调相比，在 GSM8K 和 MATH 测试集上分别平均取得 11.57％和 2.89％的改进。

Apr, 2024

优化语言模型的推理能力的弱监督方法

利用自我强化机制提升大型语言模型（LLMs）的推理能力，并通过一个弱监督基准测试集 extsc {PuzzleBen}，含有 25,147 个复杂问题以及人工生成的解释，展示了利用较少的监督数据加强 LLMs 推理能力的有效方法。

May, 2024

直觉微调：将 SFT 和 RLHF 统一为单一流程

Supervised Fine-Tuning (SFT) 和 Reinforcement Learning from Human Feedback (RLHF) 是增强语言模型（LMs）能力的两个基本过程，它们可以更好地与人类偏好相一致，然而当前常见的做法是简单地按顺序应用它们，而没有统一它们的优化目标，导致在适应不同目标之间存在权衡，并忽视了用两者的长处弥合这个范式差距的机会。为了统一理解，我们在马尔可夫决策过程（MDP）框架中通过两个子过程 —— 偏好估计和转移优化来解释了 SFT 和 RLHF。通过这种建模方式，我们发现 SFT 只是 RLHF 的一个特殊情况，其估计和优化能力较差。因此，SFT 高估了模型的能力，导致优化效果不佳。基于这个观点，我们引入了直观微调（IFT）将 SFT 和 RLHF 集成为一个单一过程。IFT 通过一个时间残差连接捕捉 LMs 对整个答案的直观感知，同时使用与 SFT 相同数量的非偏好标记数据和一个单一策略。我们的实验证明，IFT 在几个任务上，特别是那些需要生成、推理和遵循事实能力的任务上，表现出与 SFT 和一些典型的对齐方法相当甚至更优的性能。一个可解释的 Frozen Lake 游戏进一步验证了 IFT 的有效性。

May, 2024

训练代码大型语言模型时，揭示监督微调和强化学习之间的相关性

通过综合消融研究，我们发现：（1）原子函数和合成函数对于 SFT 的泛化至关重要，仅少量合成函数即可；（2）通过 RL，即使使用相同的训练提示，可以极大增强 SFT 对目标领域的泛化能力；（3）从头开始训练 RL 可以减轻 SFT 阶段引入的过拟合问题。

Jun, 2024