Reflect-RL: 用于语言模型的两人在线强化学习微调

Feb, 2024

Reflect-RL: 用于语言模型的两人在线强化学习微调

Reflect-RL: Two-Player Online RL Fine-Tuning for LMs

Runlong Zhou, Simon S. Du, Beibin Li

TL;DR使用在线强化学习引导反射模型辅助多轮交互决策中的预训练语言模型，通过单提示动作枚举和课程学习来提高性能。实验证实了 Reflect-RL 在在线学习中的有效性，并显示其在性能上优于通常的 SFT 和无反射的在线 RL 方法。

Abstract

As language models (LMs) demonstrate their capabilities in various fields, their application to tasks requiring multi-round interactions has become increasingly popular. These tasks usually have complex dynamics,

language models multi-round interactions reinforcement learning online fine-tuning reflect-rl

发现论文，激发创造

通过细粒度自我反思实现强化学习（RLRF）：对齐和改进 LLMs

通过利用细致的反馈基于详细准则来改进 LLMs 的核心能力，我们提出了一种新颖的框架：反思性反馈强化学习。RLRF 采用自我反思机制来系统地探索和改进 LLM 的回答，并通过与有希望的回答一起使用 RL 算法来微调模型。我们在 Just-Eval、Factuality 和数学推理方面的实验证明了 RLRF 在超越表面层调整方面的功效和变革潜力。

Mar, 2024

自我演进的策略优化微调

本研究在大型语言模型（LLMs）对齐方面引入自我演进微调（SEFT），旨在消除对注释样本的需求，同时保持 SFT 的稳定性和效率。通过 SEFT，模型能利用大量未标志的数据进行策略优化。实验结果表明 SEFT 的有效性，并对其相对于现有对齐技术的优势进行了全面分析。

Jun, 2024

直觉微调：将 SFT 和 RLHF 统一为单一流程

Supervised Fine-Tuning (SFT) 和 Reinforcement Learning from Human Feedback (RLHF) 是增强语言模型（LMs）能力的两个基本过程，它们可以更好地与人类偏好相一致，然而当前常见的做法是简单地按顺序应用它们，而没有统一它们的优化目标，导致在适应不同目标之间存在权衡，并忽视了用两者的长处弥合这个范式差距的机会。为了统一理解，我们在马尔可夫决策过程（MDP）框架中通过两个子过程 —— 偏好估计和转移优化来解释了 SFT 和 RLHF。通过这种建模方式，我们发现 SFT 只是 RLHF 的一个特殊情况，其估计和优化能力较差。因此，SFT 高估了模型的能力，导致优化效果不佳。基于这个观点，我们引入了直观微调（IFT）将 SFT 和 RLHF 集成为一个单一过程。IFT 通过一个时间残差连接捕捉 LMs 对整个答案的直观感知，同时使用与 SFT 相同数量的非偏好标记数据和一个单一策略。我们的实验证明，IFT 在几个任务上，特别是那些需要生成、推理和遵循事实能力的任务上，表现出与 SFT 和一些典型的对齐方法相当甚至更优的性能。一个可解释的 Frozen Lake 游戏进一步验证了 IFT 的有效性。

May, 2024

真知源于实践：通过强化学习使 LLMs 与具身环境对齐

通过将大型语言模型（LLMs）作为决策制定代理部署到 RL 中，我们提出了 TWOSOME，这是一个新颖的在线框架，无需准备数据集或环境先验知识，使 LLMs 能够高效地与具体环境进行交互和对齐。在广泛的实验中，我们评估了 TWOSOME 的性能，结果表明 TWOSOME 在经典决策制定环境和模拟家庭环境中均显著提高了样本效率和性能，并展示了优越的一般化能力和原始能力的保持。

Jan, 2024

DUAL-REFLECT：通过双向学习反馈机制增强大型语言模型的反思翻译能力

利用双向学习的自我反思框架来提高翻译任务、增强模型的自我反思能力并改进翻译表现，特别适用于低资源语言对的翻译任务，大大提高了翻译准确性和消除了歧义。

Jun, 2024

ReFT: 强化微调推理

通过增强学习和在线增强学习的组合，提出了一种名为 ReFT 的简单而有效的方法来增强大型语言模型在推理中的泛化能力，以数学问题求解为例，通过学习多个标注的推理路径，显著提高了性能。

Jan, 2024

RLSF: 强化学习来自符号反馈

我们提出了一种名为符号反馈强化学习（RLSF）的新型训练 / 微调范式，旨在增强 LLMs 的推理能力，并通过使用证明等符号工具来提供精确的奖励信号，从而从传统方法中克服了局限性。

May, 2024

Re2LLM：面向会话推荐的反思增强型大型语言模型

提出了一种反思性强化大语言模型（Reflective Reinforcement Large Language Model，Re2LLM）用于会话推荐，通过构建知识库来引导大语言模型（LLM）关注专业知识，以实现更准确的推荐。

Mar, 2024

在线合并优化器用于提升回报和降低税额的对齐

通过在线合并优化器，在人类反馈强化学习中持续调节训练方向，实现大语言模型的高性能表现和对齐奖励的显著提升，同时减小对齐成本。

May, 2024

选择性反思调整：针对 LLM 指导调整的学生选取数据循环

选择性反射微调是一种新型范式，通过结合教师型巨型语言模型的反思和内省以及学生型巨型语言模型的数据选择能力，自动优化现有的指示微调数据，从而生成高质量且与学生模型兼容的指示 - 回答对，提升巨型语言模型微调和自我改进的效率，实现卓越性能的巨型语言模型。

Feb, 2024