不要忘记奖励值：基于值的校准实现语言模型的对齐

Feb, 2024

不要忘记奖励值：基于值的校准实现语言模型的对齐

Don't Forget Your Reward Values: Language Model Alignment via Value-based Calibration

Xin Mao, Feng-Lin Li, Huimin Xu, Wei Zhang, Anh Tuan Luu

TL;DR通过提出一种新的基于价值的校准方法，本文研究了强化学习从人类反馈中提高大型语言模型生成质量的问题，并通过实验结果证明该方法在不同环境中具有出色的泛化能力、稳定性和鲁棒性。

Abstract

While reinforcement learning from human feedback (RLHF) significantly enhances the generation quality of large language models (LLMs), recent studies have raised concerns regarding the complexity and instability

reinforcement learning from human feedback proximal policy optimization order-based calibration methods value-based calibration large language models

发现论文，激发创造

成对近邻策略优化：利用相对反馈进行 LLM 对齐

通过相对反馈，本文介绍了一种更简单而有效的方法，以相对反馈将大型语言模型对齐到人类的偏好。

Sep, 2023

回归基础：重新评估 LLMs 中学习人类反馈的 REINFORCE 样式优化

通过改进 Proximal Policy Optimization，使用 REINFORCE-style optimization 的方法在低成本情况下实现在线强化学习优化，从而提高 AI 对人类反馈的 RLHF 的性能。

Feb, 2024

增值取样用于语言模型对齐和个性化

通过价值增强抽样（VAS）的奖励优化框架，不需要共同训练策略和值函数的情况下，最大化不同奖励函数，相较于现有基线模型，在标准基准测试中不仅优于 PPO 和 DPO，而且与 Best-of-128 相比具有更低的推理成本，从而实现了优化的稳定性，并能适应仅作为 API 提供的 LLMs（例如 ChatGPT），同时为对齐的个性化 LLMs 的未来铺平道路。

May, 2024

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

人体对齐的偏好排名优化

提出了一种名为 Preference Ranking Optimization（PRO）的新型策略，旨在通过将人类偏好排名直接应用于语言模型生成的响应的概率排名，实现语言模型（LLMs）的与人类价值观的对齐。研究结果表明，PRO 优于现有的对齐算法，并通过基于自动化、奖励、GPT-4 和人类评估的实验来达到与 ChatGPT 和人类响应相当的结果。此外，作者还证明了长、多样化、高质量的偏好排名序列可以稳定提高将 LLMs 与人对其的对齐性能。

Jun, 2023

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线 RL 方法更稳定的模型训练和更高的性能。

Aug, 2023

利用优势引导的策略对齐对语言模型进行微调

本研究提出了一种新算法 APA，利用估计的优势建立基于平方误差损失函数的算法进行优化，证明在使用单独的奖励模型作为评估器时，APA 明显优于 PPO，并且在控制模型初始策略与改进性能之间提供更稳定的形式控制，避免了模式崩溃、不稳定性和样本效率低等问题。

Jun, 2023

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

大型语言模型中 RLHF 的秘密第一部分: PPO

大型语言模型对人工通用智能发展提出了一个使命，与人类对齐是其最重要的挑战，强化学习与人类反馈是支撑此追求的关键技术，并探讨了在 PPO 算法中影响策略代理训练的部件，并提出了 PPO-max 增强版本以提高策略模型的训练稳定性，总结了与 SFT 模型和 ChatGPT 相比的 RLHF 能力的全面分析。

Jul, 2023

线性对齐：无需调整和反馈的人类偏好对齐的闭式解法

基于语言模型的人工智能助手的成功依赖于从人类反馈中进行强化学习，而传统的对齐算法受到复杂的注释和训练要求的限制。本文引入了一种名为线性对齐的算法，通过一次推断步骤将语言模型与人类偏好对齐，消除了对数据注释和模型训练的依赖。线性对齐通过一种新的参数化方法对策略优化进行了改进，使得能够按照差异约束条件提取最优策略，并直接估计对齐的回应。广泛的实验表明，线性对齐显著提高了语言模型对齐在不同场景下的性能和效率。

Jan, 2024