Proxy-RLHF: 大规模语言模型中分离生成与对齐的代理模型

Mar, 2024

Proxy-RLHF: 大规模语言模型中分离生成与对齐的代理模型

Proxy-RLHF: Decoupling Generation and Alignment in Large Language Model with Proxy

Yu Zhu, Chuxiong Sun, Wenfei Yang, Wenqiang Wei, Bo Tang...

TL;DR我们介绍了一种代理强化学习方法（Proxy-RLHF），该方法解耦了生成和对齐大型语言模型的过程，以较低的计算成本实现与人类价值观的对齐。

Abstract

reinforcement learning from human feedback (RLHF) is the prevailing approach to ensure large language models (LLMs) align with human values. However, existing RLHF methods require a high →

reinforcement learning from human feedback large language models proxy-rlhf alignment process computational cost

发现论文，激发创造

RRHF：无需痛苦排名回应，将语言模型与人类反馈对齐

RRHF 是一种新的学习范式，通过排名损失函数对生成的回答进行评分，从而能够有效地将语言模型输出与人类偏好对齐，而且只需要 1 到 2 个模型进行调整，效果与微调相当。

Apr, 2023

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线 RL 方法更稳定的模型训练和更高的性能。

Aug, 2023

SAIL：大型语言模型的自我改进高效在线对齐

在线学习对于语言模型的对齐与优化是至关重要的，本文提出了一种基于双层优化的在线对齐方法，并通过探索回应和调节偏好标签来迭代生成新样本和改进模型对齐效果，以实现自我提升和广义化先前的在线学习方法。这种方法相比于现有的迭代在线学习方法，在开源数据集上显著提高了对齐性能，并具有极小的计算开销。

Jun, 2024

使用生成对抗反馈来微调语言模型

研究探讨了使用生成对抗反馈的强化学习（RLGAF）方法，以弥补人类评估者的专业知识和生产力限制并帮助对齐大型语言模型（LLMs）的输出，从而为进一步实现 AI 对准提供了前景。

May, 2023

个性化汤：通过事后参数合并实现个性化大型语言模型对齐

通过将 Reinforcement Learning from Human Feedback (RLHF) 转变为 Reinforcement Learning from Personalized Human Feedback (RLPHF)，通过多目标强化学习问题的建模，可以实现 LLMs 与个人偏好的个性化对齐。通过将偏好维度进行分解，并在分布式环境中独立有效地进行训练，最后通过参数合并有效地实现多维度的个性化对齐。

Oct, 2023

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

ChatGLM-RLHF：大型语言模型与人类反馈的对齐实践

ChatGLM-RLHF 是一种从人类反馈中进行强化学习的系统，通过收集人类偏好数据、训练奖励模型和优化策略等方式，解决了与人类偏好的对齐问题，在大规模训练中稳定奖励方差、实现模型并行性并设计正则化约束以避免灾难性遗忘，通过实验证明在中文对齐任务中与 ChatGLM-SFT 相比，ChatGLM-RLHF 取得了平均 15% 的更多胜利，本研究实践了利用人类偏好与语言模型对齐的方法，并提供了 RLHF 实现中的挑战与解决方案的见解。

Apr, 2024

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

使用强化学习对语言模型进行私密对齐

通过强化学习和差分隐私，研究大型语言模型的隐私保护对齐，实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。

Oct, 2023

大型语言模型中 RLHF 的秘密第一部分: PPO

大型语言模型对人工通用智能发展提出了一个使命，与人类对齐是其最重要的挑战，强化学习与人类反馈是支撑此追求的关键技术，并探讨了在 PPO 算法中影响策略代理训练的部件，并提出了 PPO-max 增强版本以提高策略模型的训练稳定性，总结了与 SFT 模型和 ChatGPT 相比的 RLHF 能力的全面分析。

Jul, 2023