线性对齐：无需调整和反馈的人类偏好对齐的闭式解法

Jan, 2024

线性对齐：无需调整和反馈的人类偏好对齐的闭式解法

Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback

Songyang Gao, Qiming Ge, Wei Shen, Shihan Dou, Junjie Ye...

TL;DR基于语言模型的人工智能助手的成功依赖于从人类反馈中进行强化学习，而传统的对齐算法受到复杂的注释和训练要求的限制。本文引入了一种名为线性对齐的算法，通过一次推断步骤将语言模型与人类偏好对齐，消除了对数据注释和模型训练的依赖。线性对齐通过一种新的参数化方法对策略优化进行了改进，使得能够按照差异约束条件提取最优策略，并直接估计对齐的回应。广泛的实验表明，线性对齐显著提高了语言模型对齐在不同场景下的性能和效率。

Abstract

The success of ai assistants based on language models (LLMs) hinges on reinforcement learning from human feedback (RLHF) to comprehend and

ai assistants language models reinforcement learning from human feedback linear alignment policy optimization

发现论文，激发创造

使用强化学习对语言模型进行私密对齐

通过强化学习和差分隐私，研究大型语言模型的隐私保护对齐，实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。

Oct, 2023

将语言模型与人类偏好对齐

在本研究论文中，作者通过探索多种方法来与人类偏好对齐语言模型，包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等，从而展现了与强化学习反馈不同且互补的对齐技术的潜力。

Apr, 2024

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

通过群不变学习提高对人类偏好的对齐的泛化能力

通过增强学习技术，我们提出了一种新方法来训练基于语言模型的 AI 助手，在不同数据组和领域之间实现一致的策略，并提高训练稳定性和模型泛化能力。

Oct, 2023

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线 RL 方法更稳定的模型训练和更高的性能。

Aug, 2023

SAIL：大型语言模型的自我改进高效在线对齐

在线学习对于语言模型的对齐与优化是至关重要的，本文提出了一种基于双层优化的在线对齐方法，并通过探索回应和调节偏好标签来迭代生成新样本和改进模型对齐效果，以实现自我提升和广义化先前的在线学习方法。这种方法相比于现有的迭代在线学习方法，在开源数据集上显著提高了对齐性能，并具有极小的计算开销。

Jun, 2024

联合演示与偏好学习改善与人类反馈的政策对齐

将人类偏好和价值观进行对齐是构建当代基础模型和具身化人工智能的重要需求。本文提出了一种名为 “AIHF（Alignment with Integrated Human Feedback）” 的单阶段方法，能够集成人类偏好和演示来训练奖励模型和策略，并通过大量实验证明该方法在语言模型和机器人控制问题的对齐中表现优于传统的强化学习算法如 RLHF 和 DPO，特别是当高质量偏好数据的数量相对有限时。

Jun, 2024

真实为贵：将大型语言模型与在线人类行为对齐

本文提出了一种对齐框架，名为人类行为强化学习（RLHB），通过直接利用真实的在线人类行为来对齐大型语言模型，并采用生成对抗框架训练生成器按照预期的人类行为进行回复，鉴别器则验证查询、回复和人类行为三元组是否来自真实的在线环境，在自然语言形式的行为模型和多模型联合训练机制的支持下，实现了积极可持续的在线对齐。通过人工和自动评估，实验证实了本文方法的有效性。

May, 2024

个性化汤：通过事后参数合并实现个性化大型语言模型对齐

通过将 Reinforcement Learning from Human Feedback (RLHF) 转变为 Reinforcement Learning from Personalized Human Feedback (RLPHF)，通过多目标强化学习问题的建模，可以实现 LLMs 与个人偏好的个性化对齐。通过将偏好维度进行分解，并在分布式环境中独立有效地进行训练，最后通过参数合并有效地实现多维度的个性化对齐。

Oct, 2023