自博弈对抗评论家：可证明和可扩展的离线对齐语言模型

Jun, 2024

自博弈对抗评论家：可证明和可扩展的离线对齐语言模型

Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models

Xiang Ji, Sanjeev Kulkarni, Mengdi Wang, Tengyang Xie

TL;DR该研究探讨了将大型语言模型与离线喜好数据进行对齐的挑战，在特别关注强化学习从人类反馈中对齐的条件下。我们提出了一个新的离线偏好优化方法 SPAC，它通过自我对战来实现，灵感来自离线强化学习领域的平均悲观技术，将是第一个可证明且可扩展用于大规模应用的 LLM 对齐方法。我们在一款具有 Open LLM Leaderboard 评估的 7B Mistral 模型上对其收敛性进行了理论分析，并展示了其具有竞争性的实证性能。

Abstract

This work studies the challenge of aligning large language models (LLMs) with offline preference data. We focus on alignment by Reinforcement Learning from Human Feedback (RLHF) in particular. While popular prefe

large language models alignment reinforcement learning from human feedback offline preference optimization spac

发现论文，激发创造

SAIL：大型语言模型的自我改进高效在线对齐

在线学习对于语言模型的对齐与优化是至关重要的，本文提出了一种基于双层优化的在线对齐方法，并通过探索回应和调节偏好标签来迭代生成新样本和改进模型对齐效果，以实现自我提升和广义化先前的在线学习方法。这种方法相比于现有的迭代在线学习方法，在开源数据集上显著提高了对齐性能，并具有极小的计算开销。

Jun, 2024

语言模型对齐的自我游戏偏好优化

提议了一种基于自对弈的语言模型对齐方法，称为 SPPO，通过迭代策略更新近似求解纳什均衡策略，可以有效提高所选择的响应的对数似然并降低所拒绝响应的对数似然，同时在多个实验中表现优于其他基于对称成对损失的方法。

May, 2024

在线和离线配准算法之间性能差距的理解

通过一系列实验证明在线方法优于离线方法，且离线算法训练的策略对生成任务更差，而在线算法对成对分类较差，提示在线采样在人工智能对齐中扮演了关键角色，并暗示了离线对齐算法的一些基本挑战。

May, 2024

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线 RL 方法更稳定的模型训练和更高的性能。

Aug, 2023

在线自好的语言模型

借助自主生成的响应对和自我评定的偏好强度信息，我们提出了在线自主偏好（OSP）语言模型来学习，展示了利用偏好强度是关键避免过度拟合和增强对准性能。OSP 在两个广泛使用的人类偏好数据集中实现了最先进的对准性能，而且在有限的离线数据和跨领域任务推广方面，OSP 是效率高、稳健性高于主流的在线方法 RLHF 的选择。此外，具有自主偏好能力的 LLM 建立的 OSP 语言模型可以在无需外部监督的情况下高效自我改进。

May, 2024

线性对齐：无需调整和反馈的人类偏好对齐的闭式解法

基于语言模型的人工智能助手的成功依赖于从人类反馈中进行强化学习，而传统的对齐算法受到复杂的注释和训练要求的限制。本文引入了一种名为线性对齐的算法，通过一次推断步骤将语言模型与人类偏好对齐，消除了对数据注释和模型训练的依赖。线性对齐通过一种新的参数化方法对策略优化进行了改进，使得能够按照差异约束条件提取最优策略，并直接估计对齐的回应。广泛的实验表明，线性对齐显著提高了语言模型对齐在不同场景下的性能和效率。

Jan, 2024

使用强化学习对语言模型进行私密对齐

通过强化学习和差分隐私，研究大型语言模型的隐私保护对齐，实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。

Oct, 2023

通过积极查询进行人类反馈强化学习

提出了一种基于主动学习的 RLHF 方法，通过半数查询获得与最先进的 DPO 方法相当的性能。

Feb, 2024

自我探索的语言模型：在线对齐的主动偏好引导

通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM)，比起直接优化偏离分布的模型，SELM 目标减少了无差别的偏好和提高了探索效率。

May, 2024

自我博弈语言模型的正则化研究

本文研究了在自我对抗的语言模型对齐环境中，各种正则化形式的效果。通过将参照策略与基本策略几何混合，我们提出了 KL（Kullback-Leibler）正则化方法以解决 SPIN（自我对抗 fine-tuning）学习阶段的性能不稳定问题，并通过采用虚构博弈的思想来平滑对手策略。我们还通过在 MT-Bench 和 Hugging Face Open LLM Leaderboard 上进行实证研究来验证我们的方法。

Apr, 2024