在线和离线配准算法之间性能差距的理解

May, 2024

在线和离线配准算法之间性能差距的理解

Understanding the performance gap between online and offline alignment algorithms

Yunhao Tang, Daniel Zhaohan Guo, Zeyu Zheng, Daniele Calandriello, Yuan Cao...

TL;DR通过一系列实验证明在线方法优于离线方法，且离线算法训练的策略对生成任务更差，而在线算法对成对分类较差，提示在线采样在人工智能对齐中扮演了关键角色，并暗示了离线对齐算法的一些基本挑战。

Abstract

reinforcement learning from human feedback (RLHF) is the canonical framework for large language model alignment. However, rising popularity in offline alignment algorithms challenge the need for →

reinforcement learning human feedback offline alignment on-policy sampling ai alignment

发现论文，激发创造

SAIL：大型语言模型的自我改进高效在线对齐

在线学习对于语言模型的对齐与优化是至关重要的，本文提出了一种基于双层优化的在线对齐方法，并通过探索回应和调节偏好标签来迭代生成新样本和改进模型对齐效果，以实现自我提升和广义化先前的在线学习方法。这种方法相比于现有的迭代在线学习方法，在开源数据集上显著提高了对齐性能，并具有极小的计算开销。

Jun, 2024

自博弈对抗评论家：可证明和可扩展的离线对齐语言模型

该研究探讨了将大型语言模型与离线喜好数据进行对齐的挑战，在特别关注强化学习从人类反馈中对齐的条件下。我们提出了一个新的离线偏好优化方法 SPAC，它通过自我对战来实现，灵感来自离线强化学习领域的平均悲观技术，将是第一个可证明且可扩展用于大规模应用的 LLM 对齐方法。我们在一款具有 Open LLM Leaderboard 评估的 7B Mistral 模型上对其收敛性进行了理论分析，并展示了其具有竞争性的实证性能。

Jun, 2024

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线 RL 方法更稳定的模型训练和更高的性能。

Aug, 2023

从人类反馈中进行吉布斯采样：基于可证明的 KL 约束的 RLHF 框架

研究生成模型与强化学习从人类反馈中的对齐过程的理论框架，考虑了逆 KL 正则化情境赌博机在此方面的应用，通过离线和在线设置的理论属性研究以及与现有实际对齐算法的联系，为未来算法设计提供新的工具和见解。

Dec, 2023

在线强盗学习伴随离线偏好数据

采用有限臂线性赌博机模型作为在线学习的典型模型，通过建模生成数据的专家的能力，我们提出 warmPref-PS 算法，利用带有噪声偏好反馈的离线数据集实现在线学习，并在理论和实证评估中得到支持。

Jun, 2024

RRHF：无需痛苦排名回应，将语言模型与人类反馈对齐

RRHF 是一种新的学习范式，通过排名损失函数对生成的回答进行评分，从而能够有效地将语言模型输出与人类偏好对齐，而且只需要 1 到 2 个模型进行调整，效果与微调相当。

Apr, 2023

基于优势离线策略梯度的语言模型优化

本文提出了一种名为 Left-over Lunch RL (LoL-RL) 的简单算法，通过离线策略梯度学习语言生成任务作为一步强化学习游戏来微调语言模型以优化任意分类器或人为定义的效用函数，并且通过使用多个奖励模型的不同大小的模型和多个任务的实验表明，使用 LoL-RL 训练的模型可以始终优于最佳监督学习模型。

May, 2023

在线 AI 反馈直接语言模型对齐

使用在线 AI 反馈（OAIF）方法，通过模型间的直接对齐以及获得在线反馈，我们证明其在几项任务中均优于离线的 DAP 和 RLHF 方法，并且还展示了 OAIF 方法中的反馈是易于控制的。

Feb, 2024

超越均匀采样：利用不平衡数据集的离线强化学习

离线策略学习旨在利用现有的轨迹数据集来学习决策策略，而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块，从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明，在 72 个不平衡数据集、D4RL 数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。

Oct, 2023

建立分布鲁棒学习和离线强化学习的桥梁：缓解分布偏移和部分数据覆盖的方法

离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决，本文提出了两种使用该框架的离线强化学习算法，并通过模拟实验展示了其优越性能。

Oct, 2023