在线和离线配准算法之间性能差距的理解
在线学习对于语言模型的对齐与优化是至关重要的,本文提出了一种基于双层优化的在线对齐方法,并通过探索回应和调节偏好标签来迭代生成新样本和改进模型对齐效果,以实现自我提升和广义化先前的在线学习方法。这种方法相比于现有的迭代在线学习方法,在开源数据集上显著提高了对齐性能,并具有极小的计算开销。
Jun, 2024
该研究探讨了将大型语言模型与离线喜好数据进行对齐的挑战,在特别关注强化学习从人类反馈中对齐的条件下。我们提出了一个新的离线偏好优化方法 SPAC,它通过自我对战来实现,灵感来自离线强化学习领域的平均悲观技术,将是第一个可证明且可扩展用于大规模应用的 LLM 对齐方法。我们在一款具有 Open LLM Leaderboard 评估的 7B Mistral 模型上对其收敛性进行了理论分析,并展示了其具有竞争性的实证性能。
Jun, 2024
研究生成模型与强化学习从人类反馈中的对齐过程的理论框架,考虑了逆 KL 正则化情境赌博机在此方面的应用,通过离线和在线设置的理论属性研究以及与现有实际对齐算法的联系,为未来算法设计提供新的工具和见解。
Dec, 2023
采用有限臂线性赌博机模型作为在线学习的典型模型,通过建模生成数据的专家的能力,我们提出 warmPref-PS 算法,利用带有噪声偏好反馈的离线数据集实现在线学习,并在理论和实证评估中得到支持。
Jun, 2024
RRHF 是一种新的学习范式,通过排名损失函数对生成的回答进行评分,从而能够有效地将语言模型输出与人类偏好对齐,而且只需要 1 到 2 个模型进行调整,效果与微调相当。
Apr, 2023
本文提出了一种名为 Left-over Lunch RL (LoL-RL) 的简单算法,通过离线策略梯度学习语言生成任务作为一步强化学习游戏来微调语言模型以优化任意分类器或人为定义的效用函数,并且通过使用多个奖励模型的不同大小的模型和多个任务的实验表明,使用 LoL-RL 训练的模型可以始终优于最佳监督学习模型。
May, 2023
使用在线 AI 反馈(OAIF)方法,通过模型间的直接对齐以及获得在线反馈,我们证明其在几项任务中均优于离线的 DAP 和 RLHF 方法,并且还展示了 OAIF 方法中的反馈是易于控制的。
Feb, 2024
离线策略学习旨在利用现有的轨迹数据集来学习决策策略,而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块,从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明,在 72 个不平衡数据集、D4RL 数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。
Oct, 2023
离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决,本文提出了两种使用该框架的离线强化学习算法,并通过模拟实验展示了其优越性能。
Oct, 2023