通过最优策略拟合进行连续学习的人类偏好

Oct, 2023

通过最优策略拟合进行连续学习的人类偏好

COPF: Continual Learning Human Preference through Optimal Policy Fitting

Han Zhang, Lin Gui, Yuanzhao Zhai, Hui Wang, Yu Lei...

TL;DR继续优化策略拟合（COPF）是一种通过蒙特卡洛方法估计最优策略序列，并不断使用函数正则化拟合策略的新方法，与传统强化学习相比，COPF 在不同任务和领域中与人类偏好的一致性方面表现更好，同时又具备从无标签数据中学习的能力，使其在连续偏好学习方面具有灵活性。

Abstract

The technique of reinforcement learning from human feedback (RLHF) is a commonly employed method to improve pre-trained language models (LM), enhancing their ability to conform to human preferences. Nevertheless,

reinforcement learning from human feedback language models continual optimal policy fitting monte carlo method preference learning

发现论文，激发创造

COPR: 通过最佳策略规范实现连续人类偏好学习

基于连续优化策略正则化（COPR）方法，该研究提出了一种从人类反馈进行强化学习的方法，用于改进大型语言模型与人类偏好的一致性，并通过使用抽样分布和正则化限制来克服连续学习中的挑战，防止历史偏好的灾难性遗忘，并在实验证明 COPR 在奖励评估、GPT-4 评估和人类评估方面优于强对照模型，并在不同的连续学习设置下验证了 COPR 的鲁棒性。

Feb, 2024

对比偏好学习：无需 RL 的人类反馈学习

使用最大熵原理，引入了一种从人类反馈中优化行为的新型算法 Contrastive Preference Learning (CPL)，该算法能够在不学习奖励函数的情况下，通过偏好学习最优策略，克服了优化挑战并能应用于任意 MDPs 环境。

Oct, 2023

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

RRHF：无需痛苦排名回应，将语言模型与人类反馈对齐

RRHF 是一种新的学习范式，通过排名损失函数对生成的回答进行评分，从而能够有效地将语言模型输出与人类偏好对齐，而且只需要 1 到 2 个模型进行调整，效果与微调相当。

Apr, 2023

回归基础：重新评估 LLMs 中学习人类反馈的 REINFORCE 样式优化

通过改进 Proximal Policy Optimization，使用 REINFORCE-style optimization 的方法在低成本情况下实现在线强化学习优化，从而提高 AI 对人类反馈的 RLHF 的性能。

Feb, 2024

多轮强化学习从人类偏好反馈中学习

本研究通过发展新的强化学习方法，解决了基于喜好反馈的多轮对话中规划和多轮互动问题，通过实验证明该算法在教育对话环境中超越了基线模型，同时在含有明确奖励的环境中也能达到基于奖励强化学习模型的性能

May, 2024

强化学习与人类反馈的自适应偏好缩放

提出了一种新的自适应偏好损失函数，基于分布均衡优化，用于解决偏好强度不确定性问题，通过引入自适应缩放参数增加了对奖励函数的灵活性。实验证明，该方法不仅提升了策略性能，还使奖励函数的选择更加贴合策略优化，简化了超参数调整过程。

Jun, 2024

联合演示与偏好学习改善与人类反馈的政策对齐

将人类偏好和价值观进行对齐是构建当代基础模型和具身化人工智能的重要需求。本文提出了一种名为 “AIHF（Alignment with Integrated Human Feedback）” 的单阶段方法，能够集成人类偏好和演示来训练奖励模型和策略，并通过大量实验证明该方法在语言模型和机器人控制问题的对齐中表现优于传统的强化学习算法如 RLHF 和 DPO，特别是当高质量偏好数据的数量相对有限时。

Jun, 2024

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线 RL 方法更稳定的模型训练和更高的性能。

Aug, 2023

纳什学习来自人类反馈

通过带有人类反馈的强化学习，我们引入一种新的方法来提升大型语言模型的性能，通过学习人类偏好并优化策略，实现与人类偏好的协调。

Dec, 2023