S-EPOA：通过技能驱动的基于偏好的强化学习克服注释不可分性

Aug, 2024

S-EPOA：通过技能驱动的基于偏好的强化学习克服注释不可分性

S-EPOA: Overcoming the Indivisibility of Annotations with Skill-Driven Preference-Based Reinforcement Learning

Ni Mu, Yao Luan, Yiqin Yang, Qing-shan Jia

TL;DR本研究解决了传统基于偏好的强化学习中注释不可分性的问题。提出的技能增强偏好优化算法（S-EPOA）通过将技能机制整合到偏好学习框架中，从而改进了学习效率和鲁棒性。实验结果表明，与传统方法相比，S-EPOA在机器人操控和行走等任务上具有显著优势。

Abstract

Preference-based Reinforcement Learning (PbRL) stands out by utilizing human preferences as a direct reward signal, eliminating the need for intricate reward engineering. However, despite its potential, traditional PbRL methods are often constrained by the indivisibility of annotations

发现论文，激发创造

B-Pref: 基于好恶好评学习的加强学习基准测试

本研究论文提出了一种基于偏好的强化学习基准测试框架 B-Pref，该框架使用了一种新的评估指标，旨在衡量算法的性能和鲁棒性，从而更为系统地研究基于偏好的强化学习算法的设计选择和决策。

Nov, 2021

SURF：数据增强的半监督奖励学习用于反馈高效偏好强化学习

本文提出 SURF，一种半监督的奖励学习框架，它使用大量的无标签样本和数据增强。实验表明，该方法显著提高了各种运动和机器人操作任务的最先进基于偏好的方法的反馈效率。

Mar, 2022

基于偏好的强化学习中的探索奖励不确定性

本文提出了基于学习奖励值的新颖探索方法来解决当前偏好型强化学习算法中人类反馈低效的问题，并在MetaWorld基准测试的复杂机器人操作任务中证明了其有效性。

May, 2022

带偏好的受控多样性：朝着学习多样化的技能集合

本文提出了一种由人类辅助训练的学习机制——“受控多样性和偏好学习”，以确保学到的技能不仅是多样的，而且符合人类期望，在2D导航和Mujoco环境中得到了验证。

Mar, 2023

对比偏好学习：无需 RL 的人类反馈学习

使用最大熵原理，引入了一种从人类反馈中优化行为的新型算法Contrastive Preference Learning (CPL)，该算法能够在不学习奖励函数的情况下，通过偏好学习最优策略，克服了优化挑战并能应用于任意MDPs环境。

Oct, 2023

RIME：基于噪声偏好的鲁棒化基于优先级的强化学习

通过使用人类偏好作为奖励信号，基于偏好的强化学习（PbRL）避免了对奖励设计的需求。然而，当前的PbRL算法过于依赖领域专家的高质量反馈，导致鲁棒性不足。本文提出RIME，一种从嘈杂偏好中有效学习奖励的鲁棒PbRL算法。我们的方法结合了基于样本选择的鉴别器，动态过滤去噪偏好以进行鲁棒训练。为了减轻由于错误选择引起的积累误差，我们建议热启动奖励模型，从而在从预训练到在线训练的过渡中弥合性能差距。我们在机器人操作和运动任务上的实验证明，RIME显著提高了当前最先进的PbRL方法的鲁棒性。消融研究进一步证明了热启动对于有限反馈情况下的鲁棒性和反馈效率都至关重要。

Feb, 2024

具有动力学感知奖励的样本高效偏好强化学习

通过从代理行为的二进制反馈中学习到的动态感知奖励函数，我们展示了动态感知奖励函数如何使得偏好基础增强学习的采样效率提高一个数量级。通过迭代学习动态感知的状态-行动表示并从中引导基于偏好的奖励函数，我们实现了更快的策略学习和更好的最终策略性能。例如，在四足行走、行走者行走和猎豹奔跑中，在50个偏好标签的情况下，我们实现了与现有方法500个偏好标签相同的性能，并恢复了83%和66%的地面真实奖励策略性能，而它们分别只有38%和21%。这些性能提升证明了明确学习动态感知奖励模型的好处。

Feb, 2024

超越人类偏好：通过LLMs探索强化学习轨迹的评估与改进

基于偏好的强化学习利用大型语言模型生成自动偏好数据，并通过重构奖励函数来优化强化学习训练，在复杂环境中加速收敛并提高效果。

Jun, 2024

基于偏好的强化学习进展：综述

该研究解决了强化学习中对准确设计奖励函数的依赖问题，通过利用人类偏好作为反馈，提升学习效率。论文提出了一个统一的基于偏好的强化学习框架，并详细审视了理论保证及实际应用，指出了当前研究的局限性及未来研究方向。该工作有助于推动基于偏好的强化学习在复杂任务中的应用及发展。

Aug, 2024

多类型偏好学习：利用均等偏好的偏好基础强化学习

本研究解决了现有偏好基础强化学习(PBRL)方法忽视教师可能选择均等偏好的问题，导致对任务理解的不足。通过引入均等偏好学习任务并提出新方法多类型偏好学习（MTPL），同时从均等偏好和显性偏好中学习，从而提高对教师反馈的理解和反馈效率。实验结果表明，MTPL使PBRL在多个人类反馈任务中表现出更强的学习能力。

Sep, 2024