基于偏好引导的强化学习在高效探索中的应用

Jul, 2024

基于偏好引导的强化学习在高效探索中的应用

Preference-Guided Reinforcement Learning for Efficient Exploration

Guojian Wang, Faguo Wu, Xiao Zhang, Tianyuan Chen, Xuyang Chen...

TL;DR通过将人类反馈作为指导，LOPE方法在困难的任务中提高了探索效率，通过最小化首选轨迹和学习策略之间的最大平均偏差距离，我们提供了理论分析来表征LOPE性能提升的边界，并在各种具有挑战性的困难探索环境中展现了比其他最先进方法更好的收敛速度和整体性能。

Abstract

In this paper, we investigate preference-based reinforcement learning (PbRL) that allows reinforcement learning (RL) agents to learn from human feedback. This is particularly valuable when defining a fine-grain reward function is not feasible. However, this approach is inefficient and

发现论文，激发创造

B-Pref: 基于好恶好评学习的加强学习基准测试

本研究论文提出了一种基于偏好的强化学习基准测试框架 B-Pref，该框架使用了一种新的评估指标，旨在衡量算法的性能和鲁棒性，从而更为系统地研究基于偏好的强化学习算法的设计选择和决策。

Nov, 2021

基于偏好的强化学习中的探索奖励不确定性

本文提出了基于学习奖励值的新颖探索方法来解决当前偏好型强化学习算法中人类反馈低效的问题，并在MetaWorld基准测试的复杂机器人操作任务中证明了其有效性。

May, 2022

基于状态扩展的人类偏好强化学习方法

本文提出了一种状态增强技术，利用二元反馈帮助人类进一步了解代理行为来学习奖励模型为强化学习提供更好的支持，并在三种任务领域 Mountain Car、Quadruped-Walk 和 Sweep-Into 中验证了其有效性。

Feb, 2023

深度强化学习基于层次性弱偏好反馈

通过排列的方式学习奖励函数，本研究提出了一个新的强化学习框架-HERON，通过比较轨迹并使用决策树进行优先级排序来训练基于偏好的奖励模型，从而在处理复杂任务时减少了人工成本同时提高了性能。

Sep, 2023

通过对齐的经验估计实现高效的基于偏好的强化学习

PbRL方法SEER通过整合标签平滑和策略规则化技术，提高了反馈效率，取得了显著的性能优势。

May, 2024

超越人类偏好：通过LLMs探索强化学习轨迹的评估与改进

基于偏好的强化学习利用大型语言模型生成自动偏好数据，并通过重构奖励函数来优化强化学习训练，在复杂环境中加速收敛并提高效果。

Jun, 2024

离线基于偏好的强化学习的回顾式偏好学习

提出了回顾性偏好学习 (Hindsight Preference Learning, HPL) 方法，通过建模人类偏好来优化离线数据集中的轨迹片段，利用回顾信息计算每步的奖励，以实现更强大和有利的奖励。

Jul, 2024

深度强化学习中的高效探索：一种新颖的贝叶斯演员-评论家算法

本研究针对深度强化学习（DRL）中探索效率不足的问题，提出了一种新颖的贝叶斯演员-评论家算法，旨在提升环境的有效探索能力。通过理论研究和实证评估，证明该方法在标准基准和先进评估套件上的优越性，预计将为强化学习社区提供重要的工具和基础。

Aug, 2024

基于偏好的强化学习进展：综述

该研究解决了强化学习中对准确设计奖励函数的依赖问题，通过利用人类偏好作为反馈，提升学习效率。论文提出了一个统一的基于偏好的强化学习框架，并详细审视了理论保证及实际应用，指出了当前研究的局限性及未来研究方向。该工作有助于推动基于偏好的强化学习在复杂任务中的应用及发展。

Aug, 2024

多类型偏好学习：利用均等偏好的偏好基础强化学习

本研究解决了现有偏好基础强化学习(PBRL)方法忽视教师可能选择均等偏好的问题，导致对任务理解的不足。通过引入均等偏好学习任务并提出新方法多类型偏好学习（MTPL），同时从均等偏好和显性偏好中学习，从而提高对教师反馈的理解和反馈效率。实验结果表明，MTPL使PBRL在多个人类反馈任务中表现出更强的学习能力。

Sep, 2024