preference-based rl | BriefGPT

关键词preference-based rl

搜索结果 - 6

离线强化学习的偏好调查
利用学习到的环境模型，在完全离线的环境中提出了一种离线基于偏好的强化学习算法 Sim-OPRL，通过模拟轨迹获取偏好反馈，对于超出分布的数据采用悲观方法，对于获取最优策略相关的信息采用乐观方法，提供了关于样本复杂度的理论保证，最后通过在不同
PDF10 days ago
最优奖励标注：连接离线偏好与基于奖励的强化学习
提出了一个通用框架来连接偏好反馈和标量奖励，使得现有的离线 RL 算法能够适应偏好反馈，实验证明该框架加上不同算法可以获得与实际奖励训练相媲美甚至优于离线 PBRL 算法的学习效果。
PDF22 days ago
RLHF 是否比标准 RL 更困难？
这篇文章证明了，对于广泛的偏好模型，我们可以使用现有的算法和技术，直接解决基于偏好的强化学习问题，具有小的或没有额外成本。
PDFa year ago
人在环路强化学习的小样本偏好学习
使用多任务学习来实现基于人类反馈的强化学习，通过将偏好模型训练在以前的任务数据上，我们仅需要很少的查询就可以在 Meta-World 中训练出具有更好效果的机器人策略模型。
PDF2 years ago
ICLR基于偏好的强化学习中的探索奖励不确定性
本文提出了基于学习奖励值的新颖探索方法来解决当前偏好型强化学习算法中人类反馈低效的问题，并在 MetaWorld 基准测试的复杂机器人操作任务中证明了其有效性。
PDF2 years ago
B-Pref: 基于好恶好评学习的加强学习基准测试
本研究论文提出了一种基于偏好的强化学习基准测试框架 B-Pref，该框架使用了一种新的评估指标，旨在衡量算法的性能和鲁棒性，从而更为系统地研究基于偏好的强化学习算法的设计选择和决策。
PDF3 years ago