BriefGPT.xyz
Ask
alpha
关键词
feedback efficiency
搜索结果 - 3
通过对齐的经验估计实现高效的基于偏好的强化学习
PbRL 方法 SEER 通过整合标签平滑和策略规则化技术,提高了反馈效率,取得了显著的性能优势。
PDF
a month ago
通过自适应评分学习提高交互式强化学习的反馈效率
本文提出了一种新的方法,使用由人提供的分数代替成对偏好,在交互式强化学习中提高反馈效率,该方法在机器人运动和操作任务中得到广泛评估,结果表明,该方法可以通过自适应学习从分数中高效学习接近最优策略,而无需像成对偏好学习方法那样需要更少的反馈。
PDF
a year ago
基于偏好的强化学习中的查询策略不匹配
本文介绍了一种通过改变查询选择方案以达到查询与策略对齐,从而提高人类反馈效率的方法,并在详尽的实验中表明了该方法在提高人类反馈效率和 RL 样本效率方面的巨大优势。
PDF
a year ago
Prev
Next