BriefGPT.xyz
Ask
alpha
关键词
preference-based reinforcement learning
搜索结果 - 22
ICLR
SURF:数据增强的半监督奖励学习用于反馈高效偏好强化学习
本文提出 SURF,一种半监督的奖励学习框架,它使用大量的无标签样本和数据增强。实验表明,该方法显著提高了各种运动和机器人操作任务的最先进基于偏好的方法的反馈效率。
PDF
2 years ago
MM
倾向性强化学习的竞争后验抽样
使用基于偏好的后验采样和贝叶斯方法解决了强化学习中的信用指派问题,提出了一种新的算法 DUELING POSTERIOR SAMPLING(DPS),并且给出了第一个关于基于偏好的 RL 的后验保证率。
PDF
5 years ago
Prev
Next