BriefGPT.xyz
大模型
Ask
alpha
关键词
extrinsic rewards
搜索结果 - 2
RLeXplore: 加速内在动机驱动的强化学习研究
在复杂环境中,由于设计和注释的高人力成本,外部奖励通常无法满足需求,这强调了内在奖励的必要性,通过提供辅助和密集的信号使代理能够无监督学习。本研究引入了一个统一的、高度模块化且可插拔的框架 RLeXplore,提供了八种先进内在奖励算法的可
→
PDF
a month ago
CLUE: 离线强化学习的校准潜在指导
本文提出了一种基于专家数据提取内在奖励的方法,该方法利用了 Calibrated Latent Guidance (CLUE) 来消除离线 RL 中需要手动指定外部奖励的步骤,并在不同的离线 RL 任务中取得了良好效果。
PDF
a year ago
Prev
Next