BriefGPT.xyz
Ask
alpha
关键词
reward smoothing
搜索结果 - 1
DreamSmooth: 通过奖励平滑改进基于模型的强化学习
基于模型的强化学习(MBRL)通过生成带有预测奖励的虚拟轨迹来规划动作,以高样本效率地学习复杂行为。我们提出一种简单而有效的奖励平滑方法 DreamSmooth,通过学习预测时间上平滑的奖励,而不是给定时间步的精确奖励。实证结果表明,Dre
→
PDF
8 months ago
Prev
Next