BriefGPT.xyz
Ask
alpha
关键词
trajectory-space
搜索结果 - 1
轨迹空间平滑的学习引导奖励
该论文介绍了一种使用轨迹空间平滑来学习指导奖励的算法,并阐明了该算法在解决强化学习中长期时序信用分配问题上的优越性。
PDF
4 years ago
Prev
Next