BriefGPT.xyz
Ask
alpha
关键词
auxiliary reward generation
搜索结果 - 1
辅助奖励生成与过渡距离表示学习
通过度量状态之间的转换距离,我们提出了一种新颖的表示学习方法,用于自动生成辅助奖励,以促进增强学习的效率和收敛稳定性。
PDF
5 months ago
Prev
Next