BriefGPT.xyz
Ask
alpha
关键词
bellman optimality operator
搜索结果 - 1
自我模仿优势学习
该论文提出了一种新的基于 Bellman 最优算子的自我模仿学习方法,可以在离线强化学习中应用于 hard exploration games,以提高性能。
PDF
4 years ago
Prev
Next