BriefGPT.xyz
Ask
alpha
关键词
imitation-based methods
搜索结果 - 1
一种面向离线强化学习的策略引导仿真方法
该研究提出了一种 Policy-guided Offline RL 算法,该算法在训练时将想法分解为指导策略和执行策略,并通过指导策略来指导执行策略以实现状态组合性。该算法在离线 RL 的标准基准 D4RL 上展示了最高效的性能,并可以通过
→
PDF
2 years ago
Prev
Next