BriefGPT.xyz
Ask
alpha
关键词
on-policy q estimate
搜索结果 - 1
无需离线策略评估的离线强化学习
本文探讨了离线强化学习领域中的一个策略改进方法,使用 on-policy Q 估计的行为策略,通过一步有限制 / 正则化的策略改进,能在 D4RL 基准测试中表现优于迭代算法。我们认为,迭代算法的性能较差是由于进行 off-policy 评
→
PDF
3 years ago
Prev
Next