BriefGPT.xyz
Ask
alpha
关键词
deterministic behavior policy
搜索结果 - 1
NeoRL: 一种近似于真实环境的离线强化学习基准
本文提出了一个名为 NeoRL 的近实际场景离线强化学习基准,对现有的离线 RL 算法进行了评估,并提出了应该将策略的性能与确定性行为策略版本相比较,从而在现实中实现 RL 技术应用的验证和部署。
PDF
3 years ago
Prev
Next