BriefGPT.xyz
Ask
alpha
关键词
popo
搜索结果 - 1
POPO: 悲观离线策略优化
本文主要针对离线强化学习中的价值函数方法,提出了一种名为 POPO 的悲观离线策略优化算法,它学习了一种悲观的价值函数以获取强策略,相比于多个最先进的算法,在高维状态和动作空间中表现出色。
PDF
4 years ago
Prev
Next