BriefGPT.xyz
Ask
alpha
关键词
continuous action domain
搜索结果 - 1
无需重要性采样的 Actor-Critic 方法的离线校正
本文研究了基于离线数据的深度强化学习算法,提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力,并且证明了该方法可以实现安全的离线学习。实验证明,该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。
PDF
2 years ago
Prev
Next