BriefGPT.xyz
Ask
alpha
关键词
q-values uncertainty
搜索结果 - 1
基于深度模型的强化学习:通过估计不确定性和保守策略优化
这篇论文提出了一种新的基于模型不确定性的政策优化方法 POMBU,通过利用 Q 值的不确定性,可以有效提高渐近性能并提高样本效率,并通过保守的优化算法实现鲁棒性。实验证明,POMBU 在样本效率和渐近性能方面优于现有的最先进的算法,并且相对
→
PDF
5 years ago
Prev
Next