BriefGPT.xyz
Ask
alpha
关键词
2ra q-learning
搜索结果 - 1
正则化 Q 学习通过强健平均化
我们提出了一种新的 Q 学习变体,称为 2RA Q 学习,以有原则的方式解决现有 Q 学习方法的一些弱点。我们对最大期望值项提出了鲁棒分布估计器,从而可以精确控制引入的估计偏差水平。分布鲁棒估计器具备闭合解,因此所提出的算法每次迭代的计算成
→
PDF
2 months ago
Prev
Next