BriefGPT.xyz
Ask
alpha
关键词
conservative ddpg
搜索结果 - 1
保守的 DDPG -- 无需集成的悲观强化学习
DDPG 面临过度估计偏差问题,而传统解决方法涉及到需要大量计算资源的基于集成的方法或难以理解和实现的复杂对数策略方法。相比之下,我们提出了一种简单的解决方案,使用一个 $Q$-target 并结合行为克隆(BC)损失惩罚作为不确定性度量,
→
PDF
4 months ago
Prev
Next