Apr, 2024

AFU:用于连续控制的离策略强化学习中的无演员评论家更新

TL;DR该研究论文介绍了一种名为AFU的离策略深度强化学习算法,它通过使用回归和条件梯度缩放的解决方案,以全新的方式解决了连续动作空间中Q学习中具有挑战性的“最大Q问题”。AFU具有一个演员,但它的评论家更新完全独立于其演员,因此演员可以自由选择。实验结果表明,AFU的两个版本都具有样本效率,使其成为首个与最先进的演员-评论家方法竞争的全模型离策略算法。