Mar, 2024

悲观主体评价缓冲区的验证原因

TL;DR本研究探讨了通过悲观时序差异目标更新的评论家网络中的错误累积问题,并表明评论家逼近误差可以通过类似于贝尔曼值的递归固定点模型进行近似。我们利用这样的递归定义检索出悲观评论家无偏的条件。基于这些发现,我们提出了一种新的学习算法 - 验证悲观学习(VPL)。VPL 使用一个小的验证缓冲区来调整在整个智能体训练过程中的悲观水平,使得评论家目标的逼近误差最小化。我们在各种运动和操纵任务上研究了所提出的方法,并报告了在样本效率和性能方面的改进。