May, 2024

CTD4 - 深度连续分布式算法与卡尔曼多评判员融合的演员 - 评论家代理

TL;DR本文介绍了一种基于连续动作空间的连续分布式无模型强化学习算法,通过引入多个融合的评论家和 Kalman 融合机制来简化实现分布式强化学习,并验证了其在执行复杂的连续控制任务中具有易于训练和高样本效率的解决方案。