Apr, 2024

连续控制增强学习:分布分布式 DrQ 算法

TL;DRDistributed Distributional DrQ 是一个无模型离线 RL 算法,用于连续控制任务,基于代理的状态和观测,是一个带有数据增强和评论家值函数分布性观点的演员 - 评论家方法。通过使用分布分布式 DDPG 作为基础,该算法在各种连续控制任务中取得了出色的性能。