Oct, 2023

DSAC-T: 具有三个改进的分布式软行动者 - 评论家算法

TL;DR这篇论文介绍了对标准的 DSAC 算法进行三个重要修正,包括评论家梯度调整、双值分布学习和基于方差的目标回报剪辑,修改后的 RL 算法被称为 DSAC-T 或 DSAC-v2,在各种基准任务中的表现进行了系统评估,结果显示,在所有测试环境中,不需要任何任务特定的超参数调整,DSAC-T 超越了许多主流的无模型 RL 算法,包括 SAC、TD3、DDPG、TRPO 和 PPO,并且与标准版本相比,DSAC-T 确保了高度稳定的学习过程,并在不同的奖励尺度下具有相似的性能。